我必須從單詞數據集中訓練語言模型。爲此,我需要將所有文本排列在一列中,因爲這是模型工作的唯一方式。到現在爲止,我可以根據需要使用Python將文檔拆分爲一列,而不會出現任何問題。從python中的列表中的符號解析單詞
例如:根據需要
Zomer,
1951.
De
wereld
bestond
uit
het
wazige
blauw
van
een
wolkenloze
zomerhemel,
het
goudgroen
van
koel,
geruststellend
naaldbos
en
het
lijnrechte
wit
van
de
betonnen
weg,
die
nieuw
was,
hij
stond
nog
op
geen
enkele
kaart.
當我試圖採取符號(逗號,冒號,分號等)到一個新的行中的問題開始 申請公開說明書
Zomer, 1951
De wereld bestond uit het wazige blauw van een wolkenloze zomerhemel, het goudgroen van koel, geruststellend naaldbos en het lijnrechte wit van de betonnen weg, die nieuw was, hij stond nog op geen enkele kaart.
文獻並且在每次完全停止後包括額外的空白空間(。) 例如:
Zomer
,
1951
.
De
wereld
我還沒有找到適當的方法來做到這一點。到目前爲止,我已嘗試使用不同的方法,例如使用.split()
和.find()
等功能,但沒有任何積極的結果。打開文件後:
fileHandle = open("C:\Language Model\Corpora\Computing Clients 3.txt",'r')
我已經嘗試過循環和條件,但沒有任何工作。和所有到現在爲止得到的結果是:
AttributeError: 'list' object has no attribute 'find'
我知道也許我失去了一些東西,這就是爲什麼我問你寶貴的幫助,因爲這些文件是如此巨大,這將是無用做手工知道Python可以爲我做到這一點。
請出示了「循環和條件」您已嘗試 – fnokke 2013-02-08 15:05:38
您如何看待任何人是不相關的代碼要去幫助? – XORcist 2013-02-08 15:05:47
我很肯定nltk有一個方法 – dm03514 2013-02-08 15:07:33