如何使用一組文本文件創建語料庫 - python？

我有一套文檔ID s（keys.csv），我用它從文檔源中獲取一組文檔文檔。我希望將所有這些文本文檔收集到一個語料庫中以供進一步分析（如餘弦相似性）。如何使用一組文本文件創建語料庫 - python？

我正在使用下面的代碼將每個文本文檔追加到語料庫中，但我不確定這是否會起作用。用這些文本文檔創建語料庫是否有更好的方法？

keys = pandas.read_csv(keys.csv) 
for i in keys: 
    ID = i 
    doc = function_to_get_document(ID) 
    corpus = corpus.append(doc)

來源

2017-02-21 Minu

'corpus'是一個列表嗎？ –

最好的答案是測試它，看看它是否符合你的目的。更多的是，你的ID變量是無用的。 – 2017-02-21 09:10:25

也許像'corpus = [function_to_get_document（ID）for pandas.read_csv（keys.csv）]''？ – jezrael

如果csv有獨特ID使用list comprehension列IDcol，輸出爲list：

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]

樣品：

print (pd.read_csv('keys.csv')) 
    IDcol 
0  1 
1  2 
2  3 

def function_to_get_document(x): 
    return x + 1 

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']] 
print (corpus) 
[2, 3, 4]

來源

2017-02-21 09:16:39 jezrael

如何使用一組文本文件創建語料庫 - python？

回答

相關問題