2017-02-21 112 views
0

我有一套文檔ID s(keys.csv),我用它從文檔源中獲取一組文檔文檔。我希望將所有這些文本文檔收集到一個語料庫中以供進一步分析(如餘弦相似性)。如何使用一組文本文件創建語料庫 - python?

我正在使用下面的代碼將每個文本文檔追加到語料庫中,但我不確定這是否會起作用。用這些文本文檔創建語料庫是否有更好的方法?

keys = pandas.read_csv(keys.csv) 
for i in keys: 
    ID = i 
    doc = function_to_get_document(ID) 
    corpus = corpus.append(doc) 
+0

'corpus'是一個列表嗎? –

+1

最好的答案是測試它,看看它是否符合你的目的。更多的是,你的ID變量是無用的。 – 2017-02-21 09:10:25

+0

也許像'corpus = [function_to_get_document(ID)for pandas.read_csv(keys.csv)]''? – jezrael

回答

1

如果csv有獨特ID使用list comprehensionIDcol,輸出爲list

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']] 

樣品:

print (pd.read_csv('keys.csv')) 
    IDcol 
0  1 
1  2 
2  3 

def function_to_get_document(x): 
    return x + 1 

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']] 
print (corpus) 
[2, 3, 4] 
相關問題