0
我有一套文檔ID
s(keys.csv),我用它從文檔源中獲取一組文檔文檔。我希望將所有這些文本文檔收集到一個語料庫中以供進一步分析(如餘弦相似性)。如何使用一組文本文件創建語料庫 - python?
我正在使用下面的代碼將每個文本文檔追加到語料庫中,但我不確定這是否會起作用。用這些文本文檔創建語料庫是否有更好的方法?
keys = pandas.read_csv(keys.csv)
for i in keys:
ID = i
doc = function_to_get_document(ID)
corpus = corpus.append(doc)
'corpus'是一個列表嗎? –
最好的答案是測試它,看看它是否符合你的目的。更多的是,你的ID變量是無用的。 – 2017-02-21 09:10:25
也許像'corpus = [function_to_get_document(ID)for pandas.read_csv(keys.csv)]''? – jezrael