2017-02-22 77 views
0

好的,這是一個關於向Gensim python庫提供訓練數據時需要什麼數據結構的具體問題。尤其是,在提供數據的任何數據中,必須對構成文檔的內容有一個隱含的理解(否則它就不能找到tf-idf)。Gensim數據解析

有關具體示例,維基百科轉儲在庫的教程中用於培訓目的。維基百科轉儲以XML提供。什麼讓gensim瞭解單獨的文檔?這種理解是否依賴於xml元素的選擇?

回答

1

這在前兩個Gensim教程Corpora and Vector Spaces TutorialCorpora and Vector Spaces中得到了回答。他們用代碼示例引導您完成所有步驟。

它們以documents對象(字符串列表)開始,顯示如何創建字典和語料庫,以及如何使用字典和語料庫創建LDA和LSI等模型。

Experiments on the English Wikipedia教程示例代碼可以看出,字典和語料庫是從序列化文件中讀取的。我建議通過所有tutorials和示例代碼。

1

Gensim與數據源無關。對於其大部分功能,它只需要一個句子列表作爲文檔。實際上,這些文件甚至可以由組成單詞組成(即使用word2vec on graphs)。

對於解析維基百科轉儲和其他常用語料庫類型,它提供了some utility classes。檢查其API docscorpora.*