Gensim數據解析

好的，這是一個關於向Gensim python庫提供訓練數據時需要什麼數據結構的具體問題。尤其是，在提供數據的任何數據中，必須對構成文檔的內容有一個隱含的理解（否則它就不能找到tf-idf）。Gensim數據解析

有關具體示例，維基百科轉儲在庫的教程中用於培訓目的。維基百科轉儲以XML提供。什麼讓gensim瞭解單獨的文檔？這種理解是否依賴於xml元素的選擇？

2017-02-22 Stumbler

這在前兩個Gensim教程Corpora and Vector Spaces Tutorial和Corpora and Vector Spaces中得到了回答。他們用代碼示例引導您完成所有步驟。

它們以documents對象（字符串列表）開始，顯示如何創建字典和語料庫，以及如何使用字典和語料庫創建LDA和LSI等模型。

從Experiments on the English Wikipedia教程示例代碼可以看出，字典和語料庫是從序列化文件中讀取的。我建議通過所有tutorials和示例代碼。

2017-03-03 22:43:19 tkja

Gensim與數據源無關。對於其大部分功能，它只需要一個句子列表作爲文檔。實際上，這些文件甚至可以由組成單詞組成（即使用word2vec on graphs）。

對於解析維基百科轉儲和其他常用語料庫類型，它提供了some utility classes。檢查其API docs的corpora.*

2017-03-16 10:36:23 pembeci

回答