詞彙處理函數

我正在研究卷積神經網絡的嵌入輸入，我理解Word2vec。但是，在CNN text classification。 dennybritz使用功能learn.preprocessing.VocabularyProcessor。在document。他們說它會將文檔映射到單詞ID序列。我不太清楚這個功能是如何工作的。它創建一個ID列表，然後用單詞映射Ids，或者它有一個單詞和它們的ID字典，當運行功能它只給IDS？詞彙處理函數

來源

2016-10-03 ngoduyvu

可以說你只有兩個文件I like pizza和I like Pasta。你的整個詞彙由這些詞組成(I, like, pizza, pasta)對於詞彙表中的每一個單詞，都有一個如此相關的索引（1,2,3,4）。現在給出一個文件，如I like pasta它可以被轉換成矢量[1,2,4]。這是learn.preprocessing.VocabularyProcessor所做的。參數max_document_length確保所有文件都通過或者通過填充數字長度max_document_length的載體，如果其長度大於max_document_length希望這有助於你

來源

2016-10-03 07:20:43 Kashyap

謝謝卡什亞普表示，如果他們的長度比max_document_length短剪裁他們，所以它只將文檔編碼到向量空間中。它在自然語言處理中有名字嗎？ – ngoduyvu

@ngoduyvu據我所知沒有......這是在大多數自然語言處理系統中完成的預處理步驟之一。 – Kashyap

max_document_length應該是不同單詞的數量 – zsong

詞彙處理函數

回答

相關問題