2016-10-03 82 views
6

我正在研究卷積神經網絡的嵌入輸入,我理解Word2vec。但是,在CNN text classification。 dennybritz使用功能learn.preprocessing.VocabularyProcessor。在document。他們說它會將文檔映射到單詞ID序列。我不太清楚這個功能是如何工作的。它創建一個ID列表,然後用單詞映射Ids,或者它有一個單詞和它們的ID字典,當運行功能它只給IDS?詞彙處理函數

回答

15

可以說你只有兩個文件I like pizzaI like Pasta。你的整個詞彙由這些詞組成(I, like, pizza, pasta)對於詞彙表中的每一個單詞,都有一個如此相關的索引(1,2,3,4)。現在給出一個文件,如I like pasta它可以被轉換成矢量[1,2,4]。這是learn.preprocessing.VocabularyProcessor所做的。參數max_document_length確保所有文件都通過或者通過填充數字長度max_document_length的載體,如果其長度大於max_document_length希望這有助於你

+0

謝謝卡什亞普表示,如果他們的長度比max_document_length短剪裁他們,所以它只將文檔編碼到向量空間中。它在自然語言處理中有名字嗎? – ngoduyvu

+0

@ngoduyvu據我所知沒有......這是在大多數自然語言處理系統中完成的預處理步驟之一。 – Kashyap

+0

max_document_length應該是不同單詞的數量 – zsong