我正在研究卷積神經網絡的嵌入輸入,我理解Word2vec。但是,在CNN text classification。 dennybritz使用功能learn.preprocessing.VocabularyProcessor
。在document。他們說它會將文檔映射到單詞ID序列。我不太清楚這個功能是如何工作的。它創建一個ID列表,然後用單詞映射Ids,或者它有一個單詞和它們的ID字典,當運行功能它只給IDS?詞彙處理函數
Q
詞彙處理函數
6
A
回答
15
可以說你只有兩個文件I like pizza
和I like Pasta
。你的整個詞彙由這些詞組成(I, like, pizza, pasta)
對於詞彙表中的每一個單詞,都有一個如此相關的索引(1,2,3,4)。現在給出一個文件,如I like pasta
它可以被轉換成矢量[1,2,4]。這是learn.preprocessing.VocabularyProcessor
所做的。參數max_document_length
確保所有文件都通過或者通過填充數字長度max_document_length
的載體,如果其長度大於max_document_length
希望這有助於你
相關問題
- 1. 潛在迪裏克萊特分配如何處理詞彙不在詞彙表
- 2. 詞彙或預處理問題/ xmlversion.h在iOS應用
- 3. 詞彙和預處理問題上項目的ios命名
- 4. 詞彙或預處理問題:「MyViewController.h」找不到文件
- 5. 並行數據處理結果彙總
- 6. 預處理函數
- 7. 處理多個wxWidgets彙編
- 8. 關於數字Literals詞彙
- 9. MySQL處理謂詞
- 10. 通過網絡管理Plone詞彙表
- 11. JavaScript函數數據處理
- 12. 處理函數和參數
- 13. RDF詞彙和謂詞
- 14. KeyError:單詞'詞彙'不在詞彙表中'word2vec
- 15. 指數詞幹處理在C#或Ruby
- 16. 函數gets()彙編
- 17. 爲什麼C#沒有詞彙嵌套函數?
- 18. 多處理函數調用
- 19. 嵌套函數 - 處理
- 20. Azure函數錯誤處理?
- 21. 錯誤STOL處理()函數++
- 22. 處理觸摸的函數
- 23. 處理空parseInt函數
- 24. Jquery的處理函數+ requireJs
- 25. 處理掛鉤函數
- 26. 錯誤lambda函數處理
- 27. SIGINT處理和函數getline
- 28. 函數處理異常
- 29. 劫持React處理函數
- 30. 詞彙範圍pragmas
謝謝卡什亞普表示,如果他們的長度比
max_document_length
短剪裁他們,所以它只將文檔編碼到向量空間中。它在自然語言處理中有名字嗎? – ngoduyvu@ngoduyvu據我所知沒有......這是在大多數自然語言處理系統中完成的預處理步驟之一。 – Kashyap
max_document_length應該是不同單詞的數量 – zsong