我正在語言學論文上進行主題建模,並使用Gensim短語來標識頻繁搭配。我希望能夠將術語標記爲「do-support」和「it-cleft」作爲一個單詞,因爲它們是特定的語言術語。然而,如果我在取出停用詞後製作Gensim模型,則不會找到這些搭配(因爲它們包含停用詞),如果在取出停用詞(或不包括「it」或「do」的停用詞)後製作模型,它確定了大量不相關的搭配。有沒有辦法手動添加應該被Gensim短語識別爲搭配的短語? 謝謝!手動將搭配添加到gensim phraser
0
A
回答
0
Phrases
類沒有能力添加所需的bigrams。其技術一般不會期待'停用詞'在處理前被移除。
您可以通過嘗試不同的'閾值'和'min_count'值來調整Phrases
行爲。
如果你發現一些設置是連接所需的短語,但隨後也仍然符合相同的統計閾值一些不需要的短語,也許,這不是一個很大的傷害,儘管一些短語的非直觀性。所有這些統計技術都是不精確的,通常最好通過最終的定量目標結果來判斷 - 而不是通過臨時審查發現任意的怪異/角落案例。
如果您確實想挖掘代碼以添加強制執行某些bigrams的功能,則可以通過Phraser
實用程序類更輕鬆,也可以在gensim的phrases.py
模塊中更輕鬆。以一些額外的前期計算爲代價,它將數據減少到更小的結構,只有後來通過組合閾值的bigrams。因此,它可以節省一點內存,稍後可以執行稍後的語料庫轉換,但是如果只保留Phraser
,則無法在其創建時使用的其他閾值/ min_counts以下。但是,在創建之後,你可能會迫使額外的手工選擇二極管進入其結構,比篡改完整的Phrases
模型更容易。
相關問題
- 1. Gensim:不能導入名稱「Phraser」
- 2. 套裝搭配chmod 0666手動
- 3. 手動將元素添加到光標
- 4. 手動添加UITabBar到UITableViewController
- 5. 當手動添加行時,將圖例添加到ggplot
- 6. 如何將標記添加到gensim詞典
- 7. GORM一對一搭配grails腳手架?
- 8. Gensim - 試圖加載在gensim
- 9. 如何手動添加woocommerce產品添加並將用戶分配給它?
- 10. Spark RDD關聯性/手動搭配數據分區
- 11. 將滑動手勢添加到平滑Div滾動
- 12. Neo4J:自動將節點添加到手動選擇的索引
- 13. 如何手動將活動添加到Bugzilla?
- 14. 將複選框添加到ssrs將被手動點擊的tablix
- 15. 如何通過手動分配索引將數據添加到NSMutableArray中?
- 16. 手動添加活動
- 17. 添加活動到手勢檢測器
- 18. 手動添加文本到html.ValidationSummary?
- 19. 手動添加行到StreamingHttpResponse(Django)
- 20. 手動添加LWUIT插件到netbeans
- 21. 手動添加JavaScript庫到WebStorm
- 22. 添加滾動到上/下射手
- 23. 無法手動添加文件到TFS
- 24. Symfony - 手動添加phpxmlrpc到供應商
- 25. 手動添加文件到classpath中
- 26. 手動添加行值到Gridview
- 27. 手動添加特殊字符到pdf
- 28. 手動添加數據到gridcontrol devexpress C#
- 29. 如何手動添加庫到Xcode
- 30. 將投擲手勢添加到ImageView
嗨@gojomo。你可以請讓我知道如果你知道如何解決這個問題:https://stackoverflow.com/questions/47735393/gensim-phrases-usage-to-filter-n-grams –