2017-08-21 80 views
0

我正在語言學論文上進行主題建模,並使用Gensim短語來標識頻繁搭配。我希望能夠將術語標記爲「do-support」和「it-cleft」作爲一個單詞,因爲它們是特定的語言術語。然而,如果我在取出停用詞後製作Gensim模型,則不會找到這些搭配(因爲它們包含停用詞),如果在取出停用詞(或不包括「it」或「do」的停用詞)後製作模型,它確定了大量不相關的搭配。有沒有辦法手動添加應該被Gensim短語識別爲搭配的短語? 謝謝!手動將搭配添加到gensim phraser

回答

0

Phrases類沒有能力添加所需的bigrams。其技術一般不會期待'停用詞'在處理前被移除。

您可以通過嘗試不同的'閾值'和'min_count'值來調整Phrases行爲。

如果你發現一些設置連接所需的短語,但隨後也仍然符合相同的統計閾值一些不需要的短語,也許,這不是一個很大的傷害,儘管一些短語的非直觀性。所有這些統計技術都是不精確的,通常最好通過最終的定量目標結果來判斷 - 而不是通過臨時審查發現任意的怪異/角落案例。

如果您確實想挖掘代碼以添加強制執行某些bigrams的功能,則可以通過Phraser實用程序類更輕鬆,也可以在gensim的phrases.py模塊中更輕鬆。以一些額外的前期計算爲代價,它將數據減少到更小的結構,只有後來通過組合閾值的bigrams。因此,它可以節省一點內存,稍後可以執行稍後的語料庫轉換,但是如果只保留Phraser,則無法在其創建時使用的其他閾值/ min_counts以下。但是,在創建之後,你可能會迫使額外的手工選擇二極管進入其結構,比篡改完整的Phrases模型更容易。

+0

嗨@gojomo。你可以請讓我知道如果你知道如何解決這個問題:https://stackoverflow.com/questions/47735393/gensim-phrases-usage-to-filter-n-grams –