手動將搭配添加到gensim phraser

我正在語言學論文上進行主題建模，並使用Gensim短語來標識頻繁搭配。我希望能夠將術語標記爲「do-support」和「it-cleft」作爲一個單詞，因爲它們是特定的語言術語。然而，如果我在取出停用詞後製作Gensim模型，則不會找到這些搭配（因爲它們包含停用詞），如果在取出停用詞（或不包括「it」或「do」的停用詞）後製作模型，它確定了大量不相關的搭配。有沒有辦法手動添加應該被Gensim短語識別爲搭配的短語？謝謝！手動將搭配添加到gensim phraser

來源

2017-08-21 Aleksandra

Phrases類沒有能力添加所需的bigrams。其技術一般不會期待'停用詞'在處理前被移除。

您可以通過嘗試不同的'閾值'和'min_count'值來調整Phrases行爲。

如果你發現一些設置是連接所需的短語，但隨後也仍然符合相同的統計閾值一些不需要的短語，也許，這不是一個很大的傷害，儘管一些短語的非直觀性。所有這些統計技術都是不精確的，通常最好通過最終的定量目標結果來判斷 - 而不是通過臨時審查發現任意的怪異/角落案例。

如果您確實想挖掘代碼以添加強制執行某些bigrams的功能，則可以通過Phraser實用程序類更輕鬆，也可以在gensim的phrases.py模塊中更輕鬆。以一些額外的前期計算爲代價，它將數據減少到更小的結構，只有後來通過組合閾值的bigrams。因此，它可以節省一點內存，稍後可以執行稍後的語料庫轉換，但是如果只保留Phraser，則無法在其創建時使用的其他閾值/ min_counts以下。但是，在創建之後，你可能會迫使額外的手工選擇二極管進入其結構，比篡改完整的Phrases模型更容易。

來源

2017-08-21 22:53:20 gojomo

嗨@gojomo。你可以請讓我知道如果你知道如何解決這個問題：https://stackoverflow.com/questions/47735393/gensim-phrases-usage-to-filter-n-grams –

手動將搭配添加到gensim phraser

回答

相關問題