我正在處理一個單詞項目包,我想從停止詞的NLTK列表中刪除停用詞。在那一刻,我這樣做:什麼是使用NLTK停用詞的正確方法?
words.difference_update(set(stopwords.words("english")))
(字被包含在語料庫中的所有單詞一組)
然而,當我看的stopwords.words("english")
我看到這樣的話的內容: 「cann」和「doesn」。我假設這些是「不能」和「不」等單詞的詞語前綴,也可能是其他詞。
因此,我認爲有一種方法可以檢查一個單詞是否在停用詞表中,它比純字符串相等更復雜,但我無法弄清楚它是什麼。任何幫助表示讚賞。
您還可以下載整個語料庫[這裏](https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip),並在您閒暇時閱讀/修改它。這[問題](https://stackoverflow.com/questions/37701305/where-to-find-an-exhaustive-list-of-stop-words/37712453#37712453)進入如何修改NLTK列表。 – patrick