2016-12-15 71 views
3

我想在執行主題建模之前刪除停用詞。我注意到一些否定詞(通常不是,也不是,沒有,等等)通常被認爲是停用詞。例如,NLTK,spacy和sklearn在他們的停用詞列表中包括「不」。但是,如果我們從下面的這些句子中刪除「不」,它們將失去重要意義,並且這對於主題建模或情感分析來說是不準確的。NLP - 爲什麼「不」是一個停止詞?

1). StackOverflow is helpful  => StackOverflow helpful 
2). StackOverflow is not helpful => StackOverflow helpful 

誰能請解釋爲什麼這些否定詞通常被認爲是停止的話嗎?

+1

這個問題讓人覺得它會在更專業的網站上得到更好的答案,因爲它是關於軟件背後的理論,而不是如何編程。也許http://datascience.stackexchange.com/? – IMSoP

+4

我投票結束這個問題,因爲它已被手動遷移到不同的堆棧交換:http://datascience.stackexchange.com/questions/15765/nlp-why-is-not-a-stop-word – IMSoP

+0

是同意,只是不能自己關閉...所以回答我自己的問題,並試圖解決它。但是我不能直到明天 –

回答