2017-08-15 45 views
0

是否可以從文檔中刪除特定類型的單詞(例如:文章,名詞,代詞,形容詞,動詞,副詞,連詞,介詞和所有格代詞)來自文本正文的停用詞?如果是這樣,怎麼樣?我想象一個自然語言處理庫會有這個功能,但我還沒有找到任何東西。R - 從文檔中刪除單詞類別

+1

在NLP世界中稱爲「詞類型」的詞類稱爲「詞性標籤」或POS標籤。 – Aaron

回答

0

結賬koRpus::treetag

從CRAN:

這個函數調用TreeTagger [1]來標記和詞性標註給定文本的本地安裝。

0

您只需使用第三方庫將他們的「詞性」(POS)中的單詞標記爲句子,然後刪除不想要的詞性標籤(例如,名詞)保持。這些庫的例子有:

所有三個庫使用POS標籤this list,被稱爲賓州樹庫標記集。一個POS的

實施例標記的句子:

句子:,能夠從文件中刪除特定類型的單詞

POS標記爲:它/ PRP是/ VBZ可能/ JJ到/從/ IN文件/ NNS中刪除/ VB特定/ JJ類型/ NNS/IN字/ NNS