2013-02-18 61 views
0

我想在R中使用Wordnet的getLemma函數推理語料庫,但我不確定如何使用它。如何使用Wordnet在R中進行詞式化?

下面是使用R中共發現包詞形還原給定的文檔..

filter <- getTermFilter("StartsWithFilter", "car", TRUE) 
terms <- getIndexTerms("NOUN", 5, filter) 
sapply(terms, getLemma) 

我的問題是我有一個包含5000個字的文件,在這種情況下,我想每一個字轉換成其基地/根詞。例如:發燒 - >發燒;發燒 - >發燒

我想lemmatize語料庫中所有的話,不會將其限制爲詞StartingWith ......,我也不明白在terms <- getIndexTerms("NOUN", 5, filter)

數字5的意義這將是很好,如果有人能爲我解決這個問題。

感謝

+2

歡迎SO。如果你想獲得答案,你應該提供一個可重複的例子,並描述你已經嘗試做什麼... – juba 2013-02-18 17:58:00

+0

filter < - getTermFilter(「StartsWithFilter」,「car」,TRUE)terms < - getIndexTerms(「NOUN」, 5,過濾器)sapply(terms,getLemma)我想要將語料庫中的所有單詞詞彙化並且不會將其限制爲詞StartingWith ...,我也不理解數字5在「terms < - getIndexTerms(」 NOUN「,5,過濾器)」 – user1946217 2013-02-19 05:35:33

回答