創建詞的其他形式[名詞，形容詞，複數，動詞..一切]

-2

其實我正在爲郵輪公司做評論分析。我不能告訴你整個程序，因爲它很長，但至少是一個快照。我把所有的評論，分成幾個句子，然後從評論中提取一些短語......例如， '美妙的小屋'，'優質的服務'。現在爲了情感分析，我必須將該短語的所有名詞映射到特定的主題。現在在那個映射中，我需要所有名詞的同義詞和所有關於這個詞的詞語。所以我的文本挖掘的最終結果將會更加高效。我想你對我正在做的事情有一點點想法。我會重複我的問題..在Excel中我有一行單詞或說名詞..當我運行代碼[R，VBA或任何]它應該給我與這些單詞有關的所有單詞.. [我提取同義詞與vba代碼]。希望你明白了..？創建詞的其他形式[名詞，形容詞，複數，動詞..一切]

來源

2015-02-11 Dharam

嗯這樣的字典用例是什麼？也許把詞彙轉換成一個共同的根源是另一種選擇。如果沒有，你應該看看像[WordNet]這樣的數據庫（http://en.wikipedia.org/wiki/WordNet）。無論如何，這個問題可能太廣泛了。 – lukeA 2015-02-11 11:20:59

我不知道R綁定，但看到https://www.nodebox.net/code/index.php/Linguistics - verb.infinitive（）/ present_participle（） - 他們採取的方法記錄 – 2015-02-11 11:27:16

@Roland：可以一個OP接受對暫緩問題的回答？ – lawyeR 2015-02-11 13:28:44

您可以使用包tm及其詞幹功能。

如果你的文本文件是

text <- c("taste", "tastes", "tasting")

您可以創建一個文集

corpus <- Corpus(VectorSource(text)

然後有腦幹功能剝離的話他們的根。（助手功能避免了一些問題。）

stemDocumentfix <- function(x){ # put in business code 
    PlainTextDocument(paste(stemDocument(unlist(strsplit(as.character(x), " "))), collapse=' ')) 
} 

corpus <- tm_map(corpus, stemDocumentfix) 

inspect(corpus) 
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>> 

[[1]] 
<<PlainTextDocument (metadata: 7)>> 
tast 

[[2]] 
<<PlainTextDocument (metadata: 7)>> 
tast 

[[3]] 
<<PlainTextDocument (metadata: 7)>> 
tast

您也可以看看qdap包，它提供了一系列的功能，用於文本挖掘。

來源

2015-02-11 12:06:03 lawyeR

這個答案適合你嗎？你會考慮接受它嗎？ – lawyeR 2015-02-12 02:32:56

感謝您的回覆......我認爲您認爲我擁有所有的單詞，但我不是。那就是我想要的。所有單詞!!!我有1000的單詞，我必須找到相關單詞..我知道某種字典會給我，但它不是一個單詞有1000個單詞......所以怎麼辦？ – Dharam 2015-02-13 12:52:38

創建詞的其他形式[名詞，形容詞，複數，動詞..一切]

回答

相關問題