2015-02-11 130 views
-2

其實我正在爲郵輪公司做評論分析。我不能告訴你整個程序,因爲它很長,但至少是一個快照。我把所有的評論,分成幾個句子,然後從評論中提取一些短語......例如, '美妙的小屋','優質的服務'。現在爲了情感分析,我必須將該短語的所有名詞映射到特定的主題。現在在那個映射中,我需要所有名詞的同義詞和所有關於這個詞的詞語。所以我的文本挖掘的最終結果將會更加高效。我想你對我正在做的事情有一點點想法。 我會重複我的問題..在Excel中我有一行單詞或說名詞..當我運行代碼[R,VBA或任何]它應該給我與這些單詞有關的所有單詞.. [我提取同義詞與vba代碼]。 希望你明白了..?創建詞的其他形式[名詞,形容詞,複數,動詞..一切]

+1

嗯這樣的字典用例是什麼?也許把詞彙轉換成一個共同的根源是另一種選擇。如果沒有,你應該看看像[WordNet]這樣的數據庫(http://en.wikipedia.org/wiki/WordNet)。無論如何,這個問題可能太廣泛了。 – lukeA 2015-02-11 11:20:59

+0

我不知道R綁定,但看到https://www.nodebox.net/code/index.php/Linguistics - verb.infinitive()/ present_participle() - 他們採取的方法記錄 – 2015-02-11 11:27:16

+0

@Roland:可以一個OP接受對暫緩問題的回答? – lawyeR 2015-02-11 13:28:44

回答

4

您可以使用包tm及其詞幹功能。

如果你的文本文件是

text <- c("taste", "tastes", "tasting") 

您可以創建一個文集

corpus <- Corpus(VectorSource(text) 

然後有腦幹功能剝離的話他們的根。 (助手功能避免了一些問題。)

stemDocumentfix <- function(x){ # put in business code 
    PlainTextDocument(paste(stemDocument(unlist(strsplit(as.character(x), " "))), collapse=' ')) 
} 

corpus <- tm_map(corpus, stemDocumentfix) 

inspect(corpus) 
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>> 

[[1]] 
<<PlainTextDocument (metadata: 7)>> 
tast 

[[2]] 
<<PlainTextDocument (metadata: 7)>> 
tast 

[[3]] 
<<PlainTextDocument (metadata: 7)>> 
tast 

您也可以看看qdap包,它提供了一系列的功能,用於文本挖掘。

+1

這個答案適合你嗎?你會考慮接受它嗎? – lawyeR 2015-02-12 02:32:56

+0

感謝您的回覆......我認爲您認爲我擁有所有的單詞,但我不是。那就是我想要的。所有單詞!!!我有1000的單詞,我必須找到相關單詞..我知道某種字典會給我,但它不是一個單詞有1000個單詞......所以怎麼辦? – Dharam 2015-02-13 12:52:38

相關問題