2014-12-27 130 views
0

我想創建一個使用D3 js和斯坦福NLP的詞雲。 詞雲將概念中的單詞分組。 像這樣:使用斯坦福NLP庫的詞雲

enter image description here

每個雲是一個「概念」和內部氣泡「子概念」在概念。

For exampleif concept is "World Economic Issues" 
The Words under it would be - Oil Price, China Economy, Euro Zone Crisis, Japan debt crisis 

我已經使用了詞性標註器和情感分析,但不知道如何創建詞雲。

斯坦福德自然語言處理庫中是否有一些庫可以從文本概念化詞彙中進行概念化? 請讓我知道。

在此先感謝

回答

1

的回答你的問題在很大程度上取決於你想要什麼樣的類別來表示。下面給出了幾個例子。雖然,注意到,在所有這些情況下,你要吵類別:

  • 主題建模(見http://nlp.stanford.edu/software/tmt/tmt-0.4/)。在大量的文本上運行此操作會爲您提供固定數量的「主題」,其中包含與其相關的單詞。這些是以某種模糊的方式涉及相同概念的單詞,可能與您所描述的最接近。在vanilla案例中,最終會得到固定數量類別的單詞集合 - 但是,類別本身沒有標籤。如果您想事先修復類別,請參閱標籤LDA(請參閱頁面底部)。 (https://code.google.com/p/word2vec/http://nlp.stanford.edu/projects/glove/)。這些將爲您提供每個單詞的載體。現在,您可以計算您的主題標籤中包含最接近餘弦相似度的詞(http://en.wikipedia.org/wiki/Cosine_similarity#Definition)。這會給你與原詞有關的詞語;從形式上講,它會給你的單詞傾向於在與原始單詞相似的句子中出現。

  • 斯坦福大學NLP工具(http://nlp.stanford.edu/software/corenlp.shtml)。這是一組標準的NLP工具,您可以根據這些工具進行羣集。一般而言,這些將會是非常具體的解釋。例如,詞性標註器會將名詞聚合在一起,並且動詞聚合在一起等。情緒分析器將聚集正面情緒詞彙和負面詞彙。指定的實體標記器將人羣聚集在一起,並組織在一起等。

  • 詞頻。這些詞雲通常是使用詞頻創建的。如果您的每個主題都有一堆文檔,則可以統計每個單詞在主題中出現的次數,並將其用作可視化文件。如果最後有很多常用詞,您可以嘗試通過詞性標記進行過濾,或者嘗試使用tf-idf(http://en.wikipedia.org/wiki/Tf%E2%80%93idf)值或類似的值。

希望這有助於!

+0

太棒了!感謝你的想法@Gabor Angeli – Ram 2014-12-29 22:29:59