2015-09-05 79 views
1

我想知道如何使用WordNet從文本文檔中提取概念。早先我已經使用袋子文字方法來測量文本文檔之間的相似性,但是我希望使用文本的語義信息,因此想要從文檔中提取概念。我瞭解Wordnet提供的包含給定單詞的同義詞的系統網絡。但是我想要實現的是如何使用這些信息來定義文本數據中的一個概念。我想知道是否需要在使用sysnet之前分別手動定義概念列表,然後將這些概念與sysnet進行比較。使用Wordnet抽取概念

任何建議或鏈接表示讚賞。

+0

我不會unerstand,你想要做「關鍵字提取」?概念是什麼意思?對不起,如果我的問題聽起來很傻。 – amirouche

回答

0

我想你會發現有太多的概念來列舉他們所有的人都是實際的。相反,您應該考慮使用預先存在的知識來源,例如Wikidata,Wikipedia,Freebase,Tweets的內容,整個網絡或其他來源,作爲構建概念的基礎。您可能會發現聚類算法對定義這些算法很有用。就同​​義詞而言......與概念相關的詞語可能不一定是同義詞(例如,愛與恨都可能與關於對另一個人的情感強度的相同概念有關),某些詞可能屬於多個概念(例如婚禮可能在愛情和婚姻概念中),所以我建議從synset到概念的聯繫不是嚴格的1:1。