這是我第一次涉足NLP,請原諒我的無知。我正在尋找一種方法從用戶的社交檔案中提取興趣/愛好/愛好。這裏是所有的利益/喜歡/愛好是大膽的例子:從社交簡介中提取用戶興趣
「我認爲自己是一個非常不同的角色。我是一個專業的 摔跤手,但我會採取子彈爲牆•電子。我訓練像健身房一個人的種族屠殺機器,但我哭了 「世界末日,」我會前往爆炸到AC/DC,我很認真 考慮獲得塞爾達傳說紋身我是4 20友好。我 喜歡黨它與兄弟會的人羣中一個晚上,掛出 我火人朋友旁邊,玩暈和世界 魔獸下了,果醬與大家還不朋友t接下來就是小於 。我年輕的朋友是16,我最大的朋友是66,我會唱 卡拉OK 在酒吧,我朋友們的集體 心理醫生/肩膀。」
的配置文件是純文本。沒有元標記或id,只是一段文字,它只是一段文字。
我很納悶的想法是把每個名詞都拿來與Freebase相匹配,看看它是一個活動/藝術家/電影/書籍等。問題是,雖然大多數實體提到的將是用戶喜歡的東西,但她也會提到她的東西不是就像我有區分2.
的絕非我有2個問題:
- 什麼NLP的子場我應該看什麼?一些googleable算法/技術/作者將不勝感激。
- 這個問題有多難?
謝謝!
遺憾的是,沒有標籤或api。它幾乎是文字的段落。感謝NLTK提示,我喜歡python。我會去捅。 – stackOverlord 2012-03-04 19:20:53