2012-03-04 52 views
2

這是我第一次涉足NLP,請原諒我的無知。我正在尋找一種方法從用戶的社交檔案中提取興趣/愛好/愛好。這裏是所有的利益/喜歡/愛好是大膽的例子:從社交簡介中提取用戶興趣

「我認爲自己是一個非常不同的角色。我是一個專業的 摔跤手,但我會採取子彈爲牆•電子。我訓練像健身房一個人的種族屠殺機器,但我哭了 「世界末日,」我會前往爆炸到AC/DC,我很認真 考慮獲得塞爾達傳說紋身我是4 20友好。我 喜歡它與兄弟會的人羣中一個晚上,掛出 我火人朋友旁邊,玩世界 魔獸下了,果醬與大家還不朋友t接下來就是小於 。我年輕的朋友是16,我最大的朋友是66,我會唱 卡拉OK 酒吧,我朋友們的集體 心理醫生/肩膀。」

的配置文件是純文本。沒有元標記或id,只是一段文字,它只是一段文字。

我很納悶的想法是把每個名詞都拿來與Freebase相匹配,看看它是一個活動/藝術家/電影/書籍等。問題是,雖然大多數實體提到的將是用戶喜歡的東西,但她也會提到她的東西不是就像我有區分2.

的絕非我有2個問題:

  1. 什麼NLP的子場我應該看什麼?一些googleable算法/技術/作者將不勝感激。
  2. 這個問題有多難?

謝謝!

回答

1

首先,除非使用NLP來做到這一點對你來說是一個特別的目標,請檢查你的問題域,看看你是否可以完全避免它。

例如:

  • 做了標記(通過本網站或由 用戶自備),這些配置文件?

  • 什麼是網站的API化妝用(假設這是你如何 正在訪問該數據;如果你刮它,那麼這並不 當然適用)? Facebook是一個很好的例子。如果你閱讀用戶的帖子, 你會看到像「摔跤手」,「卡拉OK」等字樣。但如果您查看 哪些字段是通過Graph API公開的,您會發現這些活動幾乎總是有一個關聯的FB ID。

我是不是這方面的專家,但我可以推薦一對夫婦的資源引導到NLP的,哪些是對非專家還是新手訪問。第一個是text processing API。這個簡單的Web服務使用REST和JSON IO。它是免費的,似乎有相當大的費率限制。

這個API似乎很大程度上依賴於優秀的Natural Language Tooolkit(NLTK),這是一個成熟的python穩定庫,包括針對問題中的問題的模塊,例如情感分析,標記和塊提取等。

哪個特定的子域與解決OP中的問題最相關?我不知道,但我懷疑NLTK中有一個模塊可以滿足你的需要。找到這個模塊只是一個簡單的模塊API Documentation(它由模塊組織)。閱讀Getting Started部分,其中包含對NLTK模塊的精彩調查以及其中每個模塊的演示。

+0

遺憾的是,沒有標籤或api。它幾乎是文字的段落。感謝NLTK提示,我喜歡python。我會去捅。 – stackOverlord 2012-03-04 19:20:53