從社交簡介中提取用戶興趣

這是我第一次涉足NLP，請原諒我的無知。我正在尋找一種方法從用戶的社交檔案中提取興趣/愛好/愛好。這裏是所有的利益/喜歡/愛好是大膽的例子：從社交簡介中提取用戶興趣

「我認爲自己是一個非常不同的角色。我是一個專業的 摔跤手，但我會採取子彈爲牆•電子。我訓練像健身房一個人的種族屠殺機器，但我哭了「世界末日，」我會前往爆炸到AC/DC，我很認真考慮獲得塞爾達傳說紋身我是4 20友好。我喜歡黨它與兄弟會的人羣中一個晚上，掛出我火人朋友旁邊，玩暈和世界魔獸下了，果醬與大家還不朋友t接下來就是小於。我年輕的朋友是16，我最大的朋友是66，我會唱卡拉OK 在酒吧，我朋友們的集體心理醫生/肩膀。」

的配置文件是純文本。沒有元標記或id，只是一段文字，它只是一段文字。

我很納悶的想法是把每個名詞都拿來與Freebase相匹配，看看它是一個活動/藝術家/電影/書籍等。問題是，雖然大多數實體提到的將是用戶喜歡的東西，但她也會提到她的東西不是就像我有區分2.

的絕非我有2個問題：

什麼NLP的子場我應該看什麼？一些googleable算法/技術/作者將不勝感激。
這個問題有多難？

謝謝！

來源

2012-03-04 stackOverlord

首先，除非使用NLP來做到這一點對你來說是一個特別的目標，請檢查你的問題域，看看你是否可以完全避免它。

例如：

做了標記（通過本網站或由用戶自備），這些配置文件？
什麼是網站的API化妝用（假設這是你如何正在訪問該數據;如果你刮它，那麼這並不當然適用）？ Facebook是一個很好的例子。如果你閱讀用戶的帖子，你會看到像「摔跤手」，「卡拉OK」等字樣。但如果您查看哪些字段是通過Graph API公開的，您會發現這些活動幾乎總是有一個關聯的FB ID。

我是不是這方面的專家，但我可以推薦一對夫婦的資源引導到NLP的，哪些是對非專家還是新手訪問。第一個是text processing API。這個簡單的Web服務使用REST和JSON IO。它是免費的，似乎有相當大的費率限制。

這個API似乎很大程度上依賴於優秀的Natural Language Tooolkit（NLTK），這是一個成熟的python穩定庫，包括針對問題中的問題的模塊，例如情感分析，標記和塊提取等。

哪個特定的子域與解決OP中的問題最相關？我不知道，但我懷疑NLTK中有一個模塊可以滿足你的需要。找到這個模塊只是一個簡單的模塊API Documentation（它由模塊組織）。閱讀Getting Started部分，其中包含對NLTK模塊的精彩調查以及其中每個模塊的演示。

來源

2012-03-04 08:56:48 doug

遺憾的是，沒有標籤或api。它幾乎是文字的段落。感謝NLTK提示，我喜歡python。我會去捅。 – stackOverlord 2012-03-04 19:20:53

從社交簡介中提取用戶興趣

回答

相關問題