2016-06-12 60 views
0

我們是CS學生,我們正在爲我們的GP工作推薦系統。 我們的數據集包含用戶和他們訪問的地方,我們希望使用NLP將這些地方轉化爲活動。 ex。 (商場 - >購物,俱樂部 - >播放...)等等。 以及如果用戶寫下評論,我們可能知道他們正在做什麼樣的活動。使用NLP從簽到和評論中提取信息

我們有點迷失在這一點上,想知道我們應該從哪裏開始,或者我們應該開始尋找什麼?

謝謝。

回答

1

與大多數這種類型的問題,有兩條路:

手寫

但至少可擴展的方法最低的初始成本將手工定義在每個位置相關聯的動作您的數據集並將它們存儲在字典中。如果唯一位置的數量很少,那麼您可以用很少的努力就可以完成所有相關的操作。也可以使用Mechanical Turk等任務出租服務(您可能希望爲每個位置彙總多個答案以濾除低質量關聯)。

機提取

另一種方法是使用一些NLP算法來學習/解壓基於大集的示例中的相應位置。如果沒有satsifactory數據集存在,那麼你需要自己做(這是第一種方法一樣多的工作)。一旦你有一個語料庫,你需要做一些語義角色標籤,一個很好的介紹可以找到here