2011-11-02 32 views
4

我正在嘗試確定我收藏中某些類文檔的最常用關鍵字。假設該領域是「計算機科學」(當然包括網絡,計算機體系結構等),從文本中保留這些特定領域關鍵字的最佳方法是什麼?我嘗試使用Wordnet,但我不太清楚如何最好地使用它來提取這些信息。僅保留特定於域的關鍵字?

是否有任何衆所周知的是,我可以作爲考慮到我不知道事先所有站點特定關鍵字的事實白名單使用的單詞列表?或者是否有任何良好的nlp /機器學習技術來識別域特定的關鍵字?

回答

5

你需要的文件了巨大的訓練集。這個集合的小子集(但仍然是大量的文檔)應該代表給定的域。使用nltk計算詞彙統計考慮到形態學,過濾出停用詞。好的統計數據是TF * IDF,它大致是域子集中一個單詞的出現次數除以整個集合中包含該單詞的文檔數。關鍵字是具有最大TF * IDF的單詞。

3

我用簡約的語言模型(LMS,13)與相似的任務一定的成功;這些獨立於文檔的術語與一般的語料庫術語不同。這些已知比tf-idf統計更強,但在擬合它們時需要設置參數。

你可以找到我的Python實現here;使用它,每個主題的所有文件連接成一個單一的文件,然後生成各種主題一ParsimoniousLM,並獲取一張原稿的.top(K)條款。