2014-11-23 74 views
0

我有一個文檔列表,我根據用戶在Apache SOLR上的查詢索引這些文檔。我想通過使用相關索引文檔中的關鍵字來提取一些新聞文章,並將其與索引文檔一起顯示給用戶。是否有任何算法或程序可以從文檔中提取相關關鍵字並將其用於提取新聞?從維基百科文章中提取Java關鍵字

+0

你將什麼歸類爲「相關關鍵字」? – MatsLindh 2014-11-23 23:47:29

+0

相關關鍵詞是指根據用戶查詢與用戶相關的關鍵詞。如果我將這個查詢命名爲「足球比賽」,那麼在這種情況下足球就是我的一個相關關鍵詞。 – SplinterCell 2014-11-25 01:01:08

回答

0

您應該研究TF-IDF關鍵字提取。大約兩年前,我使用英文Wiki和一個簡單的Python Script做了一個類似的過程。在繼續操作之前,您需要回答幾個問題。您可以使用TF-IDF關鍵詞提取here

  • 你只關心單個關鍵字一個整潔的小書面記錄,否則將評估的短語,也和到什麼長度?
  • 你會對傳入的數據進行任何自然語言處理,比如標記和詞幹?
  • 您是否將關鍵字限制爲某些文章類型?某些類別的文章可以有他們自己的TF-IDF分數,所以你可能想要試驗你所需要的。
+0

我想要在用戶查詢中提供關鍵字和短語。但是這些應該是總結整個查詢的相關關鍵字,而不是其他停用詞或不相關的東西。是的,我將使用Apache SOLR處理這些查詢。 – SplinterCell 2014-11-26 21:19:47