2011-11-27 88 views

回答

1

您可以使用HtmlUnit解析文章的HTML和查詢你有興趣在搜索文檔的部分。然後,您可以應用自己設計的簡單算法來確定標籤/關鍵字。

例如像,split()上的空白,然後計算每個單詞出現的次數文本。發生得最多的詞(忽略諸如「和」,「」,「如果」等等)是關鍵詞的好選擇。

+0

謝謝,但我感興趣的標記化的一部分。我知道詞幹和它是如何工作的。但是我正在尋找一種算法,它已經可以用於一般情況。 – tomermes

3

檢查以下關鍵詞/主題提取軟件/工具:

  • Kea - 關鍵字取出
  • Tmt - 斯坦福話題檢測工具包(與Excel整合,用Scala編寫腳本),它支持半自動主題檢測模式(帶用戶反饋)。
  • maui

如果你想開發自己的主題檢測系統,你應該採取LDA implementation in mallet(鏈接一看就工作LDA樣品,在槌主頁上的一個不與最新mallet版本中運行)。