我在尋找基於Java的工具,用於從給定的文章提取相關標籤。 我需要一個基本上可以嘗試的工具,以確定給定文章的主要主題和術語。 感謝您的幫助。Java工具從文章中提取相關的關鍵字/標籤
2
A
回答
1
您可以使用HtmlUnit解析文章的HTML和查詢你有興趣在搜索文檔的部分。然後,您可以應用自己設計的簡單算法來確定標籤/關鍵字。
例如像,split()
上的空白,然後計算每個單詞出現的次數文本。發生得最多的詞(忽略諸如「和」,「」,「如果」等等)是關鍵詞的好選擇。
3
檢查以下關鍵詞/主題提取軟件/工具:
如果你想開發自己的主題檢測系統,你應該採取LDA implementation in mallet(鏈接一看就工作LDA樣品,在槌主頁上的一個不與最新mallet版本中運行)。
相關問題
- 1. 從文章中提取關鍵字
- 2. 提取相關標籤/從文本塊關鍵詞
- 3. 從維基百科文章中提取Java關鍵字
- 4. Wordpress查詢相關文章標籤
- 5. java關鍵字提取
- 6. 如何使用DBPedia從內容中提取標籤/關鍵字?
- 7. 需要從Google關鍵字外部工具中提取結果?
- 8. 編程從標題,描述和相關項目獲取標籤(關鍵字)
- 9. 提取.net中句子中關鍵字的工具/ API
- 10. Java - 從視頻中提取關鍵幀
- 11. 從網頁中提取Meta關鍵字?
- 12. 從文本中提取關鍵句子
- 13. MongoDB相關文章
- 14. Mysql相關文章
- 15. 相關文章WP
- 16. 元標籤關鍵字
- 17. 相關文章:通過不同表中的標籤獲取記錄
- 18. 相關標籤
- 19. 如何從網頁/ Feed中獲取標籤/關鍵字?
- 20. JSON從關鍵字提取值
- 21. 顯示相關文章鏈接標題
- 22. awk提取關鍵字行
- 23. 從文本中提取所需的關鍵字
- 24. 憲章插件提示:添加標籤的工具提示
- 25. R文本挖掘提取相關關鍵詞
- 26. 有多少關鍵字適合META關鍵字標籤?
- 27. Java中是否有任何關鍵字與C#中的'AS'關鍵字相似?
- 28. 與標籤相關
- 29. 關於c#關鍵字中未提及的上下文關鍵字
- 30. 機器學習:從文件列表中提取關鍵字
謝謝,但我感興趣的標記化的一部分。我知道詞幹和它是如何工作的。但是我正在尋找一種算法,它已經可以用於一般情況。 – tomermes