回答
不確定你在找什麼。也許像Lucene?
而對於文本處理(而不是數值數據挖掘和聚類),那麼NLTK工具包是值得一試。這是爲了教Python中的自然語言處理技術。因此,它非常適合修補,如果您選擇使用Python,您肯定會發現很多組件類和實現。
謝謝!如果我的一個項目將在Python上,我會檢查這個工具包;) – Edward83 2010-11-26 22:56:32
RapidMiner是免費的,開源和運行在Windows,Mac,Linux和是一個很好的圖形工作流爲基礎的計劃。它運行所有的Weka代碼,並與R集成。
@el謝謝;)我會檢查它) – Edward83 2010-12-14 10:58:33
Apache Mahout提供了一組流行的算法,也可以應用在文本數據上,並且還具有相當的可擴展性! Apache UIMA不提供數據挖掘算法,但它是廣泛用於自然語言處理的框架。
RapidMiner是我的首選數據挖掘解決方案: http://www.RapidMiner.com/
這裏是其中的數據挖掘專家的最流行的數據挖掘工具的調查顯示: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html
KDnuggets投票2011:RapidMiner是最廣泛使用的數據挖掘全球數據挖掘專家的解決方案。
的Weka和Rapidminer不在集羣,強有力的。他們大多做分類和類似的預測,但很少集羣。看一看ELKI,這與WEKA是一個大學項目類似,但有大量的聚類和異常檢測方法。
我是一個Java開源軟件的頻繁模式挖掘的作者。它提供的算法序列模式挖掘,關聯規則,頻繁項集等
雖然不是專門針對文本挖掘設計的,一些算法可以在挖掘頻繁模式文本應用。例如,如果您想要查找經常以幾個句子出現的一些單詞序列,則可以應用順序模式挖掘算法。但要做到這一點,您需要在應用我的軟件之前進行一些預處理,以便您的文本文件格式正確。
您可以查看這裏的軟件: http://www.philippe-fournier-viger.com/spmf/
的Apache Mahout的是一個開放源代碼Machile學習庫,可有或無的MapReduce(Hadoop的Apache的)一起使用。
它提供了在Java中folloeing算法實現:
- 協同過濾
- 用戶和基於項目引薦人
- K均值,模糊K-均值聚類
- 均值漂移聚類
- Dirichlet進程集羣
- 潛在Dirichlet分配
- 奇異值分解
- 並行頻繁模式挖掘
- 互補樸素貝葉斯分類 基於
- 隨機森林決策樹分類
你可以閱讀更多: http://mahout.apache.org/
http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html
謝謝你的建議:) – Edward83 2013-02-07 15:07:20
- 1. 從內聯框架數據挖掘
- 2. 開發LMS和Scorm挖掘引擎
- 3. python數據挖掘
- 4. Java開源文本挖掘框架
- 5. 數據挖掘字符串
- 6. 數據挖掘情況
- 7. 數據挖掘教科書
- 8. 「相似性」數據挖掘
- 9. R數據挖掘語法
- 10. Google數據挖掘工具
- 11. 數據挖掘庫和許可限制
- 12. 數據挖掘海量數據
- 13. 數據挖掘中引導的數據是什麼?
- 14. .net圖挖掘
- 15. 錯誤(數據挖掘):在挖掘模型中未指定任何案例
- 16. Twitter的數據挖掘:分離
- 17. C#的數據挖掘資源
- 18. DMQL數據挖掘查詢語言
- 19. 3維數據挖掘性能
- 20. 輕鬆挖掘數據庫的工具
- 21. 數據挖掘算法比較
- 22. 與Django的數據挖掘問題
- 23. 哪種數據挖掘算法最好?
- 24. 數據挖掘模型名稱由DMX
- 25. 什麼是數據挖掘模型?
- 26. 數據挖掘SSE通過集羣K
- 27. SQL Server數據挖掘資源
- 28. 如何文本挖掘特定數據
- 29. 堆積在數據挖掘中
- 30. 使用Python進行數據挖掘
你實際上是在尋找一個文本挖掘引擎嗎?數據挖掘引擎傾向於使用元數據而不是文本本身。 – ianmayo 2011-06-01 08:29:04