數據挖掘引擎和框架？

你知道什麼開源/免費的數據挖掘引擎和框架，並用於文本數據？數據挖掘引擎和框架？

謝謝你的任何建議！

2010-11-18 Edward83

你實際上是在尋找一個文本挖掘引擎嗎？數據挖掘引擎傾向於使用元數據而不是文本本身。 – ianmayo 2011-06-01 08:29:04

我不知道發動機或框架，但我用這個工具叫Weka，它有足夠的它實現的算法。

2010-11-18 00:57:24

謝謝！因爲我發現作者寫了不錯的書http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83 2010-11-26 22:59:04

不確定你在找什麼。也許像Lucene？

2010-11-18 01:13:06

而對於文本處理（而不是數值數據挖掘和聚類），那麼NLTK工具包是值得一試。這是爲了教Python中的自然語言處理技術。因此，它非常適合修補，如果您選擇使用Python，您肯定會發現很多組件類和實現。

2010-11-18 01:14:09 winwaed

謝謝！如果我的一個項目將在Python上，我會檢查這個工具包;） – Edward83 2010-11-26 22:56:32

RapidMiner是免費的，開源和運行在Windows，Mac，Linux和是一個很好的圖形工作流爲基礎的計劃。它運行所有的Weka代碼，並與R集成。

2010-11-30 07:26:08

@el謝謝;）我會檢查它） – Edward83 2010-12-14 10:58:33

Apache Mahout提供了一組流行的算法，也可以應用在文本數據上，並且還具有相當的可擴展性！ Apache UIMA不提供數據挖掘算法，但它是廣泛用於自然語言處理的框架。

2011-04-25 10:15:39

RapidMiner是我的首選數據挖掘解決方案： http://www.RapidMiner.com/

這裏是其中的數據挖掘專家的最流行的數據挖掘工具的調查顯示： http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets投票2011：RapidMiner是最廣泛使用的數據挖掘全球數據挖掘專家的解決方案。

2011-05-31 08:53:05

的Weka和Rapidminer不在集羣，強有力的。他們大多做分類和類似的預測，但很少集羣。看一看ELKI，這與WEKA是一個大學項目類似，但有大量的聚類和異常檢測方法。

2011-12-29 15:25:58

我是一個Java開源軟件的頻繁模式挖掘的作者。它提供的算法序列模式挖掘，關聯規則，頻繁項集等

雖然不是專門針對文本挖掘設計的，一些算法可以在挖掘頻繁模式文本應用。例如，如果您想要查找經常以幾個句子出現的一些單詞序列，則可以應用順序模式挖掘算法。但要做到這一點，您需要在應用我的軟件之前進行一些預處理，以便您的文本文件格式正確。

2012-03-18 16:36:20 Phil

的Apache Mahout的是一個開放源代碼Machile學習庫，可有或無的MapReduce（Hadoop的Apache的）一起使用。

它提供了在Java中folloeing算法實現：

2013-02-06 10:48:24 Renata

謝謝你的建議:) – Edward83 2013-02-07 15:07:20

回答