2010-11-18 199 views
5

你知道什麼開源/免費的數據挖掘引擎和框架,並用於文本數據?數據挖掘引擎和框架?

謝謝你的任何建議!

+0

你實際上是在尋找一個文本挖掘引擎嗎?數據挖掘引擎傾向於使用元數據而不是文本本身。 – ianmayo 2011-06-01 08:29:04

回答

1

我不知道發動機或框架,但我用這個工具叫Weka,它有足夠的它實現的算法。

+0

謝謝!因爲我發現作者寫了不錯的書http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83 2010-11-26 22:59:04

3

不確定你在找什麼。也許像Lucene

1

而對於文本處理(而不是數值數據挖掘和聚類),那麼NLTK工具包是值得一試。這是爲了教Python中的自然語言處理技術。因此,它非常適合修補,如果您選擇使用Python,您肯定會發現很多組件類和實現。

+0

謝謝!如果我的一個項目將在Python上,我會檢查這個工具包;) – Edward83 2010-11-26 22:56:32

2

RapidMiner是免費的,開源和運行在Windows,Mac,Linux和是一個很好的圖形工作流爲基礎的計劃。它運行所有的Weka代碼,並與R集成。

+0

@el謝謝;)我會檢查它) – Edward83 2010-12-14 10:58:33

0

Apache Mahout提供了一組流行的算法,也可以應用在文本數據上,並且還具有相當的可擴展性! Apache UIMA不提供數據挖掘算法,但它是廣泛用於自然語言處理的框架。

2

的Weka和Rapidminer不在集羣,強有力的。他們大多做分類和類似的預測,但很少集羣。看一看ELKI,這與WEKA是一個大學項目類似,但有大量的聚類和異常檢測方法。

1

我是一個Java開源軟件的頻繁模式挖掘的作者。它提供的算法序列模式挖掘,關聯規則,頻繁項集等

雖然不是專門針對文本挖掘設計的,一些算法可以在挖掘頻繁模式文本應用。例如,如果您想要查找經常以幾個句子出現的一些單詞序列,則可以應用順序模式挖掘算法。但要做到這一點,您需要在應用我的軟件之前進行一些預處理,以便您的文本文件格式正確。

您可以查看這裏的軟件: http://www.philippe-fournier-viger.com/spmf/

3

的Apache Mahout的是一個開放源代碼Machile學習庫,可有或無的MapReduce(Hadoop的Apache的)一起使用。

它提供了在Java中folloeing算法實現:

  • 協同過濾
  • 用戶和基於項目引薦人
  • K均值,模糊K-均值聚類
  • 均值漂移聚類
  • Dirichlet進程集羣
  • 潛在Dirichlet分配
  • 奇異值分解
  • 並行頻繁模式挖掘
  • 互補樸素貝葉斯分類
  • 基於
  • 隨機森林決策樹分類

你可以閱讀更多: http://mahout.apache.org/

http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

http://www.ibm.com/developerworks/java/library/j-mahout/

+0

謝謝你的建議:) – Edward83 2013-02-07 15:07:20