2010-11-09 98 views
11

我想解決一個簡單的分類問題。使用Apache Mahout分類數據

問題:
我有一組文本,我必須根據內容對它們進行分類。

使用Mahout的解決方案:
我明白我必須將輸入轉換爲序列文件才能生成模型。是的,我能夠做到這一點。現在,我如何分類我的測試數據? 20News示例僅測試正確性。但是,我想要做實際的分類。
我不確定是否需要編寫代碼或使用一些現有的類來對測試集進行分類。

回答

3

我討厭插上我自己的工作,但我們把整個部分放入Mahout in Action關於分類。理論,代碼示例,案例研究實踐,甚至整個服務器場實施。

你可以在http://www.manning.com/owen/

+14

IMO的預發佈版本,在本子上分類部分可以改進。關於分類的部分是羅嗦的,不清楚的,而且往往不是非正式的。可能會有更多的java編碼示例和更少的bash shell示例。如果分類部分的寫法更像引言章節,那麼分類部分可能會更好:顯示分類文件的格式,如何讀入它們,如何將它們加載到分類器中,一旦訓練完成,如何使用分類器對新樣本進行分類。 – 2012-05-22 14:51:41

+8

我希望Mahout擁有更多更好的文檔。作爲機器學習專家的人很難理解處理流水線的結構和代碼體系結構。即使javadoc使用不適當的術語(setGramSize應該是setNGramSize),小語義在理解概念和代碼方面會產生巨大的差異。 – 2012-05-22 15:00:52

3

我有類似的問題。

運行

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs 

將基於模型的文本文件進行分類。

這可能會讓你稍微前進一點,但是我猜測,和我一樣,你想分類整個文檔負載,並且希望輸出格式有用。

可能要編程一點java來做到這一點。有人有一個例子,看起來像它會做我想要的https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java