2012-09-04 50 views
1

我想用mahout建立一個分類器。模型建成後。 我必須將目標文檔「喂」到模型並獲得分類結果。mahout分類文本輸入矢量化

我檢查了mahout源代碼中的測試用例,它使用了具有固定數量字段的DenseVector。 但是,我使用mahout來分類文本文檔,輸入是一些字符串(或包含字符串的數組)。如何將其轉換爲有效的「Vector」實例。

我試過StaticWordEncoder和RandomAccessSparseVector,但結果不正確。無法弄清楚原因。有點絕望。

+0

「TestClassifierDriver」產生正確的結果,證明模型訓練應該沒問題。 – zhangv

+0

更好地轉到mahout用戶列表。 – bmargulies

+0

解決。我必須將文檔轉換爲vecotr實例。這個過程有點骯髒,但它工作正常。多謝你們! – zhangv

回答

0

您必須將文檔解析爲單詞並從中填充該向量。

我會推薦閱讀像Mahout In Action之類的東西,以在嘗試此操作之前獲取更多背景。