2013-04-22 61 views
0

我是Apache Mahout新手。我試圖瞭解哪些命名向量屬於哪個集羣。互聯網上的大量資源都是關於文本文檔的,並使用命令clusterdump。但是,我的數據集非常龐大,運行該命令始終導致Java內存不足異常。此外,我不認爲使用clusterdump會回答我的問題。每個Mahout羣集中的向量

我想知道這是否是可以理解不外乎其命名爲載體屬於哪個使用目錄clusteredPointsclusters-[0-9]+clusters-*-final

如果有幫助,用戶到目前爲止,我已經形成簇羣基礎對他們的歌曲聆聽習慣。爲此,我最初使用NamedVectors創建了一個序列文件,其中NamedVector的名稱是userId,Vector本身是一個包含用戶收聽歌曲標籤權重的雙數組(下面的示例)。

AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ... 
    ... 
    ... 
    ... 

然後,我成功運行k-means。我在目錄clusteredPoints中輸出(大約88個文件,其名稱如part-m-00088)以及我認爲包含質心的目錄集羣。

感謝您的幫助!

回答

0

我認爲你需要做一些研究clusterdump,嘗試象夫clusterdump --help 試試這個

mahout clusterdump -i clusters-*-final/part-r-00000 -o output -p clusteredPoints/part-m-00000 

,並嘗試這個link作進一步的解釋。

,你也可以嘗試添加選項-of CSV, 你就會有這樣的顯示:

  • id_cluster1,VEC 1,vec2..vecl
  • id_cluster2,VEC 1,vec2..vecl
  • ...