每個Mahout羣集中的向量

我是Apache Mahout新手。我試圖瞭解哪些命名向量屬於哪個集羣。互聯網上的大量資源都是關於文本文檔的，並使用命令clusterdump。但是，我的數據集非常龐大，運行該命令始終導致Java內存不足異常。此外，我不認爲使用clusterdump會回答我的問題。每個Mahout羣集中的向量

我想知道這是否是可以理解不外乎其命名爲載體屬於哪個使用目錄clusteredPoints和clusters-[0-9]+和clusters-*-final

如果有幫助，用戶到目前爲止，我已經形成簇羣基礎對他們的歌曲聆聽習慣。爲此，我最初使用NamedVectors創建了一個序列文件，其中NamedVector的名稱是userId，Vector本身是一個包含用戶收聽歌曲標籤權重的雙數組（下面的示例）。

AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ... 
    ... 
    ... 
    ...

然後，我成功運行k-means。我在目錄clusteredPoints中輸出（大約88個文件，其名稱如part-m-00088）以及我認爲包含質心的目錄集羣。

感謝您的幫助！

2013-04-22 Shobit

我認爲你需要做一些研究clusterdump，嘗試象夫clusterdump --help 試試這個

mahout clusterdump -i clusters-*-final/part-r-00000 -o output -p clusteredPoints/part-m-00000

，並嘗試這個link作進一步的解釋。

，你也可以嘗試添加選項-of CSV，你就會有這樣的顯示：

2013-04-23 11:05:30

回答