輸出是對於每次運行

亨利馬烏不同：rowsimilarity過程的輸出是在下面所述的步驟每次運行不同（保持所有輸入相同的所有運行）輸出是對於每次運行

第一步：seq2sparse（創建從文本矢量）步驟2：ROWID（生成TFIDF載體）步驟3：rowsimilarity（計算向量之間的相似度）步驟4：seqdumper（二元載體爲文本）

UPDATE：

感謝Pferrel的答覆，
請建議我們如何可以指定「種子值」

，我現在用的命令是： $ {} MAHOUT_HOME /斌/亨利馬烏seq2sparse -i $ {數據} /序列數據-o $ {數據} /矢量-n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10

$ {MAHOUT_HOME}/bin/mahout rowid -i $ {DATA}/vectors/tfidf-vectors/part-r -00000 -o $ {DATA}/matrix

$ {MAHOUT_HOME}/bin/mahout rowsimilarity -i $ {DATA}/matrix/matrix -o $ {DATA}/similarity --similarityClassname SIMILARITY_COSINE -m 100 -ess -ow

來源

2016-01-20 Satendrakv

數據是隨機下采樣的，因此如果需要可重複性，請將種子設置爲固定值。您還可以設置縮減採樣以吸引大量項目來禁用它，但請注意，這會使其運行速度變慢，速度將接近O（n^2）。

來源

2016-01-21 20:21:59 pferrel

嗨pferrel謝謝你的回答，請找到我的更新問題，並建議如何設置「種子價值」（我們使用Mahout 0.9版本） – Satendrakv

種子被用作隨機抽樣的「種子」，是僅在需要完全可重現的結果時才使用。否則基於隨機抽樣的結果會有一些細微的變化。項目相似性僅用於協作過濾的原因，並對數據進行降採樣以保持O（n）處的計算結果，並且在某點之後數據的收益遞減。順便說一句，有一個新的Spark版本，在Mahout 0.11.x中運行速度提高了10倍，這裏http://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html – pferrel

對於協同過濾對數似然比（LLR）在我嘗試過的每一種情況下，都比Cosine做得更好。 – pferrel

輸出是對於每次運行

回答

相關問題