2016-01-20 40 views
0

亨利馬烏不同:rowsimilarity過程的輸出是在下面所述的步驟每次運行不同(保持所有輸入相同的所有運行)輸出是對於每次運行

第一步:seq2sparse(創建從文本矢量) 步驟2:ROWID(生成TFIDF載體) 步驟3:rowsimilarity(計算向量之間的相似度) 步驟4:seqdumper(二元載體爲文本)

UPDATE:

感謝Pferrel的答覆,
請建議我們如何可以指定「種子值」

,我現在用的命令是: $ {} MAHOUT_HOME /斌/亨利馬烏seq2sparse -i $ {數據} /序列數據-o $ {數據} /矢量-n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10

$ {MAHOUT_HOME}/bin/mahout rowid -i $ {DATA}/vectors/tfidf-vectors/part-r -00000 -o $ {DATA}/matrix

$ {MAHOUT_HOME}/bin/mahout rowsimilarity -i $ {DATA}/matrix/matrix -o $ {DATA}/similarity --similarityClassname SIMILARITY_COSINE -m 100 -ess -ow

回答

0

數據是隨機下采樣的,因此如果需要可重複性,請將種子設置爲固定值。您還可以設置縮減採樣以吸引大量項目來禁用它,但請注意,這會使其運行速度變慢,速度將接近O(n^2)。

+0

嗨pferrel謝謝你的回答,請找到我的更新問題,並建議如何設置「種子價值」(我們使用Mahout 0.9版本) – Satendrakv

+0

種子被用作隨機抽樣的「種子」,是僅在需要完全可重現的結果時才使用。否則基於隨機抽樣的結果會有一些細微的變化。 項目相似性僅用於協作過濾的原因,並對數據進行降採樣以保持O(n)處的計算結果,並且在某點之後數據的收益遞減。順便說一句,有一個新的Spark版本,在Mahout 0.11.x中運行速度提高了10倍,這裏http://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html – pferrel

+0

對於協同過濾對數似然比(LLR)在我嘗試過的每一種情況下,都比Cosine做得更好。 – pferrel

相關問題