1
爲了找到兩個文檔之間的相似度,我計劃採用mahout來執行此任務。計算mahout中的餘弦相似度
的方法將包括:
- 該文檔轉換爲TF-IDF
- 移除停止詞(使搜索有效)
- 運行餘弦相似度
- 給相似 程度
我打算在mahout中實現這一點。我是一個初學者mahout,有人可以幫我幾個教程來執行此操作,並告訴我,如果這是一個有效的方法來計算文檔之間的相似度
爲了找到兩個文檔之間的相似度,我計劃採用mahout來執行此任務。計算mahout中的餘弦相似度
的方法將包括:
我打算在mahout中實現這一點。我是一個初學者mahout,有人可以幫我幾個教程來執行此操作,並告訴我,如果這是一個有效的方法來計算文檔之間的相似度
你不需要實現任何東西。使用seqdirectory和seq2sparse來矢量化你的數據。之後,您可以使用RowSimilarityJob來計算成對餘弦相似度。
感謝您的幫助。我現在正在研究mahout – siddharth 2012-01-09 14:44:07
在Windows上使用mahout是明智的,或者我應該轉移到linux ..請幫助 – siddharth 2012-01-05 04:37:56
你已經嘗試過了什麼?你面臨什麼問題?如果你需要一個一般的介紹,你應該閱讀Mahout in Action。 – 2012-01-05 10:24:16