Apache Mahout + Euclidean距離：意外結果

我使用Mahout的EuclideanDistanceSimilarity類對給定以下用戶偏好數據集的幾個用戶的相似度進行排名。偏好的範圍目前是從1到5的所有整數。但是我控制了規模，所以如果它有幫助就可以改變。Apache Mahout + Euclidean距離：意外結果

User Preferences: 
     Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 
1  2   4   3   5   1   2 
2  5   1   5   1   5   1 
3  1   5   1   5   1   5 
4  2   4   3   5   1   2 
5  3   3   4   5   2   2

我得到意想不到的結果，當我運行下面的測試代碼，這是我加入這裏找到測試類：http://www.massapi.com/source/mahout-distribution-0.4/core/src/test/java/org/apache/mahout/cf/taste/impl/similarity/EuclideanDistanceSimilarityTest.java.html

@Test 
public void testSimple2() throws Exception { 
    DataModel dataModel = getDataModel(
      new long[]{1, 2, 3, 4, 5}, 
      new Double[][]{ 
       {2.0, 4.0, 3.0, 5.0, 1.0, 2.0}, 
       {5.0, 1.0, 5.0, 1.0, 5.0, 1.0}, 
       {1.0, 5.0, 1.0, 5.0, 1.0, 5.0}, 
       {2.0, 4.0, 3.0, 5.0, 1.0, 2.0}, 
       {3.0, 3.0, 4.0, 5.0, 2.0, 2.0},}); 
    for (int i = 1; i <= 5; i++) { 
     for (int j = 1; j <= 5; j++) { 
      System.out.println(i + "," + j + ": " + new EuclideanDistanceSimilarity(dataModel).userSimilarity(i, j)); 
     } 
    } 
}

這將產生以下結果：

1,1: 1.0 
1,2: 0.7129109430106292 
1,3: 1.0 
1,4: 1.0 
1,5: 1.0 
2,1: 0.7129109430106292 
2,2: 1.0 
2,3: 0.5556605665978556 
2,4: 0.7129109430106292 
2,5: 0.8675434911352263 
3,1: 1.0 
3,2: 0.5556605665978556 
3,3: 1.0 
3,4: 1.0 
3,5: 0.9683428667784535 
4,1: 1.0 
4,2: 0.7129109430106292 
4,3: 1.0 
4,4: 1.0 
4,5: 1.0 
5,1: 1.0 
5,2: 0.8675434911352263 
5,3: 0.9683428667784535 
5,4: 1.0 
5,5: 1.0

有人請幫我理解我在這裏做錯了嗎？顯然，用戶1的偏好與用戶不相同，爲什麼我的相似度爲1.0？

如果歐幾里得不起作用，我願意使用不同的算法，但皮爾遜不適用於我，因爲我需要處理爲每個項目提交相同首選項的用戶，而且我不想糾正「通貨膨脹「。

來源

2011-10-19 10GritSandpaper

這有點奇怪，但我可以解釋發生了什麼。

歐幾里得距離d不能直接用作相似性度量，因爲它的「相似度越小」越大。你可以使用1/d，但是完美匹配會導致無窮大，而不是1.你可以使用1 /（1 + d）。

問題是距離只能計算在兩個用戶有共同的維度上。更多維度通常意味着更多的距離所以這是懲罰重疊，與你所期望的相反。

所以公式實際上是n /（1 + d），其中n是重疊維數。這導致大於1的相似性，在某些情況下，相似性被限制爲1。

n不是正確的因素。這是一個古老的簡單kludge。我會在郵件列表上詢問正確的表達方式。對於大數據，這往往工作確定。

來源

2011-10-19 14:44:39

重疊的變化不應該成爲問題，我們試圖通過他們對幾個需要的配置文件問題的答案來匹配用戶，因此每個用戶都應該對同一組「項目」有偏好。另一方面，EuclideanDistanceSimilarity的javadocs（http://javasourcecode.org/html/open-source/mahout/mahout-0.5/index.html?org/apache/mahout/cf/taste/impl/similarity/GenericUserSimilarity.html ）說：「相似性然後計算爲1 /（1 +距離），因此得到的值在範圍（0,1]，」所以如果n = 1，大於1的相似性不應該是正確的？ – 10GritSandpaper

實際上文檔是錯誤的，因此值可能大於1，所以被封頂。我認爲更像sqrt（n）的因素是適當的。在這裏變化不起作用，是的;我是隻是解釋了爲什麼你會看到1.0這種明顯很高的相似性 –

謝謝你的解釋，因此相似度超過1.0的概率隨着維數與偏好範圍的比值增加而增加。偏好值統一爲10和100的因子;而這似乎氾濫，我只得到1.0現在進行相同的比賽。如果是這樣的話，那麼我應該能夠通過擴大偏好範圍來解決我的問題。這看起來是否正確？ – 10GritSandpaper

Apache Mahout + Euclidean距離：意外結果

回答

相關問題