我正在處理基於項目的CF上,該CF使用調整後的餘弦相似度。我最近添加了一個規則的餘弦相似度,並得到完全不同的結果。現在我的問題是哪個更適合考慮我的數據?調整後的餘弦相似度與常規餘弦相似度之間的選擇
這是用戶,項目一個可能的方案和評級
User 1 | User 2 | User 3 | User 4 | User 5
Item 1 | 5 | 1 | 1 | 5 | 5
Item 2 | 5 | 1 | 2 | 4 | 5
Item 3 | 1 | 5 | 4 | 2 | 3
考慮這個數據,你會得出結論:項目1和項目2相對「類似」。這裏有不同的相似係數的結果:
項目1和項目之間的相似度2
Adjusted cosine similarity = 0.865
Regular cosine similarity = 0.987
我四捨五入他們關閉了這個例子
你可以看到這是基本相同,但是當您嘗試計算項目2和項目3(它們完全不相似)之間的相似性時,會導致完全不同的結果:
項目2 a第二項3
Adjusted cosine similarity = -0.955
Regular cosine similarity = 0.656
我四捨五入他們關閉了這個例子
其中哪些是 '好'?我認爲使用調整後的餘弦相似度效果更好,因爲它將用戶的平均評分考慮在內,但爲什麼正則餘弦相似度會導致這些「不同」項目的正數?我是否應該避免在一般情況下使用正則餘弦相似度,或者僅限於某些情況下使用?
任何幫助,將不勝感激!