我發現文檔之間的餘弦相似..我做了這樣的約餘弦相似
D1 =(8,0,0,1),其中8,0,0,1是的TF-IDF得分術語T1,T2,T3,T4
D2 =(7,0,0,1)
COS(THETA)=(56 + 0 + 0 + 1)/ SQRT(64 + 49)SQRT (1 +1)
其中出來是
COS(THETA)= 5
現在我該如何評估這個值......我不明白cos(θ)= 5是什麼意思,它們表明它們之間的相似性......我是否正確地做事?
我發現文檔之間的餘弦相似..我做了這樣的約餘弦相似
D1 =(8,0,0,1),其中8,0,0,1是的TF-IDF得分術語T1,T2,T3,T4
D2 =(7,0,0,1)
COS(THETA)=(56 + 0 + 0 + 1)/ SQRT(64 + 49)SQRT (1 +1)
其中出來是
COS(THETA)= 5
現在我該如何評估這個值......我不明白cos(θ)= 5是什麼意思,它們表明它們之間的相似性......我是否正確地做事?
分母是錯誤的。
的cosine similarity被定義爲
D1 · D2
sim = ———————————
|D1| |D2|
這裏
D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
______________________ __
|D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
______________________ __
|D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65
所以相似度應爲(57 /√(50 * 65))= 0.999846142,不5.
哦,我忽略了零值....我多麼愚蠢......謝謝你kennyTM ...非常感謝你... – jaskirat 2010-05-18 18:40:59
@jaskirat:你沒有忽略零值。你計算了| D1 |和| D2 |錯。沒有什麼是√(7^2 + 8^2)。 – kennytm 2010-05-18 18:43:23
哦kk ...以及我從 參考http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html ... – jaskirat 2010-05-18 18:51:55
COS( theta)總是在-1和1之間。你做錯了什麼。另外,這功課呢? – 2010-05-18 18:36:55
是啊...分配 – jaskirat 2010-05-18 18:40:40