2010-05-18 103 views
1

我發現文檔之間的餘弦相似..我做了這樣的約餘弦相似

D1 =(8,0,0,1),其中8,0,0,1是的TF-IDF得分術語T1,T2,T3,T4

D2 =(7,0,0,1)

COS(THETA)=(56 + 0 + 0 + 1)/ SQRT(64 + 49)SQRT (1 +1)

其中出來是

COS(THETA)= 5

現在我該如何評估這個值......我不明白cos(θ)= 5是什麼意思,它們表明它們之間的相似性......我是否正確地做事?

+1

COS( theta)總是在-1和1之間。你做錯了什麼。另外,這功課呢? – 2010-05-18 18:36:55

+0

是啊...分配 – jaskirat 2010-05-18 18:40:40

回答

2

分母是錯誤的。

cosine similarity被定義爲

  D1 · D2 
sim = ——————————— 
     |D1| |D2| 

這裏

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57 
      ______________________ __ 
    |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50 
      ______________________ __ 
    |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65 

所以相似度應爲(57 /√(50 * 65))= 0.999846142,不5.

+0

哦,我忽略了零值....我多麼愚蠢......謝謝你kennyTM ...非常感謝你... – jaskirat 2010-05-18 18:40:59

+0

@jaskirat:你沒有忽略零值。你計算了| D1 |和| D2 |錯。沒有什麼是√(7^2 + 8^2)。 – kennytm 2010-05-18 18:43:23

+0

哦kk ...以及我從 參考http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html ... – jaskirat 2010-05-18 18:51:55