我正在使用TF/IDF來計算相似度。例如,如果我有以下兩個文檔。tf idf相似度
Doc A => cat dog
Doc B => dog sparrow
這是正常的它的相似性是50%,但是當我計算它的TF/IDF。它是作爲按照
TF值文件甲
dog tf = 0.5
cat tf = 0.5
TF爲文件B值
dog tf = 0.5
sparrow tf = 0.5
進行DOC
IDF值甲
dog idf = -0.4055
cat idf = 0
IDF值文件乙
dog idf = -0.4055 (without +1 formula 0.6931)
sparrow idf = 0
TF爲文件/ IDF值A
0.5x-0.4055 + 0.5x0 = -0.20275
TF/IDF值文件乙
0.5x-0.4055 + 0.5x0 = -0.20275
現在看起來像有-0.20275相似。是嗎? 或者我錯過了什麼? 或者是下一步的任何一種?請告訴我,我也可以計算出來。
我用TF/IDF公式,維基百科提到
您是否在使用Apache Mahout來計算它?如果是的話,請讓我知道需要採取的步驟。我必須開發一個原型來使用Apache Mahout來計算TF IDF。 junaid_surqyahoo.co.in – 2012-01-04 10:16:44