我在查看信息檢索簡介中的Vector Space Classification(鏈接章節)中的表14.1,其中示例14.1所述「顯示了五個文檔的tf-idf向量表示。使用公式(1 + log tf) * log(4/df)
如果tf > 0
表13.1然而,當我看着表14.1,它不會出現,這TF-IDF公式適用於文獻向量TF-IDF和Rocchio在信息檢索概論中的分類
從表13.1文件:
1: Chinese Beijing Chinese
2: Chinese Chinese Shanghai
3: Chinese Macao
4: Tokyo Japan Chinese
表14.1中載體的術語權重爲:
vector Chinese Japan Tokyo Macao Beijing Shanghai
d1 0 0 0 0 1.0 0
d2 0 0 0 0 0 1.0
d3 0 0 0 1.0 0 0
d4 0 0.71 0.71 0 0 0
如果我申請了TF-IDF公式的d4
的Japan
尺寸,我得到:
TF: 1 (term appears once in document 4)
DF: log(4/1) (term is present in only document 4)
TF-IDF Weight is thus: log(4) ~ .60
爲什麼我的計算結果,從所包含的文字有什麼不同?