2

我正在嘗試使用tf-idf來羣集類似的文件。我的系統的一個主要缺點是它使用餘弦相似性來決定哪些矢量應該組合在一起。餘弦相似性替代tf-idf(三角不等式)

問題是餘弦相似性不滿足三角不等式。因爲在我的情況下,我不能在多個集羣中擁有相同的矢量,我必須將每個集羣與一個共同的元素進行合併,這可能會導致兩個文檔被分組在一起,即使它們彼此不相似。

是否有措施的另一種方式兩個文件的相似性,因此:

  • 的載體,基於自己的方向進球非常相似,無論其規模的
  • 手託三角不等式:如果是類似到B並且B類似於C,那麼A也類似於C

回答

0

餘弦是歸一化數據上的歐幾里德平方。

因此,簡單的L2將您的向量歸一化爲單位長度,並使用歐幾里得。

0

不知道它是否可以幫助你。看看本文中的TS-SS方法。它涵蓋了來自餘弦和ED的一些缺陷,這有助於以更高的準確度鑑定載體之間的相似性。更高的準確度可幫助您瞭解哪些文檔非常相似並可以組合在一起。該文件說明了爲什麼TS-SS可以幫助你。

enter image description here