我在尋找有關一種散列函數的索引類似的文本。例如,如果我們有兩個非常長的文本,稱爲「A」和「B」,其中A和B差異不大,那麼應用於A和B的散列函數(稱爲H)應該返回相同的數字。哈希函數的索引類似的文本
所以H(A)= H(B)其中A和B是類似的文本。
我嘗試了「DoubleMetaphone」(我用意大利語語言文本),但我看到它依賴非常強從字符串前綴。例如:
A = 「這是我想散列很長的文本」 B = 「這是非常」
==> doubleMetaPhone(A)= doubleMetaPhone(B)
這對我來說並不是那麼好,因爲具有相同前綴的字符串可以被比較爲相似的,我不想這樣做。
任何人都可以給我建議任何其他方式?
音位算法可能是正確的選擇對我來說,但它在很大程度上取決於文字前綴。長文本具有相同的前綴具有相同的Metaphone代碼.... – robob 2010-07-14 17:37:25