我正在嘗試使用shingleprinting來衡量文檔的相似度。該過程涉及以下步驟:Shingleprinting如何在實踐中工作?
- 創建兩個文件D1的5-shingling,D2
- 散列具有64位散列
- 各屋頂板拾取數字的隨機置換從0到2^64-1,並適用於木瓦哈希
- 對於每個文件找到最小的結果值的
- 如果它們匹配指望它作爲一個正面的例子,如果不把它作爲一種反面教材
- 重複3〜5 。 一些倍
- 使用
positive_examples/total examples
作爲相似性度量
步驟3包括產生非常長的序列的隨機置換。使用Knuth-shuffle似乎是不可能的。有沒有這個捷徑?請注意,最終我們只需要得到的排列的單個元素。