假設我有五組我想集羣。據我所知,這裏所描述的SimHashing技術: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能產生三個集羣({A},{B,C,D}和{E}),舉例來說,如果其結果是: A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
我有實施minhashing問題哈希函數。在紙上和閱讀我理解這個概念,但我的問題是排列「詭計」。代替置換的集矩陣的和值實施的建議是:「摘K(例如,100)獨立的散列函數」,然後該算法表示: for each row r
for each column c
if c has 1 in row r
for each hash function h_i do