minhash

2熱度

1回答

假設我有五組我想集羣。據我所知，這裏所描述的SimHashing技術： https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能產生三個集羣（{A}，{B,C,D}和{E}），舉例來說，如果其結果是： A -> h01 B -> h02 C -> h02 D -> h02 E -> h03

-4熱度

1回答

尋找集羣的LSH實現

他們傢伙。我對堆棧交換非常陌生，目前我正在研究圖論。因爲我是一個初學者級別的程序員（不熟悉哈希，桶，向量等數據結構明智），我要問的這組問題是非常介紹性的。我的想法是採用形式（時間戳t，節點i，節點j）的數據集，它表示在時間t時i和j之間存在邊界。這個想法是搜索每個節點的鄰居集並散列它們。如果他們的「矢量」（我不明白那是什麼）散列到同一個桶中 - 它們是羣集形成的候選者。但他的問題是我想做實驗

0熱度

1回答

亨利馬烏最小哈希org.apache.hadoop.io.LongWritable不能轉換到org.apache.hadoop.io.Text

我使用： Hadoop的1.2.1和Mahout的分佈-0.8 當我嘗試用下面的命令運行HASHMIN方法： $MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.minhash.MinHashDriver -i tce-data/cv.vec -o tce-data/out/cv/minHashDriver/ -ow 我得到這個錯誤： [e

6熱度

2回答

Min Hash的局部敏感散列

我已閱讀了很多關於使用Min Hash實現LSH（本地敏感散列）的教程，文檔和代碼。 LSH試圖通過散列隨機子集和aggrating對這些發現的兩組的Jaccard係數。我查看了code.google.com中的實現，但無法理解他們的方法。我瞭解紙張Google news personalization: scalable online collaborative filtering，但我無法理解

4熱度

1回答

如何在n維空間中找到k最接近的值？

我讀過關於kd-trees的內容，但是當空間的維度很高時，它們效率很低。我有一個值的數據庫，我想查找在查詢的特定漢明距離內的值。例如，數據庫是一個32位數字的列表，我想查找所有與查詢值不同的小於3位的數字。我聽說有關多變量分區樹的地方，但找不到一個很好的參考。我知道min-Hash給出了一個很好的近似值，但是我想要一個確切的答案。

3熱度

2回答

如何將矢量散列到局部敏感散列中的桶中（使用jaccard距離）？

我正在實施一個近鄰搜索應用程序，它將找到類似的文件。到目前爲止，我已經閱讀了LSH相關材料的很大一部分（理論背後是LSH是一種混淆，我無法將其完全壓縮）。我的代碼能夠計算使用最小哈希函數（我接近尾聲）的簽名矩陣。我也將簽名策略應用於簽名矩陣。但是我無法理解如何將帶中的簽名向量（列）散列到桶中。我的最後一個問題可能是最重要的一個，但我不得不問一些introduction問題： Q1：請問散列函數

4熱度

2回答

最小哈希實現如何找到排列

我有實施minhashing問題哈希函數。在紙上和閱讀我理解這個概念，但我的問題是排列「詭計」。代替置換的集矩陣的和值實施的建議是：「摘K（例如，100）獨立的散列函數」，然後該算法表示： for each row r for each column c if c has 1 in row r for each hash function h_i do