minhash

    2熱度

    1回答

    假設我有五組我想集羣。據我所知,這裏所描述的SimHashing技術: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能產生三個集羣({A},{B,C,D}和{E}),舉例來說,如果其結果是: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03

    -4熱度

    1回答

    他們傢伙。 我對堆棧交換非常陌生,目前我正在研究圖論。因爲我是一個初學者級別的程序員(不熟悉哈希,桶,向量等數據結構明智),我要問的這組問題是非常介紹性的。 我的想法是採用形式(時間戳t,節點i,節點j)的數據集,它表示在時間t時i和j之間存在邊界。這個想法是搜索每個節點的鄰居集並散列它們。如果他們的「矢量」(我不明白那是什麼)散列到同一個桶中 - 它們是羣集形成的候選者。 但他的問題是我想做實驗

    0熱度

    1回答

    我使用: Hadoop的1.2.1和Mahout的分佈-0.8 當我嘗試用下面的命令運行HASHMIN方法: $MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.minhash.MinHashDriver -i tce-data/cv.vec -o tce-data/out/cv/minHashDriver/ -ow 我得到這個錯誤: [e

    6熱度

    2回答

    我已閱讀了很多關於使用Min Hash實現LSH(本地敏感散列)的教程,文檔和代碼。 LSH試圖通過散列隨機子集和aggrating對這些發現的兩組的Jaccard係數。我查看了code.google.com中的實現,但無法理解他們的方法。我瞭解紙張Google news personalization: scalable online collaborative filtering,但我無法理解

    4熱度

    1回答

    我讀過關於kd-trees的內容,但是當空間的維度很高時,它們效率很低。我有一個值的數據庫,我想查找在查詢的特定漢明距離內的值。例如,數據庫是一個32位數字的列表,我想查找所有與查詢值不同的小於3位的數字。 我聽說有關多變量分區樹的地方,但找不到一個很好的參考。我知道min-Hash給出了一個很好的近似值,但是我想要一個確切的答案。

    3熱度

    2回答

    我正在實施一個近鄰搜索應用程序,它將找到類似的文件。到目前爲止,我已經閱讀了LSH相關材料的很大一部分(理論背後是LSH是一種混淆,我無法將其完全壓縮)。 我的代碼能夠計算使用最小哈希函數(我接近尾聲)的簽名矩陣。我也將簽名策略應用於簽名矩陣。但是我無法理解如何將帶中的簽名向量(列)散列到桶中。 我的最後一個問題可能是最重要的一個,但我不得不問一些introduction問題: Q1:請問散列函數

    4熱度

    2回答

    我有實施minhashing問題哈希函數。在紙上和閱讀我理解這個概念,但我的問題是排列「詭計」。代替置換的集矩陣的和值實施的建議是:「摘K(例如,100)獨立的散列函數」,然後該算法表示: for each row r for each column c if c has 1 in row r for each hash function h_i do