minhash

    0熱度

    1回答

    如果我有2個Series對象,像這樣:[0,0,1] [1,0,0] 如何得到兩個交點和聯合? 它們只包含布爾值,這意味着它們是非唯一值。 我有一個大的布爾矩陣。我對它進行了細化,現在我試圖找到誤報和否定,我認爲這意味着我必須讓每個原始對的Jaccard相似。

    0熱度

    1回答

    我試圖匹配基於視覺單詞的圖像(標記爲圖像內的關鍵點)。當將模擬結果與我的理論結果進行比較時,我會得到明顯的偏差,因此我猜想我的理論概率計算中必定存在一個錯誤。 你能想象兩幅圖像集的視覺字(視覺詞的名字範圍從A到Z): S1=SetImage1={A, B, C, D, E, F, G, H, I, J, L, M, N, O, Y, Z} S2=SetImage2={A, L, M, O, T,

    1熱度

    2回答

    我正在使用simhash,但也看到minhash更有效。 但我不明白。 請爲我解釋:什麼比simhash更有利的minhash?

    0熱度

    1回答

    正如我剛纔所知,simhash和minhash可用於此任務。但是所有這些算法都必須遍歷整個文本數據庫,這將非常可靠。 有沒有可以加速任務的優化或其他算法? 我所想到的就是將文本數據庫分成幾個部分,並將兩兩相似性並行。我的文本數據庫有大約10億條記錄。

    0熱度

    1回答

    我目前正在使用MinHashing技術進行文檔聚類。但是,由於MinHash是Jaccard similarity的粗略估計,因此我沒有得到期望的結果,並且它不適合我的要求。 這是我的情景: 我有一個巨大的一套書,如果一個頁面是作爲一個查詢,我需要找到從自獲得該頁面對應的書籍。限制是,我擁有整本書的功能,並且不可能獲得書籍的逐頁功能。在這種情況下,如果書太大,Jaccard的相似性會導致較差的結果

    0熱度

    1回答

    我有以下兩個文本: text0 =「AAAAAAAAAAAA」; text1 =「AAAAABAAAAAA」; 我使用4-ingle。因此,text0 = {AAAA},text1 = {AAAA,AAAB,AABA,ABAA,BAAA}。 然後,Jaccard相似度是sim = 1/5 = 0.2。 我不想要這個結果。因爲這兩個文本似乎有很高的相似性。 我想用袋子相似如下: text0 = {A

    1熱度

    2回答

    我對puppet比較陌生,目前正在研究'puppetlabs-apache'模塊。在虛擬主機上同時設置ssl和non-ssl時,我錯過了一些東西。 清單適用於: include apache include apache::mod::rewrite #apache::vhost { 'site.mydomain.com': # port => '80', # docroot =>

    1熱度

    2回答

    結果是固定數量的數組,我們假設列表(全部長度相同)在python中。 人們也可以將它看作一個矩陣,所以在c我會使用一個數組,每個單元格將指向另一個數組。如何在Python中做到這一點? 列表中的每個項目是列表還是其他內容? 我想到了一本字典,但鍵很平凡,1,2,...,M,所以我不確定這是否是pythonic的方式去這裏。 我對實施不感興趣,我對我應該遵循哪種方法感興趣,我應該選擇哪種方式!

    1熱度

    1回答

    我在Octave/Matlab中創建MinHash和LSH。但我試圖從一個給定的文檔中得到一個k個大小的集合(單元數組或數組),我不知道該怎麼做。 我現在所擁有的就是這個簡單的代碼: doc = fopen(document); i = 1; while (! feof(doc)) txt{i} = strread(fgetl(doc), '%s'); i++; endw

    1熱度

    2回答

    我有一個叫FindSimilar類使用最小哈希找到2套(及這一目標,它的偉大工程)之間的相似性。我的問題是我需要比較2組以上,更具體地說,我需要比較給定的set1與未知數量的其他組。這裏是類: import java.util.HashSet; import java.util.Map; import java.util.Random; import java.util.Set; pub