minhash

0熱度

1回答

如果我有2個Series對象，像這樣：[0,0,1] [1,0,0] 如何得到兩個交點和聯合？它們只包含布爾值，這意味着它們是非唯一值。我有一個大的布爾矩陣。我對它進行了細化，現在我試圖找到誤報和否定，我認爲這意味着我必須讓每個原始對的Jaccard相似。

0熱度

1回答

使用Geometric Min Hash查找相似圖片：如何計算理論匹配概率？

我試圖匹配基於視覺單詞的圖像（標記爲圖像內的關鍵點）。當將模擬結果與我的理論結果進行比較時，我會得到明顯的偏差，因此我猜想我的理論概率計算中必定存在一個錯誤。你能想象兩幅圖像集的視覺字（視覺詞的名字範圍從A到Z）： S1=SetImage1={A, B, C, D, E, F, G, H, I, J, L, M, N, O, Y, Z} S2=SetImage2={A, L, M, O, T,

1熱度

2回答

什麼比simhash更有利於minhash？

我正在使用simhash，但也看到minhash更有效。但我不明白。請爲我解釋：什麼比simhash更有利的minhash？

0熱度

1回答

如何檢測大數據上的相似文字？

正如我剛纔所知，simhash和minhash可用於此任務。但是所有這些算法都必須遍歷整個文本數據庫，這將非常可靠。有沒有可以加速任務的優化或其他算法？我所想到的就是將文本數據庫分成幾個部分，並將兩兩相似性並行。我的文本數據庫有大約10億條記錄。

0熱度

1回答

設置距離作爲MinHashing算法的相似性度量

我目前正在使用MinHashing技術進行文檔聚類。但是，由於MinHash是Jaccard similarity的粗略估計，因此我沒有得到期望的結果，並且它不適合我的要求。這是我的情景：我有一個巨大的一套書，如果一個頁面是作爲一個查詢，我需要找到從自獲得該頁面對應的書籍。限制是，我擁有整本書的功能，並且不可能獲得書籍的逐頁功能。在這種情況下，如果書太大，Jaccard的相似性會導致較差的結果

0熱度

1回答

如何通過MinHash計算兩個文本與兩個包的Jaccard相似度的相似度？

我有以下兩個文本： text0 =「AAAAAAAAAAAA」; text1 =「AAAAABAAAAAA」; 我使用4-ingle。因此，text0 = {AAAA}，text1 = {AAAA，AAAB，AABA，ABAA，BAAA}。然後，Jaccard相似度是sim = 1/5 = 0.2。我不想要這個結果。因爲這兩個文本似乎有很高的相似性。我想用袋子相似如下： text0 = {A

1熱度

2回答

Puppetlabs-Apache：爲虛擬主機啓用80和443

我對puppet比較陌生，目前正在研究'puppetlabs-apache'模塊。在虛擬主機上同時設置ssl和non-ssl時，我錯過了一些東西。清單適用於： include apache include apache::mod::rewrite #apache::vhost { 'site.mydomain.com': # port => '80', # docroot =>

1熱度

2回答

存儲Minhash的結果

結果是固定數量的數組，我們假設列表（全部長度相同）在python中。人們也可以將它看作一個矩陣，所以在c我會使用一個數組，每個單元格將指向另一個數組。如何在Python中做到這一點？列表中的每個項目是列表還是其他內容？我想到了一本字典，但鍵很平凡，1，2，...，M，所以我不確定這是否是pythonic的方式去這裏。我對實施不感興趣，我對我應該遵循哪種方法感興趣，我應該選擇哪種方式！

1熱度

1回答

從文本文件（八度）創建一組帶狀皰疹

我在Octave/Matlab中創建MinHash和LSH。但我試圖從一個給定的文檔中得到一個k個大小的集合（單元數組或數組），我不知道該怎麼做。我現在所擁有的就是這個簡單的代碼： doc = fopen(document); i = 1; while (! feof(doc)) txt{i} = strread(fgetl(doc), '%s'); i++; endw

1熱度

2回答

使用最小哈希比較2套以上

我有一個叫FindSimilar類使用最小哈希找到2套（及這一目標，它的偉大工程）之間的相似性。我的問題是我需要比較2組以上，更具體地說，我需要比較給定的set1與未知數量的其他組。這裏是類： import java.util.HashSet; import java.util.Map; import java.util.Random; import java.util.Set; pub