similarity

    2熱度

    1回答

    背景 - 我有一組客戶數據和使用的字符串匹配算法來比較的所有記錄的相似性。然後,我需要直接或通過關聯將彼此相關的結果進行分組,併爲每個組應用唯一的ID。 問題 - 我不能想辦法以連接在一起的記錄,並應用一個唯一的ID爲每個組 例 數據目前看起來是這樣的,已找到的匹配(MatchScore與此處的問題無關,只是爲了證明數據來自哪裏)。 +-------------+-------------+---

    1熱度

    1回答

    我對word2vec輸出向量的解釋有些困惑! 如果我想預測在特定單詞(w1)之後出現的最可能的單詞,我可以使用最靠近w1的單詞嗎? 我的意思是,與w1距離最短的單詞可以解釋爲最高概率的下一個單詞?

    1熱度

    1回答

    我試圖計算2個句子之間的相似度,所以我有2個單詞集合,每個代表一個句子,還有一個函數(F)接收兩個單詞並返回它們之間的相似度一個方式.. 在圖像1中,黑圓圈是句子A的話,紅色正方形表示句子B. 對於每個時間函數(F)接收2個字,它返回0.0之間的值和1.0,例如:A中的第一個單詞和B中的第三個單詞具有0.3的相似性分數。 我已經使用了M×N的比較,因爲這兩個句子的順序往往不一樣,還有一些單詞。 我

    0熱度

    2回答


    2熱度

    1回答

    我有一個csv文件,名稱接近845k行。 我想比較模糊名稱字符串匹配。 我用Java fuzzy string matching實現了衆所周知的Python的fuzzywuzzy算法。 在代碼下面實現它對我來說非常完美。 問題是過程時間到很多。 每行比較時間與其他行近15秒。 這是一小時240行,整個過程將近6000行。 而且所有的過程都將在幾個月內完成。 這是不可接受的工作時間。 我需要一種優化

    0熱度

    1回答

    我想根據它們的相似程度排列文件夾中的很多圖像。這些圖像是組織切片從組織微陣列(例如:http://www.proteinatlas.org/images/36302/112008_A_6_6.jpg) 我曾嘗試: 我採取的第一個圖像,把它比作一切,與最佳匹配的匹配起來。然後,我採取最接近的比賽,並做同樣的事情。爲了計算相似性,我嘗試過結構相似性指數和哈希(pHash,dHash),他們都沒有很好地

    0熱度

    1回答

    我有2000行4000列的數據。我想要做的是將每行與其餘行進行比較,並查看它們在不同列/總列中的相似程度。 我所做的一切至今如下: for (i in 1:nrow(data)) { for (j in (i+1):nrow(data)) { mycount[[i,j]] = length(which(data[i,] != data[j,])) }

    2熱度

    3回答

    我有一個陣列A和一個參考陣列B。 A的尺寸至少與B一樣大。例如 A = [2,100,300,793,1300,1500,1810,2400] B = [4,305,789,1234,1890] B實際上峯的一個信號在指定的時間的位置,和含有A在稍後的時間的峯的位置。但A中的一些元素實際上不是我想要的峯值(可能是由於噪音等原因),我想根據B找到A中的「真實」元素。 A中的'real'元素應該

    1熱度

    2回答

    我有一個叫FindSimilar類使用最小哈希找到2套(及這一目標,它的偉大工程)之間的相似性。我的問題是我需要比較2組以上,更具體地說,我需要比較給定的set1與未知數量的其他組。這裏是類: import java.util.HashSet; import java.util.Map; import java.util.Random; import java.util.Set; pub

    0熱度

    1回答

    我使用gensim構建一個LSI語料庫,然後應用以下gensim教程查詢相似(tut1,tut2ñtut3) 我問題是,當我嘗試calcualte查詢相似如圖所示下面的代碼我以(docID,simScore)元組的形式得到結果。 我需要使用docID來檢索文檔的字符串表示形式。 (類似於corpora.Dictionary的token2id映射) 谷歌搜索,我無法找到任何有用的 我的代碼搜索 de