jaro-winkler

    0熱度

    1回答

    我有一個包含一些短語的文件。通過lucene使用jarowinkler,它應該從我的輸入中得到最類似的短語。 這是我的問題的一個例子。 我們有一個包含文件: //phrases.txt this is goodd this is good this is god 如果我輸入的是這是一個好,它應該是讓我「這是件好事」從文件中第一次,因爲這裏的相似性得分是最大(1)。但由於某種原因,它返回:

    1熱度

    1回答

    如果一個字符串接近表中的字符串,它會用表中的字符串取代嗎? 像一個拼寫檢查函數,它搜索一個表,如果輸入接近於表中的一個,它將修復它,所以表中的一個和字符串是相同的?

    0熱度

    1回答

    我有一個表(ResponseData)與列RESPONSE_ID,RESPONSEDATA,KEY1,KEY2,KEY3,KEY4,VALUE1,VALUE2,VALUE3,VALUE4 用戶可以插入數據任何以下類別。 1, 「我的回答一個」, 「姓名」,NULL,NULL,NULL, 「蘋果」,NULL,NULL,NULL 2, 「我的回答兩個」, 「姓名」,「年齡」,NULL,NULL, 「蘋

    0熱度

    1回答

    我做了一個工作算法,但運行時間非常可怕。是的,我從一開始就知道它會很糟糕,但不是那麼多。只有200000條記錄,該程序運行超過一個小時。 基本上就是我做的是: for each searchfield in search fields for each sample in samples do a q-gram matching if there are match

    2熱度

    1回答

    是否有包含R的包中的Levenshtein距離計算函數計算數值向量的距離?我所發現的全部都是基於字符串的。此外,我正在尋找一種Jaro-Winkler套裝,但是Levenshtein距離更爲重要。

    0熱度

    1回答

    是否有任何庫或C++中的函數的代碼,我可以用它來比較C++中的數值向量?

    0熱度

    1回答

    我有興趣用Perl編寫的計算兩個字符串之間的距離(或相似)的哈羅 - 溫克勒模塊: http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm 函數的語法,我不清楚;我找不到任何明確的文件。 下面是示例代碼: #!/usr/bin/perl use 5.10.0; use Text::JaroWinkler qw(strcm

    1熱度

    1回答

    Jaro-Winkler分數應該表示這兩個字符串可能相似的程度,是否存在行業標準? 我有一個字符串的列表,我想看看他們中的任何一個是否是名義上的合理印刷錯誤。我使用了用C語言編寫的perl模塊,反過來,我從stata的數據集中收到了字符串。 (所以如果有一個Stata模塊,我會全力以赴的!) 下面是我在perl中編寫的代碼,用於比較字符串James。 #!/usr/bin/perl u

    38熱度

    1回答

    我有一個用例,我需要對來自多個文件的數百萬條記錄進行模糊匹配。我確定了兩種算法:Jaro-Winkler和Levenshtein編輯距離。 當我開始探索這兩者時,我無法理解兩者之間的確切區別。 Levenshtein似乎給出了兩個字符串之間的編輯數量,Jaro-Winkler給出了0.0到1.0之間的匹配分數。我不明白這個算法。因爲我需要使用任何一種算法,所以我需要知道算法性能的確切差異。

    0熱度

    1回答

    我有2個表 - 一個有100萬條記錄,另一個有40000條記錄。 如果在另一個表上有類似的字符串,我需要比較表中的每條記錄。 的事情是,這個過程是非常緩慢的 我需要 優化此過程 爲表A(SELECT名字||」「||姓氏從員工的全名) 環 SELECT COUNT(*) INTO num_coincidencias FROM表b WHERE utl_match.jaro_winkler_simila