jaro-winkler

0熱度

1回答

我有一個包含一些短語的文件。通過lucene使用jarowinkler，它應該從我的輸入中得到最類似的短語。這是我的問題的一個例子。我們有一個包含文件： //phrases.txt this is goodd this is good this is god 如果我輸入的是這是一個好，它應該是讓我「這是件好事」從文件中第一次，因爲這裏的相似性得分是最大（1）。但由於某種原因，它返回：

1熱度

1回答

如何在lua中創建一個字符串字典函數？

如果一個字符串接近表中的字符串，它會用表中的字符串取代嗎？像一個拼寫檢查函數，它搜索一個表，如果輸入接近於表中的一個，它將修復它，所以表中的一個和字符串是相同的？

0熱度

1回答

更快的搜索查詢與動態哪裏列oracle db

我有一個表（ResponseData）與列RESPONSE_ID，RESPONSEDATA，KEY1，KEY2，KEY3，KEY4，VALUE1，VALUE2，VALUE3，VALUE4 用戶可以插入數據任何以下類別。 1，「我的回答一個」，「姓名」，NULL，NULL，NULL，「蘋果」，NULL，NULL，NULL 2，「我的回答兩個」，「姓名」，「年齡」，NULL，NULL，「蘋

0熱度

1回答

NLP - 提高運行時間並回收模糊字符串匹配

我做了一個工作算法，但運行時間非常可怕。是的，我從一開始就知道它會很糟糕，但不是那麼多。只有200000條記錄，該程序運行超過一個小時。基本上就是我做的是： for each searchfield in search fields for each sample in samples do a q-gram matching if there are match

2熱度

1回答

R中的快速Levenshtein距離（和Jaro Winkler）用於數字向量

是否有包含R的包中的Levenshtein距離計算函數計算數值向量的距離？我所發現的全部都是基於字符串的。此外，我正在尋找一種Jaro-Winkler套裝，但是Levenshtein距離更爲重要。

0熱度

1回答

快速Jaro Winkler C++代碼爲數字向量

是否有任何庫或C++中的函數的代碼，我可以用它來比較C++中的數值向量？

0熱度

1回答

什麼是Text :: JaroWinkler :: strcmp95的第三個參數？

我有興趣用Perl編寫的計算兩個字符串之間的距離（或相似）的哈羅 - 溫克勒模塊： http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm 函數的語法，我不清楚;我找不到任何明確的文件。下面是示例代碼： #!/usr/bin/perl use 5.10.0; use Text::JaroWinkler qw(strcm

1熱度

1回答

在Perl中解釋Jaro-Winkler得分 - Stata中有替代方法嗎？

Jaro-Winkler分數應該表示這兩個字符串可能相似的程度，是否存在行業標準？我有一個字符串的列表，我想看看他們中的任何一個是否是名義上的合理印刷錯誤。我使用了用C語言編寫的perl模塊，反過來，我從stata的數據集中收到了字符串。（所以如果有一個Stata模塊，我會全力以赴的！）下面是我在perl中編寫的代碼，用於比較字符串James。 #!/usr/bin/perl u

38熱度

1回答

Jaro-Winkler和Levenshtein距離之間的區別？

我有一個用例，我需要對來自多個文件的數百萬條記錄進行模糊匹配。我確定了兩種算法：Jaro-Winkler和Levenshtein編輯距離。當我開始探索這兩者時，我無法理解兩者之間的確切區別。 Levenshtein似乎給出了兩個字符串之間的編輯數量，Jaro-Winkler給出了0.0到1.0之間的匹配分數。我不明白這個算法。因爲我需要使用任何一種算法，所以我需要知道算法性能的確切差異。

0熱度

1回答

utl_match比較很多記錄

我有2個表 - 一個有100萬條記錄，另一個有40000條記錄。如果在另一個表上有類似的字符串，我需要比較表中的每條記錄。的事情是，這個過程是非常緩慢的我需要優化此過程爲表A（SELECT名字||」「||姓氏從員工的全名）環 SELECT COUNT（*） INTO num_coincidencias FROM表b WHERE utl_match.jaro_winkler_simila