similarity

1熱度

5回答

我有一個通用的一些文件名（LIST1）和另一個帶有完整名稱列表（LIST2）的biggeneric。我需要將LIST1中的名稱與LIST2中的名稱進行匹配。例如 LIST1 - **MAIZE_SLIP_QUANTITY_3_9.1.aif** LIST 2 1- TUTORIAL_FAILURE_CLINCH_4.1.aif 2- **MAIZE_SLIP_QUANTITY_3_5.

6熱度

3回答

加速PHP中的levenshtein/similar_text

我目前使用similar_text來比較一個字符串與大約50,000的列表，雖然由於比較的數量很慢，所以它很慢。大約需要11分鐘比較〜500個獨特的字符串。在運行此操作之前，我會檢查數據庫以查看它是否已經在過去處理過，因此每次運行inital後它都接近即時。我敢肯定，使用levenshtein會稍微快一些，而在手冊中發佈的LevenshteinDistance函數看起來很有趣。我是否錯過了一些

7熱度

3回答

視覺相似性搜索算法

我試圖建立一個像這樣的實用程序http://labs.ideeinc.com/multicolr, 但我不知道他們使用哪種算法，有誰知道？

12熱度

7回答

字比較算法

我正在爲我正在處理的項目做一個CSV導入工具。客戶端需要能夠在Excel中輸入數據，將它們導出爲CSV並將其上傳到數據庫。例如，我有這個CSV記錄： 1, John Doe, ACME Comapny (the typo is on purpose) 當然，這兩家公司都保存在一個單獨的表，並與外鍵鏈接，所以我需要在插入之前發現正確的公司ID。我打算通過將數據庫中的公司名稱與CSV中的公

8熱度

7回答

如何確定幾個字符串中最長的相似部分？

根據標題，我試圖找到一種方法來以編程方式確定幾個字符串之間最長的相似部分。例子： file:///home/gms8994/Music/t.A.T.u./ file:///home/gms8994/Music/nina%20sky/ file:///home/gms8994/Music/A%20Perfect%20Circle/ 理想情況下，我會回來file:///home/gms8994/Mu

3熱度

2回答

兩個文本的相似性（關鍵字的自適應本地對齊？）

我有2個不同長度的文本（最多4000個字符）。我需要基於（部分）解釋來獲得相似率。請注意，相同部分的文本可以在每個文本中位於不同的位置（所以Levenshtein不是解決方案）。比較過程也應當：沒有增加博覽會。與文本大小是表現友好。 :) 看來，「關鍵字的自適應局部對齊」是一個可能的解決方案。你有沒有實現的例子？首選語言是PHP，但我可以翻譯。 :) 您對該主題有任何其他解決方案/想法/經

0熱度

3回答

原文不規範

有沒有人知道有一個圖書館或軟件可以找到文本中的不規則性？例如，可以說我有... 1. Name 1, Comment 2. Name 2, Comment 3. Name 3 , Comment 5. Name 10, Comment 該軟件或庫將首先削減了文本的部分，它會找到類似的（相像一塊壓縮軟件將編碼文本的重複相似的部分壓縮它使用變量來容忍錯誤，它可以找到類似的文本部分，現在很