fuzzy-search

    0熱度

    2回答

    我正在清理一個我繼承的髒數據庫,並且需要對模糊匹配名稱進行人工審查。我提出了一個可行的解決方案,但速度非常慢 - 15k行7分鐘。我有這種感覺,我忽略了一些非常簡單的解決方案。 記錄示例: 1 John Smith 2 John Q Smith 3 Janway Smith 4 Jane Chen 5 David Jones 6 Natalia La Brody 7 Natalia L

    0熱度

    1回答

    A BK Trees (Burkhard-Keller Trees)與模糊字符串搜索(例如拼寫檢查,單詞推薦)相關聯。所有的BK樹搜索算法都與explained here相同。目標是返回,例如"seek" and "peek" if I search for "aeek"。 現在,我的問題是,我想利用這個模糊字符串搜索算法來搜索從所有類似的項目給予詞典。例如,給一個詞「尋找」,我想找到全部類似的單

    0熱度

    1回答

    我有做一個的fuziness距離一個簡單的文本字段搜索簡單彈性查詢: GET /jobs/_search { "query": { "fuzzy": { "attributes.title": { "value": "C#" "fuzziness": 1 } } } } 上面的查詢也正是它被告知這樣做,

    2熱度

    3回答

    我有一個包含大約700萬羣衆來源記錄的Microsoft SQL Server數據庫表,主要包含帶有一些相關詳細信息的字符串名稱值。對於幾乎每一條記錄,似乎都有十幾個類似的錯字記錄,我試圖做一些模糊匹配來識別諸如「蘋果」,「Aple」,「蘋果」,「Spple」等記錄組。這些名字也可以包含多個空格之間的單詞。 我想出了一個使用編輯距離標量函數的解決方案,該函數返回從string1轉換爲string2

    1熱度

    1回答

    由於數據在遺留系統中存儲錯誤,因此我使用R和agrep()來匹配公司名稱列表 - 因爲數據在傳統系統中存儲錯誤 - 沒有第四種常規格式,公司在同一級別上錄製作爲客戶,這意味着每個新客戶都有一個新的公司條目,這導致一家公司擁有許多不同的公司名稱 - 這在很多情況下都能正常工作。 有時,特別是對於短字符串,我得到的 - 至少對我來說 - 奇怪的比賽,例如(ABC是第一家名稱): ABC ABAXIS

    1熱度

    1回答

    我正在努力匹配'字段'到多字段(或_all字段) 我想對cross_fields進行模糊匹配,但它不受支持。 任何想法如何做到這一點或任何其他方式來做到這一點? query: { multi_match: { query: term, type: "cross_fields", fields: ['_all'] } } 這裏試圖溶液 Elas

    1熱度

    1回答

    我們使用exists-db base來存儲各種xml文檔,我們使用xquery執行搜索。這是示例XML文檔: <person personID="some_id"> <name> <familyName>Doe</familyName> <firstName>John</firstName> </name> </person> 我們

    0熱度

    2回答

    我在我的數據庫表中有一個varchar字段讓我們稱之爲store_name,這個字段從實體A獲得它的值,現在實體B將store_name輸入到不同的數據庫表B現在我想要表A中的所有記錄,其中store_name與表B中的值匹配。 您會如何建議我執行查詢,因爲我不控制這兩個字段的值? 您如何看待PostgreSQL fuzzystrmatch? 這些表包含數千條記錄。 謝謝

    1熱度

    1回答

    我想搜索並計算在較大序列(F)內發生的小DNA序列(R)的數量,但R有幾個可能是變量。我認爲最簡單的方法是設置R的比率並在F中將所有命中數計數在80%以上,但似乎只執行此操作的命令(例如difflib的SequenceMatcher或get_close_matches)需要使用列表才能工作。我不能把F分成任何這樣的名單。有任何想法嗎? 編輯2:更多信息請求。 DNA片段(F)中存在一定數量的重複序

    0熱度

    1回答

    我有一組文檔,每個文檔都用一組可以包含空格的標籤進行註釋。用戶提供一組可能拼錯的標籤,我想找到匹配標籤數量最多的文檔(可選擇加權)。 有幾千個文檔和標籤,但每個文檔至多有100個標籤。 我正在尋找一個輕量級且高性能的解決方案,其中搜索應該完全在客戶端使用JavaScript,但是可以使用node.js對索引進行一些預處理。 我的想法是使用multiset和模糊索引來創建文檔的反向索引,該索引可以找