record-linkage

1熱度

1回答

如果我有名字的一個載體，說： a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") 我想使用levenshteinSim或類似的得到這個矢量中的相似性得分。但是，我不想讓它自我評分。例如，"tom" #1得分爲"tom" #3。並且不要爲"tom" #1反對"tom" #1得分，所以不要

0熱度

1回答

兩張表格之間的模糊匹配

我有兩張表格，包含姓名和地址等客戶信息。 ID Name Full Address 1 Anurag 123 CA USA 5001 2 Mike ABC CA USA 5002 3 Jason ZYZ TX USA 5003 4 Roshan HBC MS USA 5004 5 Tony UYS VT USA 5005 New_ID Name Full Address 111

1熱度

1回答

熊貓模糊檢測重複

如何使用模糊匹配大熊貓中檢測到重複行（有效）如何找到一列與所有其他的人的副本沒有一個巨大的轉換的循環row_i toString（），然後將其與所有其他的？

0熱度

3回答

Python重複數據刪除記錄 - 重複數據刪除

我想使用https://github.com/datamade/dedupe來刪除python中的一些記錄。看他們的例子 data_d = {} for row in data: clean_row = [(k, preProcess(v)) for (k, v) in row.items()] row_id = int(row['id']) data_d[row_

2熱度

1回答

自動化文本/模糊匹配的最佳機器學習方法

我對機器學習非常熟悉，我在Python中完成了一些項目。我正在尋找如何解決我認爲可以實現自動化的以下問題的建議。我組織中的數據質量團隊中的用戶每天都會收集已手動輸入的公司名稱（含地址）列表，他必須搜索公司數據庫以查找匹配結果，使用他的判斷 - 即沒有硬性規定。輸入的一個例子是：公司名稱，地址行1，國家如此，用戶實現了公司名稱和將其輸入的搜索工具。他在哪裏得到一份結果列表，並且選擇最佳匹配，

1熱度

2回答

杜克快速重複數據消除：java.lang.UnsupportedOperationException：操作尚未支持？

我正嘗試使用Duke Fast Deduplication Engine在我工作的公司的數據庫中搜索一些重複記錄。我從這樣的命令行運行它： java -cp "C:\utils\duke-0.6\duke-0.6.jar;C:\utils\duke-0.6\lucene-core-3.6.1.jar" no.priv.garshol.duke.Duke --showmatches --verbo

-5熱度

1回答

MySQL記錄重複數據刪除

我只是問在這裏什麼是在MySQL中重複刪除表的最佳方法？我與字段id，name，lastname，user_no，birthday，percentage，然後parent_id一個示例表。我想要的是在percentage和parent_id字段中添加一個值，該字段基於哪個記錄是重複的以及它們的相似程度。我只是要求一種方法。檢查每個領域兩次以檢查比賽是否有效？或者，還有另一種方式嗎？

3熱度

2回答

如何將機器學習應用於模糊匹配

假設我有一個MDM系統（主數據管理），其主要應用是檢測和防止重複記錄。每當銷售代表進入系統中的新客戶時，我的MDM平臺會對現有記錄進行檢查，計算一對單詞或短語或屬性之間的Levenshtein或Jaccard或XYZ距離，考慮權重和係數以及輸出相似度分數等等。您的典型模糊匹配場景。我想知道是否有意義應用機器學習技術來優化匹配輸出，即找到最大精度的重複。而它最有意義的地方在哪裏。優化屬性的

4熱度

1回答

使用重複數據刪除蟒蛇時資源使用率低

我需要在大型數據集中找到重複項，所以我正在測試dedupe python庫。我知道它建議用於小數據集，所以我認爲使用好機器可以提高性能。我有一臺具有56 GB RAM的機器，對於具有200000行的數據集，我正在運行類似於"csv_example"的測試。它可以工作，但內存使用率非常低，所以處理（CPU）。這似乎需要很長時間阻塞階段： INFO:dedupe.blocking:10000, 1

0熱度

3回答

數據結構：重複數據刪除產品目錄

我正在考慮我的策略合併（和重複刪除）多個目錄的產品。我將使用一個非sql數據庫，並且需要查詢部分重疊產品的N個目錄。某些方面，如分類，標籤，說明書等必須標準化，我需要（通過UPC例如在每個目錄產品重複數據刪除）來跟蹤目錄庫中包含每一個獨特的項目。我目前的想法是將個人目錄導入到自己的表，然後用自建的算法，以確定「類似」的項目，進行歸一化，然後創建一個最終的「大師」表，其中包含標準化&去重