我正在編寫一些代碼以在數據庫中查找重複的客戶詳細信息。我將使用Levenshtein距離。如何存儲雙向關係
但是,我不知道如何存儲關係。我一直都在使用數據庫,但從來沒有遇到過這種情況,並想知道是否有人能指出我正確的方向。
讓我困惑的是如何存儲關係的雙向性。
我已經開始把一些例子如下,但不知道是否有用於存儲這種類型的數據的最佳實踐,
實例數據
ID,地址
001, 5大街
002,5主街
003,5主海峽
004,6大街
005,7低街
006,7低聖
建議1
customer_id1,customer_id2,relationship_strength
001,002,0.74
001,003,0.77
002,003,0.76
005,006,0.777
對這種方法不滿意,因爲它有點推斷出cust之間的單向關係omer_id1到customer_id2。除非我同時包含所有關係,但是這會增加處理時間和表的大小。
例如需要包括:002,001,0.74
建議2
CUSTOMER_ID,GROUPING_ID
001,1
002,1
003,1
005,2-
006,2
謝謝APC。該矩陣有意義並有助於將其可視化。這個SQL語句也是真的。謝謝。 – alj 2010-09-17 10:55:26