假設您有一個包含varchar列的大表。匹配包含單詞排列的行
你會如何匹配包含在VARCHAR山坳的「首選」,但數據是有點吵,包含偶爾拼寫錯誤,例如,字行:
['$2.10 Cumulative Convertible Preffered Stock, $25 par value',
'5.95% Preferres Stock',
'Class A Preffered',
'Series A Peferred Shares',
'Series A Perferred Shares',
'Series A Prefered Stock',
'Series A Preffered Stock',
'Perfered',
'Preffered C']
字的排列在「優選」上面的拼寫錯誤似乎表現爲family resemblance,但它們幾乎沒有什麼共同之處。請注意,拆分每個單詞並在每行中的每個單詞上運行levenshtein將會非常昂貴。
UPDATE:
有幾個這樣的,例如,其它實施例與「限制」:
['Resticted Stock Plan',
'resticted securities',
'Ristricted Common Stock',
'Common stock (restrticted, subject to vesting)',
'Common Stock (Retricted)',
'Restircted Stock Award',
'Restriced Common Stock',]
您是否具體詢問「首選」,或者這是一個普遍問題? – 2009-04-08 22:27:09
這裏有一小部分其他示例 – 2009-04-08 22:29:38