我需要自動匹配產品名稱(食品)。問題類似於 Fuzzy matching of product names產品標題的模糊字符串匹配算法
主要問題是即使相關關鍵字的單個字母更改可以產生巨大差異,但要檢測哪些是相關關鍵字並不容易。考慮三個產品名稱Lenovo T400
,Lenovo R400
和New Lenovo T-400, Core 2 Duo
。
前兩個是可笑的,相似的字符串以任何標準(好吧,同音可能有助於disinguish的T和R在這種情況下,但名稱可能會成爲400T
和400R
),第一和第三都是很遠從彼此作爲字符串,但是是相同的產品。
顯然,匹配算法不能100%精確,我的目標是自動匹配大約80%的名字,並且信心十足。
但有一個複雜因素:我的字符串有錯誤,因爲我想要搜索的文件是圖像識別的結果。產品標題在這些文件中沒有空格。
例如,我想找到的產品名稱cookiesoreovarianta
,我有一個字符串
cookiesoreovariant b(一個真正的其他產品)
cookiesoreovariamt q(一個真正的產品, 「A」 和「q 「在某些字體相似的符號)
cookiesoreovaria 米 TA(只是一個錯誤)
我做不沒有完整的規範名稱數據庫。
我該如何解決這個問題。有任何想法嗎?