我有兩個電子表格,每個電子表格都提供有關在我的工作網絡上運行的一組應用程序的信息。他們是由兩個獨立的人創造的,他們從來沒有見過這樣的人。Levenshtein短語的距離/字符串匹配算法
因此,它們給予應用程序的名稱在表單之間並不固定。但是,它們是相似的。例如,可以調用應用程序「Office 2010」,其他「MS Office 10」或其他。
我查了Levenshtein算法,但是這似乎只適用於單詞順序不變的單個單詞或短語,而只有拼寫不同。 (我不是計算機科學家,請隨時糾正我)。
因此,我正在尋找一種算法,對於一張表中的每個名稱,可以循環顯示另一張表中的每個名稱並查找最接近的匹配項。不一定要完美,任何事情都會有所幫助。
任何想法?感謝所有能夠幫助的人。