數組相似字符串比方說,我有不同的URL集合中的數組:集團在Node.js的
var source = ['www.xyz.com/Product/1', 'www.xyz.com/Product/3', 'www.xyz.com/Category/1', 'somestring']
什麼會遍歷數組,並將相似串入一個好辦法單獨陣列? 從例子中的所需的輸出以上將是:
var output = [
['www.xyz.com/Product/1', 'www.xyz.com/Product/3'],
['www.xyz.com/Category/1'],
['somestring']
];
條件
- 內
source
所有的數據項可以是隨機串 - 邏輯必須能夠比較和組大約100' 000件物品在有意義的時間
我找到了string-similarity library,它提供了將一個字符串與字符串集合進行比較的可能性。一種方法是迭代源代碼,將每個項目與源集合進行比較,並應用規則對具有相似分數的項目進行分組。不過我想這樣做效率很低。
有人可以建議我一種有效的方法來完成我所需要的嗎?
所以在這個例子中有一個清晰的模式,但它似乎是你問關於可能是任何東西的字符串?那是對的嗎? – aw04
@ aw04是的,沒有明確的模式可以是任何字符串。正如我寫道:源內的所有項目可以是隨機字符串 – enyce12
好運然後:) – aw04