我可以使用數百個JSON字符串。其中每個包含15-20個字的數組,按照一定的重量排序。如果值得注意的話,這個重量是這些詞在一些文本塊中找到的次數。找出像這樣構造的單詞陣列之間的相似性的最佳方式是什麼?比較字符串數組的相似性
我頭腦中的第一個想法是創建所有單詞的數值散列,並基本比較這些值以確定相似性。我並不是非常成功,因爲非常相似的字符串所產生的散列值並不是非常接近。經過一些關於字符串比較算法的研究,我來到Stackoverflow希望得到更多的指導。在此先感謝您,如果您需要更詳細的問題,請告訴我。
編輯1:澄清我想做的事情:我想根據這些詞中的每一個詞來確定兩個數組的相似程度。我還想考慮每個單詞在每個數組中的重量。例如:
var array1 = [{"word":"hill","count":5},{"word":"head","count":5}];
var array2 = [{"word":"valley","count":7},{"word":"head","count":5}];
var array3 = [{"word":"head", "count": 6}, {"word": "valley", "count": 5}];
var array4 = [{"word": "valley", "count": 7}, {"word":"head", "count": 5}];
在該示例中,陣列4和陣列2比陣列2和陣列3更相似的,因爲,儘管具有相同的話,其重量爲兩者相同的在陣列4和2.我希望這可以更容易理解。提前致謝。
所以,你必須與每個Nm的話ñ陣列,並且要確定到底是什麼? –
定義相似性... –
我編輯了我的原始文章並做了一些說明。希望有助於和感謝您的興趣。 –