similarity

18熱度

6回答

我想知道在R中是否有內置函數可以找到兩個數組之間的餘弦相似度（或餘弦距離）？目前，我實現了自己的功能，但我不禁想到R應該已經有了一個。

13熱度

5回答

我有兩個字幕文件。我需要告訴他們是否代表相同的文字，或相似文本有時也有像「風在吹......正在播放的音樂」只在一個文件中註釋的功能。但是，80％的內容將是相同的。該函數必須返回TRUE（文件表示相同的文本）。有時還有像1這樣的拼寫錯誤，而不是l（one-L），如下所示：她1eft的行李。當然，這意味着函數必須返回TRUE。我的評論：函數應該返回文本的相似度的百分比 - 同意「所

3熱度

4回答

嚴格文件相似度的文本相似度函數

我正在寫一段java軟件，它必須對以UTF-8編碼的兩個文檔的相似度做出最終判斷。這兩個文件很可能是相同的，或者彼此略有不同，因爲它們具有許多共同的特徵，如日期，位置，創建者等等，但是他們的文本是決定它們是否真的如此。我期望這兩個文件的文本要麼非常相似，要麼根本不相關，所以我可以對設置相似性的閾值相當嚴格。例如，我可以說，只有當他們有90％的詞彙是共同的時候，這兩個文檔纔是相似的，但我希望有更

50熱度

6回答

比較字符串與公差

我正在尋找一種方法來比較一個字符串與一個字符串數組。做一個精確的搜索當然很容易，但我希望我的程序能夠容忍拼寫錯誤，缺少字符串的部分等等。是否有某種框架可以執行此類搜索？我記住，搜索算法會返回幾個結果順序的匹配百分比或類似的東西。

3熱度

5回答

如何實施「相關文章？」

如何編寫能夠找到相關（類似）文章的用戶正在閱讀的文章？例如，假設我有篇：（我想出了這些頭銜現在） Python programming tips Python programming for newbies Programming in Python, ActionScript and Flash Programming in the Jungle Tarzan saves newbie

3熱度

3回答

協作過濾：非個性化的項目到項目的相似性

我正在嘗試計算亞馬遜的「查看/購買X的客戶也查看/購買了Y和Z」的項目到項目的相似度。我所見過的所有示例和參考資料都是針對排名項目的計算項目相似度，用於查找用戶 - 用戶相似度或根據當前用戶的歷史記錄查找推薦項目。在考慮當前用戶的偏好之前，我想先採用非目標方法。望着Amazon.com recommendations white paper，他們使用離線項目，項目相似以下邏輯： For each

4熱度

6回答

百分比相似度分析（Java）

我有以下情況： String a =「網絡爬蟲是一種自動瀏覽萬維網互聯網的計算機程序」; 字符串b =「網絡爬蟲計算機程序瀏覽萬維網」; 有什麼想法或標準算法來計算相似度的百分比是多少？例如，上述情況下，通過手動估計的相似性尋找應爲90％++。我的想法是來標記字符串和比較匹配的令牌的數量。類似於（7令牌/ 1令牌）* 100.但是，當然，這種方法根本無效。比較字符數匹配似乎也沒有效....

1熱度

1回答

是否有一些算法比較不同頁面的DOM相似度？

有沒有人有這方面的經驗？

1熱度

1回答

如何在一個版本中確定文件的文本塊來自以前版本中的哪個文件？

問題描述如下：假設我有一個版本的文件列表（比如說A，B，C，D）。在下一個版本中，我有以下文件（A，E，F，G）。他們的內容有一些相似之處。更新版本中的文件來自以前的版本，通過文件名重命名，內容添加，刪除或部分修改或不作任何更改（例如，A未更改）。我從一個文件（E，第二個版本）中取一塊文本並檢查哪些文件（在第一個版本中）包含這個文本塊。我發現B，C和D包含文本片段。我想確定這個文本塊實際來自哪

4熱度

2回答

如何高效地實現文檔相似性搜索系統？

如何爲標籤集描述的項目實現「類似項目」系統？在我的數據庫中，我有三個表，Article，ArticleTag和Tag。每個文章通過多對多的關係與多個標籤相關。對於每篇文章，我想找到五個最相似的文章來實施「如果你喜歡這篇文章，你也會喜歡這些太」系統。我熟悉Cosine similarity 並且使用該算法效果很好。但這是一種緩慢的方式。對於每篇文章，我需要對所有文章進行迭代，計算文章對