similarity

1熱度

2回答

問題是：我有一個文本文件的集合，我想拿起最相似的一個輸入文件。輸入文本文檔可以完全匹配或部分修改。算法必須非常快。目前，我發現simhash從收集文件中獲取指紋。有沒有其他算法可以做同樣的事情？

0熱度

1回答

我們目前正在做一個抄襲檢測兩個文本文檔的項目。我們必須比較兩份提交的文件並提供比較結果。爲此我想並排展示這兩個文檔，並突出顯示GUI中文檔之間的相似點。我使用各種算法來獲得兩個文檔（如向量空間和瓦片雲算法）之間的相似度分數。但他們不提供具有相似性的部分，我必須將它們呈現給圖形界面中出現相似性的用戶。感謝名單 Nuwan

0熱度

1回答

如何將similar_text應用於array_uintersect？

這個問題涉及到Francois Deschenes's answer到我以前的問題之一。我不確定如何將我的文本相似性檢查功能應用於array_uintersect函數。這裏是我的功能（公開賽上改進意見）： function checkSimilar($str1, $str2){ similar_text($str1, $str2, $percent); if($percen

5熱度

2回答

比較兩個數據集的過程

我在當時有兩個數據集（以矢量的形式），並將它們繪製在同一個軸上以查看它們如何相互關聯，並且特別注意並尋找兩個圖具有相似的形狀（即，在大致相同的時間間隔處兩者看似具有正/負梯度的位置）。例如：到目前爲止，我一直在努力通過圖形化數據，但認識到，由於數據量是如此之大，每次策劃我想看看如何兩套相關圖形將採取太多很多時間。是否有任何想法，腳本或函數可能有用於自動化此過程？

7熱度

3回答

Java中的Wordnet相似度：JAWS，JWNL或Java WN ::相似度？

我需要在基於Java的應用程序中使用Wordnet。我想：搜索同義詞集同義詞集之間查找相似/關聯我的應用程序使用RDF圖，我知道有SPARQL端點與WORDNET，但我猜最好有一個本地數據集副本，因爲它不太大。我發現下面的罐子：總庫 - JAWShttp://lyle.smu.edu/~tspell/jaws/index.html 總庫 - JWNLhttp://sourceforge

3熱度

3回答

使用PHP在多個條目中發現抄襲的可能性

我正在研究跟蹤幫助臺條目的Web應用程序。我們希望找到一種方法來防止人們在常見問題上覆制和粘貼他們的筆記 - 我們希望原始幫助臺條目能夠針對每個問題調用寫出來。在任何情況下，我們有成千上萬的條目，其中一些是相似的，我試圖找到一種方法，將它們全部相互比較，並指出與其他條目非常相似的條目，即80％是直接複製等。我已經查看了similar_text（）和其他一些內置的PHP函數，但我有興趣聽聽其他人是

1熱度

1回答

用句子找關鍵詞

我正試圖用兩種語言來測量相似度。如果我有某種擴大的句子表達形式，我認爲這會有所幫助。我們可以通過google/bing搜索得到這個擴展的表示，但是將整個句子作爲關鍵字並不會給出好的結果，尤其是如果句子很長。所以我認爲在一個句子中找到關鍵詞並將它們用作搜索詞可以改善我們的結果。任何人都知道在一個句子中查找關鍵字的算法？謝謝！

0熱度

2回答

組相似的文檔

這個問題涉及信息檢索中的類似文檔的分組/聚類。我有一組文檔，D1，D2，.. Dn。對於每個文件Di，我也有一組關鍵字Di_k1，Di_k2，...，Di_km。兩個文檔之間的相似性Di和Dj由涉及相關關鍵字的函數給出，即相似性（Di，Dj）= f（Di_K，Dj_K）。現在，我希望將這些文檔中的每一個放置到一組組/集羣中，使得每個集羣都包含相似類型的文檔，以用於集羣中存在的元素之間的相似閾值

0熱度

1回答

查找相關文本（兩個文本之間的關聯）

我試圖通過關聯在數據庫中找到類似的文章。因此，我將文本分割成單詞列，然後刪除經常使用的單詞（文章，代詞等），然後將兩個文本與皮爾森係數函數進行比較。對於某些文本是有效的，但對於其他文本則不太好（文本較大的文本具有較高的係數）。有人可以建議一個很好的方法來找到相關的文本？

1熱度

2回答

Wordnet同步偏移？如何比較單詞

我使用中科院的中文Wordnet。它是Wordnet 1.6的翻譯。不幸的是，它不是免費的，必須購買，手冊基本上是指Wordnet的手冊。我想弄清楚的是如何比較兩個詞之間的相似性。我想這是用WordNetSynsetOffset完成的，但我無法在Wordnet網站上找到任何內容或有關如何使用它來比較兩個單詞的文檔。至於實際的算法，我想這是一個良好的開端http://marimba.d.umn.ed