similarity

1熱度

1回答

我發現文檔之間的餘弦相似..我做了這樣的 D1 =（8,0,0,1），其中8,0,0,1是的TF-IDF得分術語T1，T2，T3，T4 D2 =（7,0,0,1） COS（THETA）=（56 + 0 + 0 + 1）/ SQRT（64 + 49）SQRT （1 +1）其中出來是 COS（THETA）= 5 現在我該如何評估這個值......我不明白cos（θ）= 5是什麼意思，它們表明它們之間

4熱度

1回答

轉換python協作過濾代碼以使用Map Reduce

使用Python，我正在計算項目之間的餘弦相似度。給出了表示購買（用戶，項目）的事件數據，我有我的用戶「購買」的所有項目的列表。鑑於這種輸入數據 (user,item) X,1 X,2 Y,1 Y,2 Z,2 Z,3 我建立一個Python字典 {1: ['X','Y'], 2 : ['X','Y','Z'], 3 : ['Z']} 從該字典中，我生成買/不買矩陣，也另一字

9熱度

5回答

「相似性」數據挖掘

在數據挖掘領域，有沒有具體的子學科被稱爲「相似性」？如果是的話，它會處理什麼。任何示例，鏈接和引用都將有所幫助。此外，作爲新的領域，我想對數據挖掘和人工智能如何密切相關的是社區的意見。他們是同義詞，是另一個的子集？在此先感謝您分享您的知識。「相似性」（這功能，你解壓，你跟他們以後做什麼）的

1熱度

1回答

Lucene numDocs和doqFreq上的自定義相似度類

即時做一個應用程序與Lucene（我是一個noob與它）和IM面臨一些問題。我aplication採用了Lucene 2.4.0庫與自定義similaraty實現（廣口瓶進口）在我的應用程序的IM計算doqFreq和numDocs手動（IM將所有指標的值，然後我在計算全球價值爲了在每個查詢中使用它），我想在自定義相似性實現上使用這些值來計算新的IDF。問題是，我不知道如何使用（或發送）新的d

1熱度

4回答

Solr搜索得分範圍從0到1

是否可以配置Solr，以便文檔相似度得分範圍爲例如從0（不匹配）到1（完整文檔和查詢匹配）的範圍。謝謝！

2熱度

1回答

Java：JPQL search -similar- strings

有什麼方法可以讓JPQL匹配類似的字符串？按類似於我的意思是：包含：搜索字符串匹配項實體不區分大小寫小mispellings的字符串中發現的：例如「AROW」匹配「箭頭」我懷疑前兩個將是容易的，但是，我將不勝感激幫助，最後一個謝謝

17熱度

6回答

方法來計算相似度

我做一個社區網站，需要我計算任意兩個用戶之間的相似性。每個用戶都具有以下屬性的描述：年齡，皮膚類型（油性，乾性），毛類（長，短，中），生活方式（積極的戶外愛好者，電視毫無價值）等。誰能告訴我如何去了解這個問題，或者我指向一些資源？

4熱度

4回答

計算機科學分類

我正在開發Web應用程序，其中用戶有標籤集合。我需要根據用戶標籤的相似性爲用戶創建一個建議列表。例如，當用戶登錄到系統時，系統會獲取他的標籤並在用戶的數據庫中搜索這些標籤，並顯示具有相似標籤的用戶。例如，如果用戶1具有以下標籤[的Linux，Apache，MySQL和PHP]和用戶2具有[的Windows，IIS，PHP和MySQL]它說，用戶2分配襯用戶1具有重量的50％，因爲他具有2分相似的

4熱度

3回答

尋找最接近的匹配

我有一組類似參數的對象： var obj = new {Param1 = 100; Param2 = 212; Param3 = 311; param4 = 11; Param5 = 290;} 在另一邊，我有對象的列表： var obj1 = new {Param1 = 1221 ; Param2 = 212 ; Param3 = 311 ; param4 = 11 ; Param5 = 2

2熱度

1回答

有關字符串相似度量（Java）的建議。距離，聽起來像還是組合？

過程的一部分需要應用字符串相似性算法。該過程的結果將被存儲併產生讓我們說SS_Dataset。基於此數據集，必須作出進一步的決定。我的問題是：我應該申請一個或多個字符串相似性算法來產生SS_Dataset？任何計算「距離」和「聽起來像」相似度的算法之間的比較？算法的一個家族是否產生比另一個算法更準確的結果？組合是否可以提供更準確的相似性結果？你能推薦你曾經使用過的實現嗎？我的實現將