similarity

1熱度

1回答

git-scm可讓您確定存儲在同一存儲庫中的文件的即時重命名（例如，git diff --find-renames）。如果我有十幾個文件集（例如，約10套總（這可能是一些有點相關軟件的獨立分支，例如，* BSD系統）），並在每組約25K的文件。（每一組可能會每天更新，並表示不帶任何歷史結賬。）鑑於文件從一組，我想知道什麼是可能的先輩或子孫文件（或文件）另一套。（需要注意的是混帳本身因此不是

0熱度

1回答

優化的Python代碼熊貓

Scorelife_disct={'scorelife41': ['c', 'hindi', 'sql', 'scala', 'love'], 'scorelife42': ['c', 'sql', 'english', 'Cat', 'html', 'cPlus', 'love'], 'scorelife43': ['c', 'Cat', 'friend', 'love']} User_

2熱度

2回答

使用字符串相似性技術的記錄鏈接

我們正在開發Record linkage項目。我們從所有像哈羅溫克勒的Levenshtein，N-革蘭，Damerau-的Levenshtein，的Jaccard指數，索倫森-骰子說的標準技術的觀察奇怪的行爲，字符串1 = MINI GRINDER KIT 字符串2 = Weiler 13001迷你研磨機配件套件，用於小直角研磨機字符串3 =密爾沃基視頻內窺鏡，旋轉檢測範圍，系列：M-SP

1熱度

1回答

爲什麼NearestNeighbors（SKlearn）在n_neighbors少於項目總數時需要更多時間？

我想要計算數據集中每個N項目的前20個相似項目。每個項目都使用M的特徵來表示因此數據大小爲N_items X M_features。當我沒有指定n_neighbors（默認值是5）時，kneighbors函數需要很多時間。但是，當我指定n_neighbors = N_items時，它幾乎立即給出結果。即NN_object = NearestNeighbors()需要很多時間才能找到knei

1熱度

2回答

是可能的組串的基礎上在紅寶石相似度

我已經實現這些基團類似使用文本環路定製紅寶石方法的陣列， array = ["South East Queensland", "Wide Bay Burnett", "Margaret River", "Port Pirie", "Gippsland", "Elizabeth", "Barossa"] similarity_group = [] similarity_percentage =

0熱度

1回答

如何找到兩行數據之間的相似性

我嘗試以編程方式從數據集中刪除幾乎重複的數據之一。我的數據集在邏輯上類似於下表。如您所見，數據集中有兩行，人類可以很容易地理解這兩個數據是相關的，並且可能由同一個人添加。我解決這個問題是使用萊文斯坦比較單獨字段（姓名，地址，電話號碼），並發現他們的相似率。然後我計算平均比率爲0.77873。這種相似性結果似乎很低。我的python代碼就像 from Levenshtein import rati

1熱度

2回答

機器學習預處理字符串到數字

我需要預處理的數據轉換爲數字，以便能夠在數據集中應用ML算法，但有這個功能，它幾乎是樹形結構與我不知道字符串如何改造。這裏去一個例子： Feature -> Value I would like to transform to (example): X Y Z foo -> 0.5 X Y Z bar -> 0.501 A B C foo -> 4.1 W B C foo -> 5

2熱度

2回答

運行vb代碼計算相似度時定義首字母縮略詞

我在Excel中使用以下vb代碼來計算列A和列B之間的程度相似度。它運行得非常好。對我來說，下一步是定義首字母縮略詞，以便計算出的相似度不受影響。 IE：如果我在A列「ABC有限責任公司」和B列「ABC有限責任公司」中，目前的VB代碼將返回兩列不很相似。然而，我希望他們通過定義「有限責任公司」和「有限責任公司」確實是一回事，將其歸爲100％類似。我可以做什麼，我可以在代碼中將它放在哪裏來完成此任

0熱度

1回答

需要具有相同大小的餘弦相似度向量

我想計算需要X，Y，Z技能的開放角色與W，T，L專業知識水平（熟練程度）和不同員工之間的相似程度......但並非全部員工將擁有所有的X，Y，Z技能，所以如果技能不存在，我們需要設置一個0 .... 我有什麼是不工作的，因爲當角色和員工都有技能。任何想法？在此先感謝 MATCH (p1:Employee)-[x:HAS_SKILL]->(sk:Personal_Skill)<-[y:REQUIRE

8熱度

2回答

從gensim解釋否定的Word2Vec相似度

E.g.我們培養使用gensim一個word2vec模型： from gensim import corpora, models, similarities from gensim.models.word2vec import Word2Vec documents = ["Human machine interface for lab abc computer applications",