similarity

    1熱度

    1回答

    git-scm可讓您確定存儲在同一存儲庫中的文件的即時重命名(例如,git diff --find-renames)。 如果我有十幾個文件集(例如,約10套總(這可能是一些有點相關軟件的獨立分支,例如,* BSD系統)),並在每組約25K的文件。 (每一組可能會每天更新,並表示不帶任何歷史結賬。) 鑑於文件從一組,我想知道什麼是可能的先輩或子孫文件(或文件)另一套。 (需要注意的是混帳本身因此不是

    0熱度

    1回答

    Scorelife_disct={'scorelife41': ['c', 'hindi', 'sql', 'scala', 'love'], 'scorelife42': ['c', 'sql', 'english', 'Cat', 'html', 'cPlus', 'love'], 'scorelife43': ['c', 'Cat', 'friend', 'love']} User_

    2熱度

    2回答

    我們正在開發Record linkage項目。 我們從所有像哈羅溫克勒的Levenshtein,N-革蘭,Damerau-的Levenshtein,的Jaccard指數,索倫森-骰子 說的標準技術的觀察奇怪的行爲, 字符串1 = MINI GRINDER KIT 字符串2 = Weiler 13001迷你研磨機配件套件,用於小直角研磨機 字符串3 =密爾沃基視頻內窺鏡,旋轉檢測範圍,系列:M-SP

    1熱度

    1回答

    我想要計算數據集中每個N項目的前20個相似項目。 每個項目都使用M的特徵來表示因此數據大小爲N_items X M_features。 當我沒有指定n_neighbors(默認值是5)時,kneighbors函數需要很多時間。 但是,當我指定n_neighbors = N_items時,它幾乎立即給出結果。 即NN_object = NearestNeighbors()需要很多時間才能找到knei

    1熱度

    2回答

    我已經實現這些基團類似使用文本環路定製紅寶石方法的陣列, array = ["South East Queensland", "Wide Bay Burnett", "Margaret River", "Port Pirie", "Gippsland", "Elizabeth", "Barossa"] similarity_group = [] similarity_percentage =

    0熱度

    1回答

    我嘗試以編程方式從數據集中刪除幾乎重複的數據之一。我的數據集在邏輯上類似於下表。如您所見,數據集中有兩行,人類可以很容易地理解這兩個數據是相關的,並且可能由同一個人添加。 我解決這個問題是使用萊文斯坦比較單獨字段(姓名,地址,電話號碼),並發現他們的相似率。然後我計算平均比率爲0.77873。這種相似性結果似乎很低。我的python代碼就像 from Levenshtein import rati

    1熱度

    2回答

    我需要預處理的數據轉換爲數字,以便能夠在數據集中應用ML算法,但有這個功能,它幾乎是樹形結構與我不知道字符串如何改造。這裏去一個例子: Feature -> Value I would like to transform to (example): X Y Z foo -> 0.5 X Y Z bar -> 0.501 A B C foo -> 4.1 W B C foo -> 5

    2熱度

    2回答

    我在Excel中使用以下vb代碼來計算列A和列B之間的程度相似度。它運行得非常好。 對我來說,下一步是定義首字母縮略詞,以便計算出的相似度不受影響。 IE:如果我在A列「ABC有限責任公司」和B列「ABC有限責任公司」中,目前的VB代碼將返回兩列不很相似。然而,我希望他們通過定義「有限責任公司」和「有限責任公司」確實是一回事,將其歸爲100%類似。我可以做什麼,我可以在代碼中將它放在哪裏來完成此任

    0熱度

    1回答

    我想計算需要X,Y,Z技能的開放角色與W,T,L專業知識水平(熟練程度)和不同員工之間的相似程度......但並非全部員工將擁有所有的X,Y,Z技能,所以如果技能不存在,我們需要設置一個0 .... 我有什麼是不工作的,因爲當角色和員工都有技能。任何想法?在此先感謝 MATCH (p1:Employee)-[x:HAS_SKILL]->(sk:Personal_Skill)<-[y:REQUIRE

    8熱度

    2回答

    E.g.我們培養使用gensim一個word2vec模型: from gensim import corpora, models, similarities from gensim.models.word2vec import Word2Vec documents = ["Human machine interface for lab abc computer applications",