sentence-similarity

    2熱度

    1回答

    我有句子嵌入尺寸爲2*1*300的句對的輸出X.我想把這個輸出分成兩個形狀爲1*300的向量來計算它的絕對差值和乘積。 x = MaxPooling2D(pool_size=(1,MAX_SEQUENCE_LENGTH),strides=(1,1))(x) x_A = Reshape((1,EMBEDDING_DIM))(x[:,0]) x_B = Reshape((1,EMBEDDING_D

    1熱度

    1回答

    的文檔相似性,我使用TF-IDF與餘弦相似度計算描述 輸入字符串: 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到類似的輸入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

    0熱度

    1回答

    我正在進行潛在語義分析,我試圖從2個文檔中獲得相似度。我在Python上運行我的潛在語義分析代碼,當我運行它時,我得到: Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [[ 0.98465137 -0.172792 -0.0

    1熱度

    1回答

    我crereated上elasticsearch指數相同的波紋管: "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngra

    0熱度

    3回答

    我想從10,000篇文章中提取含有藥物和基因名稱的句子。 和我的代碼是 import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/dr

    0熱度

    1回答

    我正在處理一個看起來像這樣的文本文件; (這些字是瑞典語) ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', 'till'

    0熱度

    1回答

    我想創建一個計算2個字符串之間相似度的應用程序。 字符串不長。 3句最長。 我做了一些研究,並且遇到了一些可能的解決方案路徑。話的 首先一個使用袋:計算單詞和比較2個製作載體(餘弦相似性) 第二使用TF-IDF,並比較所產生的載體。 第三是使用word2vec和比較向量。 現在的問題。 表現明智的是word2vec表現更好,TF-IDF的短句子? 培訓word2vec模型的最佳方法是什麼?我應該使

    0熱度

    1回答

    我已經下面就本link代碼以找到輸入的X和Y之間的相似性度量: def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method==

    0熱度

    1回答

    我有一個django後端(Postgre DB)。 假設一個給定的表,比如說A,有一個名爲'message'的charfield。現在,我想要做的是找到A中與給定實例的「消息」字段具有相似「消息」的所有項目。相似性將基於某種算法。 TL; DR我想根據項目相似性找到項目。 的問題有三個部分: 我該怎麼辦呢?我可以實時做(慢)還是必須預先計算表A中所有項目之間的相似性(這可能會炸燬我的數據庫) 如何

    0熱度

    1回答

    我想重複使用名稱相似度的公司(40M +)的巨大列表。我有一個500K的公司名稱對被標記爲相同/不相同(如I.B.M. =國際商用機器)。通過對名稱對的向量差異進行邏輯迴歸建立的模型具有很好的f-分數(0.98),但推論(找到最相似的名字)太慢(每名稱差不多2秒)。 是否可以使用名稱相似性對(正值和負值)來訓練doc2vec模型,從而導致類似名稱具有相似的向量,以便我可以使用像Annoy這樣的快速