sentence-similarity

2熱度

1回答

Keras在分割圖層輸出時拋出`'張量'對象沒有屬性'_keras_shape'

我有句子嵌入尺寸爲2*1*300的句對的輸出X.我想把這個輸出分成兩個形狀爲1*300的向量來計算它的絕對差值和乘積。 x = MaxPooling2D(pool_size=(1,MAX_SEQUENCE_LENGTH),strides=(1,1))(x) x_A = Reshape((1,EMBEDDING_DIM))(x[:,0]) x_B = Reshape((1,EMBEDDING_D

1熱度

1回答

TF-IDF使用餘弦相似度幾乎類似的句子

的文檔相似性，我使用TF-IDF與餘弦相似度計算描述輸入字符串： 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到類似的輸入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

0熱度

1回答

如何獲得LSA的相似度

我正在進行潛在語義分析，我試圖從2個文檔中獲得相似度。我在Python上運行我的潛在語義分析代碼，當我運行它時，我得到： Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [[ 0.98465137 -0.172792 -0.0

1熱度

1回答

elasticsearch NGRAM和PostgreSQL卦搜索結果不匹配

我crereated上elasticsearch指數相同的波紋管： "settings" : { "number_of_shards": 1, "number_of_replicas": 0, "analysis": { "filter": { "trigrams_filter": { "type": "ngra

0熱度

3回答

我想從10,000篇文章中提取含有藥物和基因名稱的句子

我想從10,000篇文章中提取含有藥物和基因名稱的句子。和我的代碼是 import re import glob import fnmatch import nltk from nltk.tokenize import sent_tokenize, word_tokenize flist= glob.glob ("C:/Users/Emma Belladona/Desktop/dr

0熱度

1回答

如何讓每個句子成爲一個嵌套列表？

我正在處理一個看起來像這樣的文本文件; （這些字是瑞典語） ['1', 'Denna', '_', 'DET', 'DT', 'UTR|SIN|DEF', '2', 'DT', '_', '_\n'] ['2', 'predestination', '_', 'NOUN', 'NN', 'UTR|SIN|IND|NOM', '7', 'SS', '_', '_\n'] ['3', 'till'

0熱度

1回答

字符串相似TF-IDF字袋或Word2vec

我想創建一個計算2個字符串之間相似度的應用程序。字符串不長。 3句最長。我做了一些研究，並且遇到了一些可能的解決方案路徑。話的首先一個使用袋：計算單詞和比較2個製作載體（餘弦相似性）第二使用TF-IDF，並比較所產生的載體。第三是使用word2vec和比較向量。現在的問題。表現明智的是word2vec表現更好，TF-IDF的短句子？培訓word2vec模型的最佳方法是什麼？我應該使

0熱度

1回答

如何使用簡單匹配係數在兩個句子之間找到相似性度量？

我已經下面就本link代碼以找到輸入的X和Y之間的相似性度量： def similarity(X, Y, method): X = np.mat(X) Y = np.mat(Y) N1, M = np.shape(X) N2, M = np.shape(Y) method = method[:3].lower() if method==

0熱度

1回答

Django：Filter類似於給定的項目

我有一個django後端（Postgre DB）。假設一個給定的表，比如說A，有一個名爲'message'的charfield。現在，我想要做的是找到A中與給定實例的「消息」字段具有相似「消息」的所有項目。相似性將基於某種算法。 TL; DR我想根據項目相似性找到項目。的問題有三個部分：我該怎麼辦呢？我可以實時做（慢）還是必須預先計算表A中所有項目之間的相似性（這可能會炸燬我的數據庫）如何

0熱度

1回答

培訓doc2vec公司名稱相似度

我想重複使用名稱相似度的公司（40M +）的巨大列表。我有一個500K的公司名稱對被標記爲相同/不相同（如I.B.M. =國際商用機器）。通過對名稱對的向量差異進行邏輯迴歸建立的模型具有很好的f-分數（0.98），但推論（找到最相似的名字）太慢（每名稱差不多2秒）。是否可以使用名稱相似性對（正值和負值）來訓練doc2vec模型，從而導致類似名稱具有相似的向量，以便我可以使用像Annoy這樣的快速