tf-idf

4熱度

2回答

在SO和Web上有幾個問題描述如何在兩個字符串之間採用cosine similarity，甚至在TFIDF作爲權重的兩個字符串之間。但是像scikit的linear_kernel這樣的函數的輸出讓我有點困惑。考慮下面的代碼： import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer a =

0熱度

1回答

使用TfidfVectorizer和Scikit-learn的支持向量機TF-IDF的準確度低

我試圖用TF-IDF和SVM將文檔分類爲欺騙性或真實性。我知道這是以前完成的，但我不確定我是否正確實施。我有文本的語料庫，並正在建設TF-IDF如 vectorizer = TfidfVectorizer(min_df=1, binary=0, use_idf=1, smooth_idf=0, sublinear_tf=1) tf_idf_model = vectorizer.fit_trans

0熱度

1回答

Python中的TF/IDF

需要計算一個語料庫（語料庫不大，可在本地機器上處理）的所有可能的n項的TF/IDF，使用Python 2.7並想知道是否有任何參考實現或庫可以直接使用？謝謝。問候，林

0熱度

1回答

規格化餘弦相似性值來計算基於TF-IDF

我計算餘弦相似性基於TF-IDF矩陣： tfidf_vectorizer_desc = TfidfVectorizer(min_df=5, max_df=0.8, use_idf=True, smooth_idf=True, sublinear_tf=False, tokenizer=tokenize_and_stem) %time tfidf_matrix_desc = tfidf_vecto

1熱度

1回答

ValueError：修剪後，沒有條款。嘗試更低min_df或更高max_df

from sklearn.feature_extraction.text import TfidfVectorizer tfidf_vectorizer = TfidfVectorizer(max_df=0.95, max_features=200000, min_df=.5, stop_words='english', use_idf=True,su

0熱度

1回答

如何羣集下使用潛在語義分析（LSA）主題文件

我一直對潛在語義分析（LSA）和應用這個例子：https://radimrehurek.com/gensim/tut2.html 它包括以下主題的條款集羣，但無法找到任何我們可以如何在主題下聚集文件。在這個例子中，它說'根據LSI看來，「樹」，「圖」和「未成年人」都是相關詞（對第一個主題的方向貢獻最大），而第二個話題實際上與所有其他詞語有關。正如預期的那樣，前五個文檔與第二個主題更爲緊密相關，而

0熱度

2回答

Python tfidf返回相同的值，無論idf

我想構建一個小程序，它可以計算python中的tfidf。還有，我用了兩個非常好的教程（我從here代碼和kaggle另一個函數） import nltk import string import os from bs4 import * import re from nltk.corpus import stopwords # Import the stop word list im

-1熱度

1回答

python中兩個文檔的比較

給出兩個文檔，我想計算它們之間的相似度。我有措施找出餘弦距離，N-gram和tf-idf使用這個： This is a previously asked question 我想知道，還有什麼需要使用這些函數來完成。而且，我已經嘗試推行Word2Vec，下面我試圖找到相似之處使用下面的代碼： for i in range(len(Words)): print i for k i

1熱度

1回答

ValueError異常：設置一個數組元素與序列而訓練KD樹TFIDF

我想培養出KD-樹上的文檔語料庫的TFIDF但它給 ValueError: setting an array element with a sequence. 代碼和錯誤描述如下。有人可以幫我找出問題嗎？代碼： t0 = time.time() count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform

1熱度

3回答

在Elasticsearch中獲取索引文檔的倒排索引

我有很多文檔（帶有分析文本字段標題）。他們已被索引在Elasticsearch中，現在我只需要獲得術語頻率TF和逆文檔頻率IDF，該字段在標題內的每個術語沒有任何查詢。（只是索引文件和檢索該領域中所有術語的倒排索引標題） Elasticsearch有可能嗎？