tf-idf

    4熱度

    2回答

    在SO和Web上有幾個問題描述如何在兩個字符串之間採用cosine similarity,甚至在TFIDF作爲權重的兩個字符串之間。但是像scikit的linear_kernel這樣的函數的輸出讓我有點困惑。 考慮下面的代碼: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer a =

    0熱度

    1回答

    我試圖用TF-IDF和SVM將文檔分類爲欺騙性或真實性。我知道這是以前完成的,但我不確定我是否正確實施。我有文本的語料庫,並正在建設TF-IDF如 vectorizer = TfidfVectorizer(min_df=1, binary=0, use_idf=1, smooth_idf=0, sublinear_tf=1) tf_idf_model = vectorizer.fit_trans

    0熱度

    1回答

    需要計算一個語料庫(語料庫不大,可在本地機器上處理)的所有可能的n項的TF/IDF,使用Python 2.7並想知道是否有任何參考實現或庫可以直接使用?謝謝。 問候, 林

    0熱度

    1回答

    我計算餘弦相似性基於TF-IDF矩陣: tfidf_vectorizer_desc = TfidfVectorizer(min_df=5, max_df=0.8, use_idf=True, smooth_idf=True, sublinear_tf=False, tokenizer=tokenize_and_stem) %time tfidf_matrix_desc = tfidf_vecto

    1熱度

    1回答

    from sklearn.feature_extraction.text import TfidfVectorizer tfidf_vectorizer = TfidfVectorizer(max_df=0.95, max_features=200000, min_df=.5, stop_words='english', use_idf=True,su

    0熱度

    1回答

    我一直對潛在語義分析(LSA)和應用這個例子:https://radimrehurek.com/gensim/tut2.html 它包括以下主題的條款集羣,但無法找到任何我們可以如何在主題下聚集文件。 在這個例子中,它說'根據LSI看來,「樹」,「圖」和「未成年人」都是相關詞(對第一個主題的方向貢獻最大),而第二個話題實際上與所有其他詞語有關。正如預期的那樣,前五個文檔與第二個主題更爲緊密相關,而

    0熱度

    2回答

    我想構建一個小程序,它可以計算python中的tfidf。還有,我用了兩個非常好的教程(我從here代碼和kaggle另一個函數) import nltk import string import os from bs4 import * import re from nltk.corpus import stopwords # Import the stop word list im

    -1熱度

    1回答

    給出兩個文檔,我想計算它們之間的相似度。我有措施找出餘弦距離,N-gram和tf-idf使用這個: This is a previously asked question 我想知道,還有什麼需要使用這些函數來完成。 而且,我已經嘗試推行Word2Vec,下面我試圖找到相似之處使用下面的代碼: for i in range(len(Words)): print i for k i

    1熱度

    1回答

    我想培養出KD-樹上的文檔語料庫的TFIDF但它給 ValueError: setting an array element with a sequence. 代碼和錯誤描述如下。有人可以幫我找出問題嗎? 代碼: t0 = time.time() count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform

    1熱度

    3回答

    我有很多文檔(帶有分析文本字段標題)。他們已被索引在Elasticsearch中,現在我只需要獲得術語頻率TF和逆文檔頻率IDF,該字段在標題內的每個術語沒有任何查詢。 (只是索引文件和檢索該領域中所有術語的倒排索引標題) Elasticsearch有可能嗎?