tf-idf

    1熱度

    1回答

    我有兩個數據框,前者包含> 700列的預測變量,後者包含一列。前者被用作預測因子(所有值都爲0和1,但由於稀疏性大多爲0),第二個作爲模型訓練和測試的響應。第一個名稱爲ser,第二個爲star。 我使用TF-IDF轉型以下 from sklearn.feature_extraction.text import TfidfTransformer transformer = TfidfTransfo

    2熱度

    1回答

    我想分析線條給出的文本,並且我希望在python中使用sckit-learn軟件包的TF-IDF矢量化進行矢量化。 問題是,矢量化可以通過單詞或n-gram來完成,但我希望它們可以用於行,而且我已經排除了將每行作爲單個單詞向量化的工作(因爲以這種方式單詞和它們的含義不會被考慮)。 通過文檔查看我沒有找到如何做到這一點,那麼有沒有這樣的選擇?

    4熱度

    2回答

    我正在處理sklearn中的大量文本數據。首先,我需要矢量化文本上下文(字數),然後執行TfidfTransformer。我有下面的代碼似乎並沒有從CountVectorizer的輸出到TfidfTransformer的輸入。 TEXT = [data[i].values()[3] for i in range(len(data))] from sklearn.feature_extracti

    1熱度

    1回答

    我對處理文本數據相當陌生。 我有一個約300,000個獨特產品名稱的數據框,我試圖用k方法將相似的名稱聚類在一起。我使用sklearn的tfidfvectorizer矢量化名稱並將其轉換爲tf-idf矩陣。 接着我跑與羣集嘗試計算方差時爲5至10。 我在卡在錯誤的數目的TF-IDF矩陣K用於D_kValueError: setting an array element with a sequenc

    0熱度

    1回答

    我一直在試圖建立一個啤酒推薦引擎,我決定簡單地使用tf-idf和餘弦相似度。 這裏是我到目前爲止的代碼:` import pandas as pd import re import numpy as np from bs4 import BeautifulSoup from sklearn.feature_extraction.text import TfidfVectorizer f

    8熱度

    1回答

    是否有添加到現有語料庫的函數?我已經生成了我的矩陣,我期望定期添加到表格中,而無需重新計算整個Sha-bang 例如; articleList = ['here is some text blah blah','another text object', 'more foo for your bar right now'] tfidf_vectorizer = TfidfVectorizer(

    0熱度

    2回答

    我正在處理一個帶有10個標籤的多標籤文本分類問題 數據集很小,總共有+ - 7000個項目和+ -7500個標籤。我正在使用python sci-kit學習,並在結果中出現了一些奇怪的事情。作爲一個基線,我開始使用countvectorizer,並且實際上正在計劃使用tfidf向量化工具,我認爲它會更好地工作。 (0,76對0,65) 我不能包住我的頭爲什麼這可能是這樣的? 有10個類別,一個被稱

    0熱度

    1回答

    我在一個.txt文件中保存了幾十個tweet,我想計算第一個tf-idf值的最高值換句話說,我想比較不同推文之間的單詞tf-idf值,目前,我可以完成的唯一事情是在同一推文中比較單詞的tf-idf值,我找不到方法比較不同推文之間的單詞的tf-idf值。 請幫幫我,我一直因爲這個問題而心煩很久。 /(ㄒØㄒ)/ ~~ 吹是我的代碼:(只能夠計算在同一鳴叫術語的TFIDF值) with open('D

    0熱度

    1回答

    我嘗試運行是這樣的: from sklearn.feature_extraction.text import TfidfVectorizer test_text = ["q", "r"] vect = TfidfVectorizer(min_df=1, stop_words=None, lowercase=False) tfidf = vect.f

    1熱度

    1回答

    我在Python 3中試圖用手分析情感分析,並且使用TDF-IDF矢量化工具與單詞袋模型來矢量化文檔。 因此,對於任何熟悉這一點的人來說,很明顯所得到的矩陣表示是稀疏的。 這是我的代碼片段。首先,文件。 tweets = [('Once you get inside you will be impressed with the place.',1),('I got home to see the