tf-idf

1熱度

1回答

我有兩個數據框，前者包含> 700列的預測變量，後者包含一列。前者被用作預測因子（所有值都爲0和1，但由於稀疏性大多爲0），第二個作爲模型訓練和測試的響應。第一個名稱爲ser，第二個爲star。我使用TF-IDF轉型以下 from sklearn.feature_extraction.text import TfidfTransformer transformer = TfidfTransfo

2熱度

1回答

Tf-Idf矢量分析器從線條而不是字詞分析矢量

我想分析線條給出的文本，並且我希望在python中使用sckit-learn軟件包的TF-IDF矢量化進行矢量化。問題是，矢量化可以通過單詞或n-gram來完成，但我希望它們可以用於行，而且我已經排除了將每行作爲單個單詞向量化的工作（因爲以這種方式單詞和它們的含義不會被考慮）。通過文檔查看我沒有找到如何做到這一點，那麼有沒有這樣的選擇？

4熱度

2回答

從CountVectorizer轉換到Sklearn中的TfidfTransformer

我正在處理sklearn中的大量文本數據。首先，我需要矢量化文本上下文（字數），然後執行TfidfTransformer。我有下面的代碼似乎並沒有從CountVectorizer的輸出到TfidfTransformer的輸入。 TEXT = [data[i].values()[3] for i in range(len(data))] from sklearn.feature_extracti

1熱度

1回答

如何計算kmeans在tfidf矩陣中解釋的方差？

我對處理文本數據相當陌生。我有一個約300,000個獨特產品名稱的數據框，我試圖用k方法將相似的名稱聚類在一起。我使用sklearn的tfidfvectorizer矢量化名稱並將其轉換爲tf-idf矩陣。接着我跑與羣集嘗試計算方差時爲5至10。我在卡在錯誤的數目的TF-IDF矩陣K用於D_kValueError: setting an array element with a sequenc

0熱度

1回答

如何使用tf-idf和餘弦相似度建立推薦系統？

我一直在試圖建立一個啤酒推薦引擎，我決定簡單地使用tf-idf和餘弦相似度。這裏是我到目前爲止的代碼：` import pandas as pd import re import numpy as np from bs4 import BeautifulSoup from sklearn.feature_extraction.text import TfidfVectorizer f

8熱度

1回答

向Sklearn TFIDIF向量添加新文本（Python）

是否有添加到現有語料庫的函數？我已經生成了我的矩陣，我期望定期添加到表格中，而無需重新計算整個Sha-bang 例如; articleList = ['here is some text blah blah','another text object', 'more foo for your bar right now'] tfidf_vectorizer = TfidfVectorizer(

0熱度

2回答

TF-IDF矢量器不能比countvectorizer工作得更好（sci-kit學習

我正在處理一個帶有10個標籤的多標籤文本分類問題數據集很小，總共有+ - 7000個項目和+ -7500個標籤。我正在使用python sci-kit學習，並在結果中出現了一些奇怪的事情。作爲一個基線，我開始使用countvectorizer，並且實際上正在計劃使用tfidf向量化工具，我認爲它會更好地工作。（0,76對0,65）我不能包住我的頭爲什麼這可能是這樣的？有10個類別，一個被稱

0熱度

1回答

蟒蛇 - 如何計算不同tweeets中前100個單詞的最高tf-idf值

我在一個.txt文件中保存了幾十個tweet，我想計算第一個tf-idf值的最高值換句話說，我想比較不同推文之間的單詞tf-idf值，目前，我可以完成的唯一事情是在同一推文中比較單詞的tf-idf值，我找不到方法比較不同推文之間的單詞的tf-idf值。請幫幫我，我一直因爲這個問題而心煩很久。 /（ㄒØㄒ）/ ~~ 吹是我的代碼：（只能夠計算在同一鳴叫術語的TFIDF值） with open('D

0熱度

1回答

python scikit-learn TfidfVectorizer：爲什麼ValueError輸入時是2個單字符字符串？

我嘗試運行是這樣的： from sklearn.feature_extraction.text import TfidfVectorizer test_text = ["q", "r"] vect = TfidfVectorizer(min_df=1, stop_words=None, lowercase=False) tfidf = vect.f

1熱度

1回答

Python中的文檔矢量化表示法

我在Python 3中試圖用手分析情感分析，並且使用TDF-IDF矢量化工具與單詞袋模型來矢量化文檔。因此，對於任何熟悉這一點的人來說，很明顯所得到的矩陣表示是稀疏的。這是我的代碼片段。首先，文件。 tweets = [('Once you get inside you will be impressed with the place.',1),('I got home to see the