tf-idf

1熱度

1回答

使用python lib sklearn，我嘗試從訓練集中提取特徵並用這些數據擬合BernoulliNB分類器。分類器未經訓練後，我想要預測（分類）一些新的測試數據。不幸的是我得到這個錯誤： Traceback (most recent call last): File "sentiment_analysis.py", line 45, in <module> main() File "s

1熱度

1回答

Python scikit學習的TfidfVectorizer - 最大1.0？

我找不到這個在線答案，但是tfidfVectorizer.fit_transform的結果最大值爲1.0？因爲，與 idf(term_i)= log (#number of docs/ number of docs containing term_i)，在許多情況下不應該idf，並且隨後tfidf，> 1.0？即包含單詞'absinthe'的文檔。假設我們這個詞的freq（tf）是1，但是id

0熱度

1回答

如何爲句子中的每個塊分配一個分數？

我正在處理一個關鍵字提取任務，在其中我想提取短語而不是單詞。爲了將每個句子分成有意義的部分，我首先進行詞性標註，然後基於語言規則只提取名詞短語。每個名詞短語都是要提取的潛在關鍵字。然而，因爲我只需要爲每個給定文檔提取'k'個關鍵字，所以我需要一種很好的方法來對提取的名詞短語進行排名。一種簡單的方法是計算每個術語（在每個名詞短語中）的TDIDF得分，然後每個名詞短語的得分將是其組成術語「TDIDF得

0熱度

1回答

Idf得分爲一個未知的單詞？

我的任務是從文本中提取關鍵字。我做的是以下內容：我正在使用tf-idf「算法」。對於idf部分，我正在爬行維基百科文章並提取名詞短語（opennlp）並將它們存儲在數據庫中。所以當我分析一個文本我只需要計算tf部分並從數據庫中獲取idf部分。迄今爲止的結果非常有吸引力。我唯一的問題是 - >因爲我要分析的文本與wikipedia語料庫不同，所以有些詞有很高的tf值，但沒有idf值（在維基語料

0熱度

3回答

除文字特徵轉化爲數字特徵外，還有什麼方法除外（TF-IDF）？

我一直在努力處理自然語言處理。我的目標是根據一些標準對用羅馬字母書寫的多語言句子中的不同詞語進行分類。因此，我需要一個分類器。毫無疑問，有很多。但是因爲我的特徵不是數字而是文本的，並且大多數分類器（如支持向量機（SVM））輸入數字特徵，所以我尋找了一些將我的文本特徵轉換爲數字特徵的方法。儘管使用術語頻率和反向文檔頻率（TF-IDF）的詞袋概念是用於此目的的通用方法，但是我的一個文本特徵，即本地語境

0熱度

1回答

IDF（逆文檔頻率）計算

我已經計算了我的數據集的TF，我正在嘗試爲它計算IDF。我很困惑哪個號碼用於計算。 id uid 1 a 1 b 1 c 1 d 2 a 2 b 2 c 2 e 3 b 3 c 3 e 3 f (3 items) Occurrence a = 2 b = 3 c = 3 d = 1 e = 2 f = 1

1熱度

2回答

Python（TextBlob）TF-IDF計算

我已經看過使用Python計算文檔中單詞TF-IDF分數的幾種方法。我選擇使用TextBlob。我得到一個輸出，但是，它們是負值。我知道這是不正確的（非負數量（tf）除以正數（df）（的對數）的log（log）不會產生負數值）。我看過這裏發佈的以下問題：TFIDF calculating confusion但它沒有幫助。我是如何在計算分數： def tf(word, blob):

0熱度

1回答

Scikit - 如何使用sklearn獲得單個詞的相似詞

我是新來的文本分析和scikit學習。我正嘗試使用sklearn的TfidfVectorizer類向量化推文。當我vactorizing鳴叫之後列出使用「get_feature_names（）」的條件，我看到類似的詞語，如「目標」，「gooooal」或「goaaaaaal」作爲不同的術語。問題是，如何使用sklearn特徵提取技術（或任何其他技術）爲這些類似但不同的單詞製作單個術語「目標」以使我

4熱度

1回答

Scikit學習 - 從特徵數組的語料庫中計算TF-IDF，而不是從原始文檔集中提取

Scikit-Learn的TfidfVectorizer將一組原始文檔轉換爲TF-IDF特徵矩陣。我想將功能名稱矩陣轉換爲TF-IDF功能，而不是原始文檔。您餵養的語料庫fit_transform()應該是一個原始文檔數組，但我希望能夠爲每個文檔的特徵數組提供數據（或可比較的函數）。例如： corpus = [ ['orange', 'red', 'blue'], ['ora

3熱度

3回答

如何在scikit-learn中存儲TfidfVectorizer以備將來使用？

我有一個TfidfVectorizer矢量化文章的集合，然後是功能選擇。 vectroizer = TfidfVectorizer() X_train = vectroizer.fit_transform(corpus) selector = SelectKBest(chi2, k = 5000) X_train_sel = selector.fit_transform(X_train, y