如何使用scikit學習文本數據的二值化？

我使用scikit的tfidf向量化一些文本數據。通過documentation我讀到，你可以設置idf和規範化爲False來獲得0/1輸出（二進制特徵向量？）。所以我嘗試了以下內容：如何使用scikit學習文本數據的二值化？

tfidf_vect= TfidfVectorizer(use_idf=False, 
          smooth_idf=True, 
          sublinear_tf=False, 
          ngram_range=(2,2), 
          norm=False)

有了這個特徵矢量將是二進制？另一方面，在documentation中有另一個模塊可以完成預處理任務。任何想法如何解決這個問題？

來源

2015-02-09 john doe

TfidfVectorizer採取一個名爲binary參數：

tfidf_vect= TfidfVectorizer(use_idf=False,binary=True, norm=False, ngram_range=(2, 2))

這將使二進制

功能

來源

2015-02-09 17:38:02 JAB

如何使用scikit學習文本數據的二值化？

回答

相關問題