2015-02-09 58 views
2

我使用scikit的tfidf向量化一些文本數據。通過documentation我讀到,你可以設置idf和規範化爲False來獲得0/1輸出(二進制特徵向量?)。所以我嘗試了以下內容:如何使用scikit學習文本數據的二值化?

tfidf_vect= TfidfVectorizer(use_idf=False, 
          smooth_idf=True, 
          sublinear_tf=False, 
          ngram_range=(2,2), 
          norm=False) 

有了這個特徵矢量將是二進制?另一方面,在documentation中有另一個模塊可以完成預處理任務。任何想法如何解決這個問題?

回答

1

TfidfVectorizer採取一個名爲binary參數:

tfidf_vect= TfidfVectorizer(use_idf=False,binary=True, norm=False, ngram_range=(2, 2)) 

這將使二進制

功能