2
我使用scikit的tfidf向量化一些文本數據。通過documentation我讀到,你可以設置idf和規範化爲False來獲得0/1輸出(二進制特徵向量?)。所以我嘗試了以下內容:如何使用scikit學習文本數據的二值化?
tfidf_vect= TfidfVectorizer(use_idf=False,
smooth_idf=True,
sublinear_tf=False,
ngram_range=(2,2),
norm=False)
有了這個特徵矢量將是二進制?另一方面,在documentation中有另一個模塊可以完成預處理任務。任何想法如何解決這個問題?