scikit-learn中的CountVectorizer和CharNGramAnalyzer有什麼不同？

我有CountVectorizer和CharNGramAnalyzer之間的混淆。根據我的理解，scikit-learn中的CountVectorizer和CharNGramAnalyzer有什麼不同？

我對我的理解是否正確？如果不是，我想要一個詳細的解釋或任何來源解釋它。

如果我的答案解決並回答了問題，請將其標記爲答案。 –

首先檢查你的sklearn版本。我覺得你使用的是舊版本的sklearn。您給予CountVectorizer的解釋不正確。它不計算語料庫中不同單詞的數量，至少不是當前版本。

根據docs of CountVectorizer，您需要通過analyzer='word'來計算字數。在sklearn的最新版本中，CharNGramAnalyzer已棄用，現在與CountVectorizer合併。只要做analyzer='char'複製CharNGramAnalyzer。要驗證此檢查http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction.text沒有輸入CharNGramAnalyzer

2017-10-06 09:40:31

回答