sci-kit CountVectorizer是否可以用於其他功能（不僅僅是n-gram）？

我是scikit和通常使用文本數據的新手，我一直在使用sci-kit CountVectorizer作爲開始習慣文本數據（n-grams）的基本功能，但我想擴展它分析其他功能。sci-kit CountVectorizer是否可以用於其他功能（不僅僅是n-gram）？

我寧願適應countvectorizer而不是自己做，因爲那樣我就不必重新實現sci-kits tf-idf變壓器和分類器。

編輯：

實際上，我還在想着具體特點是誠實的，但我的項目，我想要做的文檔之間的風格分類。我知道，對於文本分類，詞彙化和詞幹化是特徵提取的流行方式，因此可能是一種。那我想分析的其他功能還包括每款

每風格各異的字中每個文檔的句子

這些有一些想法，我在想的，但我想的更多的功能測試的長度！

2015-04-22 Nice-kun

你想做什麼樣的特徵提取？ –

@AndreasMueller我添加了一些細節！ –

你可以很容易地擴展擴展類（你可以看到source of it here）並實現你所需要的。但是，這取決於你想要做什麼，這在你的問題中不是很清楚。

2015-04-22 18:05:10 Tarantula

嗯我認爲是的，我的問題被加載，我需要給這個更多的想法，對特定功能的類型。我可能需要更改標記器也取決於我在找什麼。謝謝！ –

您是否在問如何實現您在scikit-learn兼容變壓器方面列出的功能？那麼可以看看developer docs，特別是rolling your own estimator。

您可以繼承BaseEstimator並實施fit和transform。但是，如果你想使用流水線操作，這是唯一必需的。對於使用sklearn分類器和tfidf轉換器，只需要您的特徵提取創建numpy數組或scipy稀疏矩陣。

2015-04-25 21:00:25

是的，那正是我想要做的！我會考慮那些謝謝你，我不想重新發明輪子，所以如果我可以用這些來實現我自己的功能，我會非常高興。 –

回答