我是scikit和通常使用文本數據的新手,我一直在使用sci-kit CountVectorizer作爲開始習慣文本數據(n-grams)的基本功能,但我想擴展它分析其他功能。sci-kit CountVectorizer是否可以用於其他功能(不僅僅是n-gram)?
我寧願適應countvectorizer而不是自己做,因爲那樣我就不必重新實現sci-kits tf-idf變壓器和分類器。
編輯:
實際上,我還在想着具體特點是誠實的,但我的項目,我想要做的文檔之間的風格分類。我知道,對於文本分類,詞彙化和詞幹化是特徵提取的流行方式,因此可能是一種。那我想分析的其他功能還包括每款
- 長度。更正式的風格可能有更多的口才,豐富的詞彙
- 前一點的一個分支,但特別是
- 的特定單詞長度形容詞計數,再次,俚語可能會使用比一個更短的短語正式文體
- 標點,語句之間特別明顯的停頓,語句
這些有一些想法,我在想的,但我想的更多的功能測試的長度!
你想做什麼樣的特徵提取? –
@AndreasMueller我添加了一些細節! –