2015-04-22 81 views
0

我是scikit和通常使用文本數據的新手,我一直在使用sci-kit CountVectorizer作爲開始習慣文本數據(n-grams)的基本功能,但我想擴展它分析其他功能。sci-kit CountVectorizer是否可以用於其他功能(不僅僅是n-gram)?

我寧願適應countvectorizer而不是自己做,因爲那樣我就不必重新實現sci-kits tf-idf變壓器和分類器。

編輯:

實際上,我還在想着具體特點是誠實的,但我的項目,我想要做的文檔之間的風格分類。我知道,對於文本分類,詞彙化和詞幹化是特徵提取的流行方式,因此可能是一種。那我想分析的其他功能還包括每款

  • 每風格各異的字中每個文檔的句子

    • 長度。更正式的風格可能有更多的口才,豐富的詞彙
      • 前一點的一個分支,但特別是
    • 的特定單詞長度形容詞計數,再次,俚語可能會使用比一個更短的短語正式文體
    • 標點,語句之間特別明顯的停頓,語句

    這些有一些想法,我在想的,但我想的更多的功能測試的長度!

  • +0

    你想做什麼樣的特徵提取? –

    +0

    @AndreasMueller我添加了一些細節! –

    回答

    1

    你可以很容易地擴展擴展類(你可以看到source of it here)並實現你所需要的。但是,這取決於你想要做什麼,這在你的問題中不是很清楚。

    +0

    嗯我認爲是的,我的問題被加載,我需要給這個更多的想法,對特定功能的類型。我可能需要更改標記器也取決於我在找什麼。謝謝! –

    1

    您是否在問如何實現您在scikit-learn兼容變壓器方面列出的功能?那麼可以看看developer docs,特別是rolling your own estimator

    您可以繼承BaseEstimator並實施fittransform。但是,如果你想使用流水線操作,這是唯一必需的。對於使用sklearn分類器和tfidf轉換器,只需要您的特徵提取創建numpy數組或scipy稀疏矩陣。

    +0

    是的,那正是我想要做的!我會考慮那些謝謝你,我不想重新發明輪子,所以如果我可以用這些來實現我自己的功能,我會非常高興。 –

    相關問題