如何選擇和使用不同數據類型的功能？

我是一個機器學習的完全新手，雖然我有一些sci-kit分類器「工作」在我的數據集上，但我不確定我是否正確使用它們。我正在用標有訓練集的手做監督學習。如何選擇和使用不同數據類型的功能？

問題是：我的數據集中的每個項目都是一個字典， 80個鍵，它們是文本，布爾值或我想用作要素的整數。我有大約40,000件物品，並且手上標有大約800件物品。我的意思是選擇，例如，只使用布爾功能，或只有整數？我是否需要規範化特徵（將平均值+規模去除到單位差異）？我目前甚至不會嘗試對文本進行分析，因此甚至可能不會將這些功能提供給分類器。試試相同類型的特徵（整數）的各種排列/組合是否愚蠢？這也可能是我接近我的數據集完全錯誤...它的形狀如下：

[[a，b，c，...]，[a，b，c，...]， [a，b，c，...]，...]

本質上，我希望實現的是數據集中每個項目的二進制分類，根據我的理解，基本上只是「好」或「差」手被貼上標籤。我發現有些分類器在不同的數據類型上工作得更好，比如伯努利樸素貝葉斯和K最近鄰居，當「決策邊界非常不規則」時。

最後我想分類精度在幾個不同的算法進行比較，除了希望隔離一個是我的數據分類實際上準確...

來源

2015-04-06 veksev

在所有分類scikit學習需要的數字數據。布爾特性很好，整數特性取決於它們是編碼分類，序數還是數字數據。

您需要執行的預處理取決於功能的類型，而不取決於您是否要合併它們。將它們結合起來可能是一個好主意。

您可以使用CountVectorizer或TFIDFVectorizer對文本數據進行簡單轉換。

來源

2015-04-06 18:56:24

謝謝，我欣賞它！ – veksev

如何選擇和使用不同數據類型的功能？

回答

相關問題