2017-09-27 102 views
1

我正在使用包含許多帶離散輸出的變量的醫療數據集。例如:麻醉類型,感染部位,糖尿病y/n。爲了解決這個問題,我剛剛將它們轉換爲多個1和1的列,然後刪除一個以確保它們之間沒有直接關聯,但我想知道是否有更高效的方法來做到這一點具有許多離散功能的機器學習數據集

回答

-1

這取決於轉換的目的。如果序數表示不對應於類別的邏輯,則將類別轉換爲數字標籤可能沒有意義。在這種情況下,如果(正如我從你的文章中猜測的那樣),意圖是使用生成的變量作爲某種迴歸模型的輸入,那麼你採用的「單熱」編碼方法是最好的方法。您可以使用pandas.get_dummies實現您正在尋找的功能。

+0

而且你可以選擇通過將參數drop_first = True傳遞給get_dummies – ags29

+0

來闡明上面的答案,它可能並不重要,無論你是單向編碼還是將標籤轉換爲數值(例如,如果您正在使用基於樹的模型,如隨機森林)。如果你使用的是傳統的迴歸方法,那麼這個警告立場,所以在某種意義上,答案是 取決於你打算使用的模型。 – ags29