2017-01-10 79 views
1

假設數據集包含連續變量和二元變量的獨立變量。通常,標籤/結果列被轉換爲一個熱矢量,而連續變量可以被標準化。但是什麼需要應用於二元變量。選擇應用邏輯迴歸時要歸一化哪些變量

 
AGE  RACE GENDER NEURO EMOT 
15.95346 0 0  3  1 
14.57084 1 1  0  0 
15.8193  1 0  0  0 
15.59754 0 1  0  0 

這如何申請回歸和神經網絡?

回答

1

如果連續值的範圍很小,則將其編碼爲二進制形式,並將該二進制形式的每一位用作預測變量。 例如,二進制數2 = 10。 因此

predictor_bit_0 = 0

predictor_bit_1 = 1

嘗試,看看它是否工作。只是爲了提醒你,這種方法非常主觀,可能會或可能不會爲你的數據產生好的結果。如果我找到更好的解決方案,我會告訴你

+0

我不認爲這回答了我的問題,因爲連續變量在最大值和最小值之間差異很大,需要標準化。我已經清楚地提到了二元變量需要做些什麼(變量只有2個結果,比如0或1),我只是消耗它們還是需要執行類似於標準化的操作? –

+0

好的,那麼您可能需要對我發佈的解決方案進行逆向工程。只需將二元預測變量組合成連續的預測變量。例如,對於race = 1,gender = 0和emot = 1,x = 1:組合形成一個二進制數,其中每個位代表一個預測變量。上例的組合預測值應該是1011(二進制)=十進制的11。您可以按原樣使用此預測變量,也可以對其進行標準化。 – Arjun