2016-05-13 73 views
0

我正在擬合具有兩個獨立分類變量和一個數字響應變量的迴歸模型。我在變量類別A和B中有兩個級別;變化的顏色,紅色,橙色和黃色三個級別。但這些級別的大小差別很大。我在此處打印出一個示例:級別大小是否影響迴歸模型的結果?

Category Color Price 
    A R 12 
    A R 43 
    A Y 32 
    A Y 31 
    A R 21 
    A Y 56 
    A Y 34 
    A Y 23 
    A R 12 
    A R 6 
    A R 43 
    B Y 32 
    B R 12 
    B R 26 
    B O 15 
    B R 27 
    B R 14 
    B O 13 
    B R 37 
    B O 15 
    B O 47 
    B R 25 

A類沒有橙色,B類只有1個黃色。在迴歸模型中得到類別和顏色之間多少價格差異的結論,這樣很好嗎?

回答

0

如果您沒有任何數字特徵變量,那麼建立迴歸模型沒有多大意義。你可以在每個類別中使用這些手段。例如,使用熊貓:

pd.pivot_table(df,columns=['Category','Color'],aggfunc=np.mean) 

     Category Color 
Price A   R  22.833333 
       Y  35.200000 
     B   O  22.500000 
       R  23.500000 
       Y  32.000000 
+0

謝謝你的評論。我有數字變量?我只是舉一個例子來討論關卡的大小。實際上,我用其他變量進行迴歸模型。如果我的迴歸模型中的項目的年齡是多少,您能否給我答案? –