2017-04-21 122 views
1

我有一個熊貓的數據幀如下:大熊貓長到寬多列重塑

request_id  crash_id   counter num_acc_x num_acc_y num_acc_z 
    745109.0 670140638.0  0  0.010  0.000  -0.045 
    745109.0 670140638.0  1  0.016  -0.006  -0.034 
    745109.0 670140638.0  2  0.016  -0.006  -0.034 

我的ID瓦爾是:「REQUEST_ID」和「CRASH_ID」,目標瓦爾是nu_acc_x,num_acc_y和num_acc_z 我會喜歡創建一個新的DataFrame,其中目標變量被重新整形,即增加max(counter)* 3個新變量,如num_acc_x_0,num_acc_x_1,... num_acc_y_0,num_acc_y_1,... num_acc_z_0,num_acc_z_1可能沒有樞軸作爲最終結果(我想要一個真正的DataFrame在R)。

預先感謝關注

回答

2

我認爲你需要set_indexunstack,最後從MultiIndex通過map創建列名:

df = df.set_index(['request_id','crash_id','counter']).unstack() 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034 

與aggreagting重複另一種解決方案與pivot_table

df = df.pivot_table(index=['request_id','crash_id'], columns='counter', aggfunc='mean') 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034 

df = df.groupby(['request_id','crash_id','counter']).mean().unstack() 
df.columns = df.columns.map(lambda x: '{}_{}'.format(x[0], x[1])) 
df = df.reset_index() 
print (df) 
    request_id  crash_id num_acc_x_0 num_acc_x_1 num_acc_x_2 \ 
0 745109.0 670140638.0   0.01  0.016  0.016 

    num_acc_y_0 num_acc_y_1 num_acc_y_2 num_acc_z_0 num_acc_z_1 \ 
0   0.0  -0.006  -0.006  -0.045  -0.034 

    num_acc_z_2 
0  -0.034 
+0

差不多,因爲輸出不會添加計數器到列的名稱。我需要以下名稱的列:num_acc_x _1,num_acc_x_2,...和num_acc_y和num_acc_z同樣保留request_id crash_id作爲初始列 –

+0

嗯,然後使用'df ['mycounter'] = df.groupby(['request_id ','crash_id'])。cumcount()+ 1'進行計數。並將'df = df.set_index(['request_id','crash_id','counter'])。unstack()'改爲'df = df.set_index(['request_id','crash_id','mycounter']) .unstack()' – jezrael