如何插入MultiIndex DataFrame的特定位置？

假設我在結構中有一個類似於以下內容的熊貓數據框。然而，在的實踐中，它可能會更大，第一級索引的數量以及第二級索引的數量（每級別1索引）將有所不同，因此解決方案不應對此做出假設：如何插入MultiIndex DataFrame的特定位置？

index = pandas.MultiIndex.from_tuples([ 
    ("a", "s"), 
    ("a", "u"), 
    ("a", "v"), 
    ("b", "s"), 
    ("b", "u")]) 

result = pandas.DataFrame([ 
    [1, 2], 
    [3, 4], 
    [5, 6], 
    [7, 8], 
    [9, 10]], index=index, columns=["x", "y"])

，看起來像這樣：

現在讓我們說，我想創建一個「總」行每個「A」和「b」級。因此，鑑於上述輸入我希望我的代碼產生這樣的：

下面的代碼我迄今：

# Calculate totals 
for level, _ in result.groupby(level=0): 

    # work out the global total for that desk: 
    x_sum = result.loc[level]["x"].sum() 
    y_sum = result.loc[level]["y"].sum() 

    result = result.append(pandas.DataFrame([[x_sum, y_sum]], columns=result.columns, index=pandas.MultiIndex.from_tuples([(level, "t")])))

但是，這將導致「總」列被追加到最後：

排序使用result.sort_index()不會做我想做的無論是：

我在做什麼錯？

來源

2017-08-10 arman

這實在是annoyning，但原因sorted Multiindex是更好的性能。另外，如果沒有排序MultiIndex是可能的一些如果需要選擇MultiIndex。

但是，如果真的需要更改標籤的位置是可能的使用reindex。

df = result.groupby(level=0).sum() 
df.index = [df.index, ['t'] * len(df.index)] 
df1 = pd.concat([result, df]).sort_index().reindex(['s','u','t'], level=1) 

df1 = pd.concat([result, df]).sort_index() 
print (df1) 
     x y 
a s 1 2 
    t 4 6 
    u 3 4 
b s 5 6 
    t 12 14 
    u 7 8 

df1 = df1.reindex(['s','u','t'], level=1) 
print (df1) 
     x y 
a s 1 2 
    u 3 4 
    t 4 6 
b s 5 6 
    u 7 8 
    t 12 14

更動態的解決方案：

print (result.index.get_level_values(1).unique().tolist()) 
['s', 'u'] 

df1 = df1.reindex(result.index.get_level_values(1).unique().tolist() + ['t'], level=1) 
print (df1) 
     x y 
a s 1 2 
    u 3 4 
    t 4 6 
b s 5 6 
    u 7 8 
    t 12 14

在自定義函數與setting with enlargement另一種解決方案與GroupBy.apply：

def f(x): 
    x.loc[(x.name, 't'),:] = x.sum() 
    return x 

df = result.groupby(level=0, group_keys=False).apply(f) 
print (df) 
     x  y 
a s 1.0 2.0 
    u 3.0 4.0 
    t 4.0 6.0 
b s 5.0 6.0 
    u 7.0 8.0 
    t 12.0 14.0

來源

2017-08-10 10:28:30 jezrael

如果二級索引的數量發生變化，這將如何工作？我在我的問題中提到了這一點，但意識到這個例子沒有真正說明它，所以我已經調整了示例代碼以具有額外的1級條目（「v」）。 – arman

我認爲第二個解決方案應該可以工作。 – jezrael

是的，你說得對。謝謝：） – arman

result.reindex(pandas.MultiIndex.from_tuples([ 
("a", "s"), 
("a", "u"), 
("a", "t"), 
("b", "s"), 
("b", "u"), 
("b", "t") 
]))

給我

來源

2017-08-10 09:53:34 wl2776

感謝。這可能會工作，但我不知道實際結構是什麼在我的真實代碼（即我不能只寫出所有的索引值）。我已經修改了這個問題，試圖讓這個更清楚。 – arman

如何插入MultiIndex DataFrame的特定位置？

回答

相關問題