正確的方式將數據分配到multiindexed大熊貓數據幀

以數據幀，di，所創造的一個子集：正確的方式將數據分配到multiindexed大熊貓數據幀

import pandas as pd 

data = { 
    "Event": ['Biathlon', 'Ski Jump', 'Slalom', 'Downhill'], 
    "Award": ['Gold', 'Bronze', 'Gold', 'Silver'], 
    "Points": ['100', '10', '100', '40'], 
    "Rank": ['1', '3', '1', '2'] 
} 

d = pd.DataFrame(data) 
di = d.set_index(["Award","Event"]) 
print(di)

什麼會的是改變了('Bronze', 'Ski Jump')記錄點值的正確方法？

通過試驗和錯誤，我知道以下似乎工作，雖然我不清楚從pandas documentation這是一種可接受的方法。

di.loc[('Bronze', 'Ski Jump'), 'Points'] = 20

那麼，你會如何處理呢？你能指點我的相關文件嗎？

來源

2016-02-27 Al R.

你說得對。從indexing docs（重點煤礦）：

.loc主要是基於，但也可以用布爾陣列使用的標記。

當在DataFrame使用.loc，語法是

df.loc[row_indexer,column_indexer]

每個row_indexer和column_indexer可以是

單個標籤 [...]

標籤['a', 'b', 'c']

的列表或陣列的標籤切片對象'a':'f' [...]

布爾矩陣

您是使用第一個項目符號點。你的行索引是一個多索引，其標籤是元組。你的列索引是一個普通的字符串索引。然後，表達

di.loc[('Bronze', 'Ski Jump'), 'Points']

翻譯爲「讓位於沿行的多指標('Bronze', 'Ski Jump')和沿列索引'Points'的價值。」這正是你想要的。

另一種方式來思考這個例子是忘了多指標。從MultiIndex/Advanced Indexing：

這是值得牢記有什麼阻止你使用上的軸元組的原子標籤。

多索引與普通元組索引非常相似，雖然它提供了擴展功能（例如，只能使用第一級索引，如di.loc['Bronze']）。然而，實際上你可以創建自己的數據幀像

df = pd.DataFrame([ 
    ['100', '1'], 
    ['10', '3'], 
    ['100', '1'], 
    ['40', '2'] 
], columns=['Points', 'Rank'], index=[ 
    ('Gold', 'Biathlon'), 
    ('Bronze', 'Ski Jump'), 
    ('Gold', 'Slalom'), 
    ('Silver', 'Downhill') 
])

這使得它更加明顯，爲什麼di.loc[('Bronze', 'Ski Jump'), 'Points']是一個有效的標籤選擇。

來源

2016-02-27 02:56:35

正確的方式將數據分配到multiindexed大熊貓數據幀

回答

相關問題