熊貓 - 連接與相同類別的列轉向對象

我想連接兩個數據框與類別類型的列，首先添加到每列的缺失類別。熊貓 - 連接與相同類別的列轉向對象

df = pd.DataFrame({"a": pd.Categorical(["foo", "foo", "bar"]), "b": [1, 2, 1]}) 
df2 = pd.DataFrame({"a": pd.Categorical(["baz"]), "b": [1]}) 

df["a"] = df["a"].cat.add_categories("baz") 
df2["a"] = df2["a"].cat.add_categories(["foo", "bar"])

理論上類別都"a"列是相同的：

In [33]: df.a.cat.categories 
Out[33]: Index(['bar', 'foo', 'baz'], dtype='object') 

In [34]: df2.a.cat.categories 
Out[34]: Index(['baz', 'foo', 'bar'], dtype='object')

然而，串聯兩個dataframes的時候，我得到一個object型"a"柱：

In [35]: pd.concat([df, df2]).info() 
<class 'pandas.core.frame.DataFrame'> 
Int64Index: 4 entries, 0 to 0 
Data columns (total 2 columns): 
a 4 non-null object 
b 4 non-null int64 
dtypes: int64(1), object(1) 
memory usage: 96.0+ bytes

在documentation它說，當類別是相同的，它應該導致category型列。即使類別無序，類別的順序是否重要？我正在使用pandas-0.20.3。

來源

2017-08-11 paljenczy

是的。通過使用reorder_categories，即使類別本身是無序的，您也可以更改類別的順序。

df2["a"] = df2.a.cat.reorder_categories(df.a.cat.categories) 

In [43]: pd.concat([df, df2]).info() 
<class 'pandas.core.frame.DataFrame'> 
Int64Index: 4 entries, 0 to 0 
Data columns (total 2 columns): 
a 4 non-null category 
b 4 non-null int64 
dtypes: category(1), int64(1) 
memory usage: 172.0 bytes

來源

2017-08-11 12:46:02 paljenczy

熊貓 - 連接與相同類別的列轉向對象

回答

相關問題