訪問在大熊貓列在不同的方式

-2

Id Economics  English History Literature 
0 56   1   1   2  1      
1 11   1   0   0  1      
2 6   0   1   1  0      
3 43   2   0   1  1      
4 14   0   1   1  0

我從文件中讀取一些CSV創造了這個數據集，我可以很容易地訪問列只是用df [」例如，「經濟學」。然後我把它保存到與文件：

df.to_csv(file_path, sep='\t')

但是，當我重新工作在其他功能的數據集我其他目的，並試圖訪問相同的方式列，即

df=pd.read_csv(file_path, sep='\t') 
print df['Economics']

我有

KeyError: Economics

我試過多種編碼，同時閱讀，如果它不是一個多指標的數據幀也驗證了，但一切都與編碼和指數確定。我發現還有另一種方法：df.get（'Economocs'），在這種情況下工作沒有錯誤。但是，如果我想重複列名稱，再次尋找「經濟學」，我有一個KeyError。

所以我的問題：爲什麼會發生？爲什麼有時我可以直接使用df ['column_name']訪問列，有時我需要使用df.get（'column_name'）。以及如何處理column.names，如果第一種方法不起作用？

來源

2016-03-03 Amanda

你可以提供一個自包含的例子證明了什麼問題？ – BrenBarn

@BrenBarn，你是什麼意思的獨立的例子？我更新了問題，如果它有助於理解問題 – Amanda

我的意思是提供一段代碼和示例數據，以便其他人可以真正運行該代碼並重現錯誤。任何人都很難幫助你解決問題的描述。您需要一個其他人可以用來複制問題的實際示例。 – BrenBarn

它看起來像列名中有一些不需要的字符。也許是像'經濟學'或其他東西。

df.get('Economics')在這種情況下不會給KeyError，它只會返回任何內容。

嘗試檢查df.columns的輸出以及len(df.columns[1])的列名長度。

來源

2016-03-03 06:00:28 antbbn

沒有尾隨的額外caracteres，我驗證了它 – Amanda

我猜你要麼尾隨在所有的空間/你的一些列名的，甚至只有一個列像我下面的測試例如：

測試數據：

Id Economics  English History Literature 
56 1 1 2 1 
11 1 0 0 1 
6 1 1 0 0 
43 2 0 1 1 
14 1 1 1 0

測試代碼：

import pandas as pd 

df = pd.read_csv('test.csv', sep='\t') 
print(df) 
print(df.columns.tolist())

輸出：

Id Economics  English History Literature 
0         56 1 1 2 1 
1         11 1 0 0 1 
2         6 1 1 0 0 
3         43 2 0 1 1 
4         14 1 1 1 0 
['Id Economics  English History Literature ']

數據框中只有一列：'Id Economics English History Literature '

讓在pd.read_csv()改變sep='\t'到sep='\s+'，並用同樣的數據集執行我們的測試代碼：

Id Economics English History Literature 
0 56   1  1  2   1 
1 11   1  0  0   1 
2 6   1  1  0   0 
3 43   2  0  1   1 
4 14   1  1  1   0 
['Id', 'Economics', 'English', 'History', 'Literature']

來源

2016-03-03 09:49:15 MaxU

不，這不是問題與分隔符，因爲當我打印df.columns我得到了有效的清單所有列 – Amanda

@Amanda，「KeyError」 - 清楚地表明您正嘗試訪問未列的列。所以我不認爲我可以幫助你，直到你發佈'df.columns.tolist（）'__after__你最後的'pd.read_csv（）'調用的輸出。無論如何，我祝你好運！ – MaxU

訪問在大熊貓列在不同的方式

回答

相關問題