2017-06-18 127 views
0

對於計量經濟分析,我試圖對巴西中央銀行和政府研究機構的一些教育,健康和收入數據進行迴歸。 Python,pandas,statsmodels和matplotlib是我最常用於此項目的外部庫。格式化python OLS迴歸的熊貓數據框

數據格式在多個表格中,每年的行數和城市/列的狀態(一些文件具有城市數據,一些具有狀態數據)。

被市,年收入大熊貓數據幀的例子:

1200302 1200328 ... 1720937 1720978 1721000 1721109 1721208 \ 
1970  0.31  NaN ...  NaN  NaN  NaN  0.20  0.28 
1980  0.39  NaN ...  NaN  NaN  NaN  0.45  0.57 
1991  0.44  NaN ...  NaN  NaN  1.45  0.65  0.46 

(在頂部的每個數字是一個城市代碼 - 許多城市具有相同的名稱

對於狀態數據,有20個-30歲,而對於城市來說,這個數據只有在進行全國人口普查時纔可用3 - 4年。)

我想比較教育,健康和收入指標。所有指標都已被選中,數據集被導入到熊貓數據框中,並且已經進行了最低限度的清理。

對於多個獨立變量,如何找到跨所有城市/州的OLS或FE迴歸的R值?

現在我有我的程序配置爲在同一時間運行兩個國家或一個獨立變量兩市直線OLS迴歸:

one = df1[col] 
two = df2[[col,'const']].join(df3[col]) 
est = sm.OLS(one, two, missing='drop').fit() 

回答

0

不平衡的面板數據的標準方法是這樣是爲每個橫截面單元堆疊時間序列併爲固定效果創建虛擬變量。

爲橫截面單位(即單位特定截距)創建固定效果需要一個包含州和城市的標籤或ID的分類變量。然後,公式接口和patsy可以使用C(id)創建所需的虛擬變量。

然後OLS可以用來估計有限元模型。擬合方法有一個cov_type選項,用於使用面板或集羣健壯的標準錯誤來糾正那些橫斷面或相關內的錯誤。

+0

感謝您的迴應! fit()方法中'''cov_type ='nonrobust''參數非常有用,位置I的分類變量永遠不會考慮使用。完成後,我將發佈更新後的數據框設計和用於有限元模型。 – andersan