regression

    -1熱度

    1回答

    我和我的同班同學正在完成這項任務,涉及在Fama-French 3因子模型上運行迴歸。我使用python Statsmodels模塊,他們使用Stata,我們共享相同的一組數據。對於普通最小二乘迴歸,我們得到了相同的答案。但由於某種原因,穩健的迴歸結果並不一致。 下面是塔塔結果: 這裏是Statsmodels結果: 只是想知道這可能是這個問題的原因是什麼?任何方式來解決它?我還在Statsmode

    2熱度

    1回答

    我有一個包含1000個觀察值和76個變量的數據集,其中約有20個是分類變量。我想在整個數據集上使用LASSO。我知道有因素變量在LASSO中通過lars或glmnet並不真正起作用,但變量太多,並且存在太多不同的,無序的值,他們可以對這些變量進行合理的數值重新編碼。 在這種情況下可以使用LASSO嗎?我該怎麼做呢?創建預測的矩陣債收益率這樣的響應: hdy<-as.numeric(housingD

    0熱度

    1回答

    我有一個數據集,包括7個不同的協變量和輸出變量,'成功率'。 我試圖找到預測成功率的重要因素。我的數據集中的一個協變量是一個分類變量,它需要700個值(0-700),每個值表示它們來自的區域的ID。 在進行邏輯迴歸時,我應該如何處理這個變量? 如果我製作700個虛擬列,我怎樣才能更容易地解釋結果? 我正在使用Python和statsmodels。

    -1熱度

    1回答

    假設我有一個分類變量,例如表格中的國家/地區列。 如何快速添加每個類別的虛擬變量 - WITH A NAME NAME? 所以,如果列是針對國家的,那麼這個人是否居住在美國的變量將被稱爲美國而不是country16什麼的。

    0熱度

    1回答

    我正在分析一組數據,我需要找到它的迴歸。數據集中的數據點數量很少(〜15),因此我決定使用強大的線性迴歸作業。問題在於程序選擇了一些看起來不具有影響力的異常點。這裏是數據的散點圖,其影響用作尺寸: 點B和C(圖中用紅色圓圈表示)被選作異常值,而點A具有較高的影響力則不是。雖然A點並沒有改變回歸的總體趨勢,但它基本上定義了斜率與X最高的點一樣。而B點和C點隻影響斜率的顯着性。所以我的問題有兩個部分:

    1熱度

    1回答

    我在R.初學者這是一個非常簡單的代碼,我正在努力挽救殘差項: # Create variables for child's EA: dat$cldeacdi <- rowMeans(dat[,c('cdcresp', 'cdcinv')],na.rm=T) dat$cldeacu <- rowMeans(dat[,c('cucresp', 'cucinv')],na.rm=T) # Cr

    0熱度

    1回答

    我正在研究預測角度的模型。什麼是改變目標的好方法(目前它們取值0到360度),這樣近似角度的處理方式相似嗎?我懷疑現在離開它們並不是最佳的,因爲接近360和0的值是相似的,但是具有完全不同的大小。

    0熱度

    1回答

    我在存儲OLS迴歸的迴歸常量時遇到問題。我想計算面板數據集中每個公司的每日迴歸; obs_id標識公司和日期。 我試圖建立下面的循環。不知何故,整個樣本的保存係數是相同的。 foreach x in obs_id { newey retRF MktRF SMB HML if obs_id == `x', lag(0) mat A = e(b) quietly repl

    -1熱度

    1回答

    X和Y是不相關的(0.3);然而,當我把X在隨機森林分類預測Y,旁邊兩(A,B)其他(相關)變量,X和兩個其他變量(A,B)爲Y.注意的顯著預測的是,其他兩個(A, B)變量也無法與Y. 相關怎樣才能根據統計和機器學習的想法解釋這一點。 代表一個或多個可變(A或B或Y)相對於另一變量(X),其中變量不具有很強的相關性。

    0熱度

    1回答

    我試圖在python中複製一個函數,並能夠使用數據框中的多列對以下代碼進行編碼,但想知道是否有一個python迴歸函數可以更有效地執行此操作。這裏是該功能描述的鏈接。對不起,先進的不是一個真正的統計人員。 :) http://tlc.thinkorswim.com/center/reference/thinkScript/Functions/Statistical/Inertia.html 它指出