statsmodels

    1熱度

    1回答

    我正在嘗試構建分佈式按需建模生產系統,並希望將數十萬個小型模型保存在內存中(並將它們傳輸到數據庫和進程之間)。我正在看statsmodels。 我最感興趣的只是能夠保存模型的係數並在模型上調用預測。 它看起來像statsmodels包含TONS附加信息(O(原始數據大小)),這是根本不需要用於此用例。序列化的大小是幾兆字節,而係數的大小隻有幾個字節。這充滿了我的數據庫,並且殺死了分佈式處理和緩存性

    0熱度

    1回答

    我有一個數據集,包括7個不同的協變量和輸出變量,'成功率'。 我試圖找到預測成功率的重要因素。我的數據集中的一個協變量是一個分類變量,它需要700個值(0-700),每個值表示它們來自的區域的ID。 在進行邏輯迴歸時,我應該如何處理這個變量? 如果我製作700個虛擬列,我怎樣才能更容易地解釋結果? 我正在使用Python和statsmodels。

    1熱度

    1回答

    我想在Python中使用Statsmodels做一些多元線性迴歸,但是我一直在嘗試組織我的數據時有一些心理障礙。 所以默認波士頓數據集是這樣的: 而且線性迴歸模型的輸出是這樣的: 我的原始數據是空間分隔像這樣: 而且我已經能夠將其安排到陣列中的位置: 有誰有更多的Python的經驗知道我可以以類似的方式格式化我的數據在波士頓的數據集,使我可以輕鬆實現我的迴歸模型?例如,設置對應於我的數據索引的fe

    0熱度

    1回答

    我正在分析一組數據,我需要找到它的迴歸。數據集中的數據點數量很少(〜15),因此我決定使用強大的線性迴歸作業。問題在於程序選擇了一些看起來不具有影響力的異常點。這裏是數據的散點圖,其影響用作尺寸: 點B和C(圖中用紅色圓圈表示)被選作異常值,而點A具有較高的影響力則不是。雖然A點並沒有改變回歸的總體趨勢,但它基本上定義了斜率與X最高的點一樣。而B點和C點隻影響斜率的顯着性。所以我的問題有兩個部分:

    0熱度

    1回答

    我正在做一個多元線性迴歸,並試圖選擇一些自變量的最佳子集。我想嘗試在「for」循環中執行所有1024個可能的組合,並根據條件編號和r平方保存最佳結果。我知道這兩種計算,給出類似的結果: model = sm.OLS(salarray, narraycareer) results = model.fit() print results.summary() OLS Regr

    1熱度

    1回答

    我試圖做從以下大熊貓據幀 CpcGDP.tail() 65 2012-01-01 2593.23 2013-01-01 2591.06 2014-01-01 2608.38 2015-01-01 2665.35 2016-01-01 2724.4 提取的一系列ARIMA模型分析我第一次轉換對象 CpcGDP.convert_objects(convert_numer

    1熱度

    1回答

    我使用statsmodels來進行OLS估計。結果可以在控制檯上使用print(results.summary())進行研究。我想存儲與.png文件相同的表格。下面是一個帶有可重複示例的片段。 import pandas as pd import numpy as np import matplotlib.dates as mdates import statsmodels.api as s

    1熱度

    1回答

    我想使用 model_S = statespace.sarimax.SARIMAX(df['lnpd'], trend='n', order=(12,1,12), seasonal_order=(1,1,1,12)) 顯示錯誤: AttributeError: 'module' object has no attribute 'sarimax' 我剛剛更新statsmodels至0.8.0,並

    0熱度

    1回答

    軟件包pymc3和statsmodels可以在Python處理負二項式GLMS如圖here: E(Y)= E ^(beta_0 +西格瑪(X_I * beta_i)) 在哪裏X_i s是我的預測變量,Y是我的因變量。有沒有辦法強制我的變量(例如X_1)具有beta_1=1,以便算法優化其他係數。我願意同時使用pymc3和statsmodels。謝謝。

    -1熱度

    1回答

    我和我的同班同學正在完成這項任務,涉及在Fama-French 3因子模型上運行迴歸。我使用python Statsmodels模塊,他們使用Stata,我們共享相同的一組數據。對於普通最小二乘迴歸,我們得到了相同的答案。但由於某種原因,穩健的迴歸結果並不一致。 下面是塔塔結果: 這裏是Statsmodels結果: 只是想知道這可能是這個問題的原因是什麼?任何方式來解決它?我還在Statsmode