我想使用空模型(截距 - 僅用於比較的原因)在vowpal wabbit上運行線性迴歸。我應該使用哪個優化器?還有最好的不斷損失報告的簡單平均?vowpal中的空線性迴歸模型wabbit
2
A
回答
1
A1:對於線性迴歸,如果您關心平均值,則應該使用--loss_function squared
(這是默認值)。如果您關心的是中位數而不是平均值(例如,如果您有一些異常值可能會大大影響平均值),請使用--loss_function quantile
。順便說一句:這些不是優化器,只是損失函數。我會離開優化器(增強型SGD)原樣(默認),因爲它工作得很好。
A2:best constant
是會給出最低誤差的常數預測,而best constant loss
是總是預測best constant
數的平均誤差。它是所有目標變量的加權平均值。這與線性迴歸公式y = Ai*xi + B
中的攔截b
不同。 B
是獨立於輸入的自由術語。 B
不一定是y
的平均值。 A3:如果要查找模型的截距,請在模型中查找名稱爲Constant
的重量。這將要求兩個短步驟:
# 1) Train your model from the dataset
# and save the model in human-readable (aka "inverted hash") format
vw --invert_hash model.ih your_dataset
# 2) Search for the free/intercept term in the readable model
grep '^Constant:' model.ih
的grep
步驟的輸出應該是這樣的:
Constant:116060:-1.085126
凡116060
是散列時隙(在模型位置)和-1.085126
是值的截距(假設沒有散列衝突,以及輸入的線性組合)。
相關問題
- 1. 使用vowpal輸出模型參數wabbit
- 2. Vowpal Wabbit python wrapper空預測文件
- 3. 一對一邏輯迴歸分類器與Vowpal Wabbit
- 4. Vowpal Wabbit:不平衡類
- 5. 所選命名空間中的Vowpal Wabbit -ngrams
- 6. 線性迴歸模型擬合不佳
- 7. 如何運行vowpal-wabbit utl腳本?
- 8. 如何決定使用線性迴歸模型還是非線性迴歸模型
- 9. 線性迴歸 - 估計後陷入Matlab中的模型比較?
- 10. 在線性迴歸模型中產生的NA
- 11. 在python中使用ARMA/ARIMA的線性迴歸模型
- 12. theano中的線性迴歸
- 13. 如何在多元線性迴歸模型中進行預測?
- 14. 編譯ubuntu中用於Windows 7的vowpal-wabbit
- 15. 線性迴歸模型的絕對誤差的標準偏差
- 16. 的Python:線性迴歸,重塑使用numpy的陣列模型
- 17. 模型性能圖:迴歸模型的MAE圖[ROC圖的迴歸等價圖]
- 18. 置信區間的非線性迴歸模型
- 19. 件由基團的線性迴歸模型
- 20. Data.frame和不同規格的線性迴歸模型
- 21. c中的迴歸模型#
- 22. Java線性迴歸
- 23. 線性迴歸scala.MatchError:
- 24. R線性迴歸
- 25. 模型屬性返回空
- 26. 多類預測在vowpal wabbit中給出了備用類嗎?
- 27. 自迴歸線性迴歸data.frame
- 28. NER的Learning2Search(vowpal-wabbit)給出奇怪的結果
- 29. 火花(1.6)ML線性迴歸 - 如何預測瓦特/模型
- 30. 線性迴歸模型缺少變量.fit
謝謝,那麼如何翻譯與最佳常數相比在損失方面表現更差的模型?最佳常數虧損信息的價值是什麼? – user90772
對不起,您不清楚您在問什麼:翻譯模型意味着什麼?什麼數據「更糟糕」?不良表現最常見的原因是數據不良或過度擬合,但您沒有提供關於如何訓練的任何細節?數據類型和大小(例子數量,特徵數量,進度輸出)?你有什麼選擇在訓練中使用?你在訓練後如何評價?......在這裏非常難以幫助。最佳常數損失對於瞭解您的標籤的(加權)平均值很有用。 – arielf
我必須更具體。所以,就我而言,即使RMSE優於簡單平均值,模型的損失也比最佳常數差得多。我正在處理高維分類特徵和數字輸出。數據大小很小(大約500-1000),特徵數量很大(OHE後大約10K)。什麼是標籤的加權平均值?就我而言,我有一個簡單的迴歸問題(沒有權重),這是否意味着最佳常數的損失是平均值的損失? – user90772