我正在分析一組數據,我需要找到它的迴歸。數據集中的數據點數量很少(〜15),因此我決定使用強大的線性迴歸作業。問題在於程序選擇了一些看起來不具有影響力的異常點。這裏是數據的散點圖,其影響用作尺寸:Python statsmodel魯棒線性迴歸(RLM)異常值選擇
點B和C(圖中用紅色圓圈表示)被選作異常值,而點A具有較高的影響力則不是。雖然A點並沒有改變回歸的總體趨勢,但它基本上定義了斜率與X最高的點一樣。而B點和C點隻影響斜率的顯着性。所以我的問題有兩個部分: 1)如果沒有選擇最具影響力的點,並且您是否知道其他具有我選擇的異常值選項的包,則RLM包的選擇異常值的方法是什麼? 2)你認爲A點是異常點嗎?