2017-04-12 54 views
0

當我生成海底小提琴圖形時,我得到的內箱圖(通過指定inner ='box')對於我的實際數據並不準確。見下面的示例圖。實際數據延伸到細尾的尖端。但是盒式小提琴在小提琴的區域內結束。海底小提琴圖形中的內部箱形圖不準確

假設這些盒圖應該代表四分位數,而不是標準偏差或某種東西,那麼它們是不準確的。

我的代碼調用seaborn小提琴圖如下。正如你所看到的,我已經設置了cut = 0這個選項,這意味着小提琴劇情的尾巴根本不會超出我的極限數據,事實上,從檢查中我可以看到小提琴的範圍是在正確的地方。但我也可以從檢查中看到,內部的箱型圖甚至不太接近正確。

sns.violinplot(x ='Policy',y ='LMP',order = cat_order,data = df,inner ='box',scale ='area',bw = 0.2,cut = 0,linewidth = 0.5,ax =軸)

有沒有人有任何洞察什麼seaborn在這裏做?他們是否決定(僅用於boxplot),我的一些數據是異常值,並排除它們?任何想法如何控制?

enter image description here

回答

0

OK,我找到了答案,以我自己的問題。雖然我習慣於基於嚴格四分位數的箱型圖,但Seaborn使用另一種(顯然是常見的)方法,其盒形圖上的盒子的提示只延伸到「四分位數範圍」或IQR的1.5倍。

看到這裏的信息Seaborn箱線圖: http://seaborn.pydata.org/tutorial/categorical.html#distributions-of-observations-within-categories

在這裏看到IQR的定義: http://stattrek.com/statistics/dictionary.aspx?definition=Interquartile%20range