我有一個測試Chrome瀏覽器版本(遙測)的性能測試套件。我試圖確定一個版本在給定的測試中是快/慢還是沒有明顯不同。假設測試以確定平均值是否更大
對於每次測試運行,我提供了:avg,std,count,max,min,sum。
我可以比較兩個測試運行(例如在兩個瀏覽器之間)和我給出的:delta avg,%delta avg,delta std,%delta std ......等。我還給出了p值(直方圖沒有顯着差異的概率),z-分數(aka標準分數:直方圖平均值和參考直方圖平均值之間的標準差的數量)和U統計量(由Mann-Whitney生成和消費的數量U假設檢驗)。
我該如何用X%來肯定地說,一個瀏覽器比另一個瀏覽器更慢/更快或者與其他測試統計數據沒有區別?
我正在考慮檢查p值< 0.05,如果是的話,比較平均值。但是這似乎太簡單了。
任何幫助非常感謝。
更新:
如果我重新運行測試,我得到+/- 10%兩種瀏覽器之間的三角%平均所以看着AVG和p值是不夠的。
我的數據看起來不正常(通過查看直方圖),但是再次,每個樣本中只有5個樣本執行時間。這兩種瀏覽器之間的差異也不盡相同。 U統計只告訴我,這兩個樣本是不同的,沒有關於哪個瀏覽器更快。考慮到他們的差異不一樣,我能做些什麼來推斷哪一個更快? – mikeecb
您需要一個更大的樣本並執行5次執行,因此不建議執行任何統計測試。 – dvarelas
Mann-Whitney測試將鏈接大小爲5的樣本羣體的測試鏈接。您會在這種情況下推薦什麼? – mikeecb