2017-05-28 61 views
1

我有一個測試Chrome瀏覽器版本(遙測)的性能測試套件。我試圖確定一個版本在給定的測試中是快/慢還是沒有明顯不同。假設測試以確定平均值是否更大

對於每次測試運行,我提供了:avg,std,count,max,min,sum。

我可以比較兩個測試運行(例如在兩個瀏覽器之間)和我給出的:delta avg,%delta avg,delta std,%delta std ......等。我還給出了p值(直方圖沒有顯着差異的概率),z-分數(aka標準分數:直方圖平均值和參考直方圖平均值之間的標準差的數量)和U統計量(由Mann-Whitney生成和消費的數量U假設檢驗)。

我該如何用X%來肯定地說,一個瀏覽器比另一個瀏覽器更慢/更快或者與其他測試統計數據沒有區別?

我正在考慮檢查p值< 0.05,如果是的話,比較平均值。但是這似乎太簡單了。

任何幫助非常感謝。


更新:

如果我重新運行測試,我得到+/- 10%兩種瀏覽器之間的三角%平均所以看着AVG和p值是不夠的。

回答

1

首先,您必須選擇要執行的測試類型(參數或非參數)。我不會使用z檢驗,因爲我估計你估計std。

  1. 如果您的數據是正常的且它們有相同的方差,您可以執行t-test(參數)。如果他們沒有相等的差異,你可以使用韋爾奇的t檢驗。
  2. 如果它們不正常,應該執行Mann-Whitney test(非參數)。然而,曼恩 - 惠特尼只有在分佈彼此不同但分佈不同的情況下才會進行測試。如果你很幸運,他們有相同的差異,那麼你可以推斷平均數。

請確保您使用的統計軟件正在執行單側測試,以便您真正看到哪個瀏覽器更慢/更快。注意一個事實,如果拒絕假設avg(X)> avg(Y),它並不意味着avg(Y)> avg(X)。這意味着統計平均(Y)> =平均(X)。

最後,您必須使用X置信度來執行測試,以確保X的結果。爲了說明這一點,請檢查p值是否爲1-X。如果你先進行正態性檢驗,然後進行t檢驗,那麼這是無效的,那麼你的結果小於X%!

使用您可用的值,您可以執行上述所有測試。

+0

我的數據看起來不正常(通過查看直方圖),但是再次,每個樣本中只有5個樣本執行時間。這兩種瀏覽器之間的差異也不盡相同。 U統計只告訴我,這兩個樣本是不同的,沒有關於哪個瀏覽器更快。考慮到他們的差異不一樣,我能做些什麼來推斷哪一個更快? – mikeecb

+0

您需要一個更大的樣本並執行5次執行,因此不建議執行任何統計測試。 – dvarelas

+0

Mann-Whitney測試將鏈接大小爲5的樣本羣體的測試鏈接。您會在這種情況下推薦什麼? – mikeecb