2017-07-18 79 views
0

我有2個數據幀。每個數據幀包含64列,每列包含256個值。 我需要比較這兩個數據幀的統計顯着性。比較兩個多列數據幀的統計意義

我只知道統計學的基礎知識。 我所做的是計算每個數據幀的所有列的p值。 然後我比較第一個數據幀的每一列的p值與第二個數據幀的每一列的p值。 EX:第1個數據幀的第1列的p值到第2個數據幀的第1列的p值。

然後我告訴哪些列在2個數據框中顯着不同。

有沒有更好的方法來做到這一點。 我使用python。

回答

0

說實話,你這樣做的方式並不是它想要的。讓我強調幾點,開展這樣的分析時,你應該始終牢記:

1)假設第一

我強烈建議,以避免測試對一切的一切。這種探索性的數據分析可能會產生一些重要的結果,但它最終也可能是multiple comparisons problem。 簡而言之:您有太多的測試,以至於看到重要的東西的機會大大增加了(另請參閱Type I and Type II errors)。

2)p值是不是所有的魔法

說,你計算的p值的所有列不知道哪些考驗你使用。 p值只是一個來自數學統計學的「工具」,被許多測試(例如相關性,t檢驗,ANOVA,迴歸等)所使用。具有顯着的p值表明您觀察到的差異/關係在統計上是相關的(即系統性而非隨機性效應)。

3.)考慮採樣的影響大小

根據哪個測試使用的是,p值是你有樣本大小敏感。樣本量越大,發現重要影響的可能性就越大。例如,如果您比較兩個羣體,每個羣體有一百萬個觀察值,那麼最小差異(也可能是隨機僞像)可能很重要。因此,重要的是還要看看效應大小,它告訴你觀察到的真實程度有多大(例如r的相關性,Cohen的d用於t檢驗,方差分析的偏eta等)。

摘要

所以,如果你想在這裏得到一些實際的幫助,我建議張貼一些代碼,並指定更爲具體(1)你的研究的問題是什麼,(2),它考驗你使用, (3)你的代碼和你的輸出是怎樣的。