比較兩個多列數據幀的統計意義

我有2個數據幀。每個數據幀包含64列，每列包含256個值。我需要比較這兩個數據幀的統計顯着性。比較兩個多列數據幀的統計意義

我只知道統計學的基礎知識。我所做的是計算每個數據幀的所有列的p值。然後我比較第一個數據幀的每一列的p值與第二個數據幀的每一列的p值。 EX：第1個數據幀的第1列的p值到第2個數據幀的第1列的p值。

然後我告訴哪些列在2個數據框中顯着不同。

有沒有更好的方法來做到這一點。我使用python。

2017-07-18 Rajendra Prasad Patil

說實話，你這樣做的方式並不是它想要的。讓我強調幾點，開展這樣的分析時，你應該始終牢記：

1）假設第一

我強烈建議，以避免測試對一切的一切。這種探索性的數據分析可能會產生一些重要的結果，但它最終也可能是multiple comparisons problem。簡而言之：您有太多的測試，以至於看到重要的東西的機會大大增加了（另請參閱Type I and Type II errors）。

2）p值是不是所有的魔法

說，你計算的p值的所有列不知道哪些考驗你使用。 p值只是一個來自數學統計學的「工具」，被許多測試（例如相關性，t檢驗，ANOVA，迴歸等）所使用。具有顯着的p值表明您觀察到的差異/關係在統計上是相關的（即系統性而非隨機性效應）。

3.）考慮採樣的影響大小

根據哪個測試使用的是，p值是你有樣本大小敏感。樣本量越大，發現重要影響的可能性就越大。例如，如果您比較兩個羣體，每個羣體有一百萬個觀察值，那麼最小差異（也可能是隨機僞像）可能很重要。因此，重要的是還要看看效應大小，它告訴你觀察到的真實程度有多大（例如r的相關性，Cohen的d用於t檢驗，方差分析的偏eta等）。

摘要

所以，如果你想在這裏得到一些實際的幫助，我建議張貼一些代碼，並指定更爲具體（1）你的研究的問題是什麼，（2），它考驗你使用，（3）你的代碼和你的輸出是怎樣的。

來源

2017-07-20 07:42:58 jd1338

比較兩個多列數據幀的統計意義

回答

相關問題