2009-07-30 42 views
0

對於那些處理數據的人來說,有句話說:「如果你充分拷打數據,它會承認幾乎任何東西」。這一點在Boferroni定理的數學支持下表明,「隨着越來越多的統計測試的執行,獲得錯誤重要發現(類型I錯誤)的可能性也增加」。例如,我們知道Principles of Data Mining中給出的情況:「Leinweber(個人通信)提供了這種類型預測的一個特別幽默的例子,他幾乎完美地預測了着名的標準普爾500金融指數作爲前幾年黃油生產,奶酪生產和孟加拉國和美國 綿羊種羣的年度值的函數。「數據處理過於複雜的模型

在使用過於複雜的模型時,您是否遇到實際情況,結果是錯誤的?你能否提出這種情況,以及你使用的方法?

回答

2

根據我的經驗,主要問題是使用統計方法的方式不對。一個常見的錯誤是不要事先確定要測試的數據。我聽到一位教授將這場比賽與賽馬比賽進行比較,在比賽中你不會在預定的地點拍攝最後的照片,但是當你的馬位於前方時。這在醫學研究中很常見。

我知道的另一個例子是有人做了一個假設數據是正態分佈的統計檢驗 - 事實並非如此。

從來不認爲靜態依賴是一個因果關係(例如在法蘭克福,艾滋病病毒與飛機噪聲之間存在依賴關係 - 這並不意味着飛行噪音會導致艾滋病毒感染)。

基本上它不是模型的複雜性。您必須使用正確的方法和正確的數據。這很困難。在測試之前,您必須確定您的數據。如果你想檢查這一點,只需對模具輥或硬幣翻轉進行公平性測試。在每次滾動/翻轉後使用所有數據。你會看到時不時會發現你的死是不公平的。當然 - 如果你對死亡的公平性進行了大量的獨立測試,你會發現一些不公平的測試 - 但這是統計測試中預期的錯誤。

統計檢查中另一個非常基本的事情:確定你的假設是什麼。有時候測試不能顯示你想要的東西 - 它只能拒絕它。

總之 - 沒有某種思想和教育,不要做數據挖掘/統計分析。統計工作方式與人類直覺相反,您可以輕鬆地欺騙(自己和他人)。

+0

優秀的答案......謝謝。 – lmsasu 2009-07-30 07:44:14