Chi square和zscore - 選擇哪一個？

我發佈了關於stat stack exchange的問題，但不幸的是到目前爲止還沒有答案，所以我在這裏克隆它，並希望有人能夠提供幫助。Chi square和zscore - 選擇哪一個？

我是機器學習的新手。最近我試圖學習這件事，並得到以下關注：

我有產品分類的類別。此外，我還向用戶提供性別和設備型號信息。

首先，我做了一個卡方檢驗，檢查類別和性別+設備信息是否關聯。例如，我的p值是0.000012，所以我說用戶（性別+設備）與類別相關聯。

因此，如果一個新的用戶來與他的性別（女）+設備（iPhone）：

由於卡方檢驗結果，應該有性別+設備和類別之間的關聯。所以我選擇女性使用iPhone的十大類別。我有名單，例如[1。時尚，2.移動設備3.相機，4.家庭傢俱，5.自行車等]
我還做了類別（沒有任何用戶信息）的z-測試，並得到列表（更高的z比分最高），例如[1。移動設備，2.自行車，3.時尚，4.筆記本電腦等]

所以在這種情況下，我應該給那個用戶哪個列表？或者將它們結合起來的可能性？還是我做錯了什麼？

在此先感謝:-)

來源

2014-11-25 khoi nguyen

嚴格地說，沒有測試是適當的。在兩次測試中，您都有一個零假設（即性別和模型與類別無關），並且您試圖找出此假設錯誤的概率。然而，這兩個測試是參數測試，即結果是正確的，你必須知道概率遵循特定的分佈（分別爲卡方和正態分佈）。在你的情況下，你不能做出這樣的假設，所以測試不適合。如果要使用顯着性檢驗，則應使用非參數檢驗，Wilcoxon和Friedman檢驗最爲常見。然而，在問題解決之後，通常使用顯着性檢驗來檢查所獲得的結果是否歸因於運氣。他們不習慣解決問題。

如果你想找到之間的性別，型號和類別的相關性，你應該使用一些相關係數，如Pearson相關和內相關。但是，您尚未詳細描述您的數據，因此我不確定您要實現的目標。僅基於性別和模型，可能最安全和最簡單的事情是使用iPhone的女性返回訪問次數最多的類別（出現次數）。

來源

2014-11-25 11:24:27

感謝您的回答。 1.你能解釋爲什麼我的兩個數據不是chis square/normal distribution？我不太確定使用兩個設備+性別的用戶數據作爲卡方檢驗的參數是否正確（您能解釋爲什麼這不應該是正確的嗎？）。但是，用戶數量的z測試如何消費這些類別呢？據我瞭解，這可能是一個正常的分佈。 2.是的，選擇訪問量最大的類別是安全的，簡單的，但是這可能不是用戶最好的比賽嗎？任何其他建議？非常感謝:-) – 2014-11-26 12:46:01

1）您使用的測試都是統計顯着性測試，它們用於檢查兩個變量是否遵循相同的分佈。它們主要用於比較結果集，而不是找到相關性。爲了找到相關性，最常見的指標是皮爾遜的。 2）由於z檢驗比較了兩組變量，我不知道如何將性別和電話結合在一個屬性中。然而，它們都沒有遵循正態分佈（因爲它們是無序的，名義值） – 2014-11-27 10:32:36

1.我聽說過皮爾遜的相關性，但不認爲它適用於我的情況。你能解釋一下嗎？ 2.不，我爲每個類別的消費數量分別爲性別和手機模型做了Z值。但是，我從來沒有想過正常的分配元素必須訂購：S – 2014-11-27 12:12:27

Chi square和zscore - 選擇哪一個？

回答

相關問題