0

我發佈了關於stat stack exchange的問題,但不幸的是到目前爲止還沒有答案,所以我在這裏克隆它,並希望有人能夠提供幫助。Chi square和zscore - 選擇哪一個?

我是機器學習的新手。最近我試圖學習這件事,並得到以下關注:

我有產品分類的類別。此外,我還向用戶提供性別和設備型號信息。

首先,我做了一個卡方檢驗,檢查類別和性別+設備信息是否關聯。例如,我的p值是0.000012,所以我說用戶(性別+設備)與類別相關聯。

因此,如果一個新的用戶來與他的性別(女)+設備(iPhone):

  1. 由於卡方檢驗結果,應該有性別+設備和類別之間的關聯。所以我選擇女性使用iPhone的十大類別。我有名單,例如[1。時尚,2.移動設備3.相機,4.家庭傢俱,5.自行車等]

  2. 我還做了類別(沒有任何用戶信息)的z-測試,並得到列表(更高的z比分最高),例如[1。移動設備,2.自行車,3.時尚,4.筆記本電腦等]

所以在這種情況下,我應該給那個用戶哪個列表?或者將它們結合起來的可能性?還是我做錯了什麼?

在此先感謝:-)

回答

0

嚴格地說,沒有測試是適當的。在兩次測試中,您都有一個零假設(即性別和模型與類別無關),並且您試圖找出此假設錯誤的概率。然而,這兩個測試是參數測試,即結果是正確的,你必須知道概率遵循特定的分佈(分別爲卡方和正態分佈)。在你的情況下,你不能做出這樣的假設,所以測試不適合。如果要使用顯着性檢驗,則應使用非參數檢驗,Wilcoxon和Friedman檢驗最爲常見。然而,在問題解決之後,通常使用顯着性檢驗來檢查所獲得的結果是否歸因於運氣。他們不習慣解決問題。

如果你想找到之間的性別,型號和類別的相關性,你應該使用一些相關係數,如Pearson相關內相關。但是,您尚未詳細描述您的數據,因此我不確定您要實現的目標。僅基於性別和模型,可能最安全和最簡單的事情是使用iPhone的女性返回訪問次數最多的類別(出現次數)。

+0

感謝您的回答。 1.你能解釋爲什麼我的兩個數據不是chis square/normal distribution? 我不太確定使用兩個設備+性別的用戶數據作爲卡方檢驗的參數是否正確(您能解釋爲什麼這不應該是正確的嗎?)。但是,用戶數量的z測試如何消費這些類別呢?據我瞭解,這可能是一個正常的分佈。 2.是的,選擇訪問量最大的類別是安全的,簡單的,但是這可能不是用戶最好的比賽嗎?任何其他建議? 非常感謝:-) – 2014-11-26 12:46:01

+0

1)您使用的測試都是統計顯着性測試,它們用於檢查兩個變量是否遵循相同的分佈。它們主要用於比較結果集,而不是找到相關性。爲了找到相關性,最常見的指標是皮爾遜的。 2)由於z檢驗比較了兩組變量,我不知道如何將性別和電話結合在一個屬性中。然而,它們都沒有遵循正態分佈(因爲它們是無序的,名義值) – 2014-11-27 10:32:36

+0

1.我聽說過皮爾遜的相關性,但不認爲它適用於我的情況。你能解釋一下嗎? 2.不,我爲每個類別的消費數量分別爲性別和手機模型做了Z值。但是,我從來沒有想過正常的分配元素必須訂購:S – 2014-11-27 12:12:27