2012-05-12 157 views
0

我有一組數據,超過1000行和20個屬性(以列顯示)。 我想要使用均值居中,其中包括從每個值取平均值爲0.是否刪除屬性的基於屬性的平均值,還是刪除每個屬性的均值?統計平均居中 - 使用總均值或屬性平均值

例如,如果屬性A的平均值是500,屬性B的平均值是1000。 對於A I可以刪除500,其給出了A的所有屬性的值0的平均然後,我可以爲屬性做同樣B.

OR

我可以採取750關閉這兩個屬性的所有值。

哪個更具統計正確性?

我的問題是由於這個: 如果我從不同的屬性中減去不同的值,那麼這些屬性就不再可比,因爲每個屬性的取值都不同。如果我從所有數據中減去相同的數值,那麼某些列可能會充滿負數(因此否定平均中心的影響)。

感謝,

回答

3

通常你會單獨中心的每個屬性。
如果您將每個屬性分開居中,那麼假設對於個人而言,重要的是每個度量與該屬性的均值之間的差異,並且您將失去該個體屬性的絕對比較。
例如,如果你有人的身高,體重,將他們分開居中,你可以問「對於高於平均水平的人,體重是否也大於平均體重」。將身高和體重平均在一起將毫無意義。
想一想,一種方法是,您正在創建一個普通個人,您現在可以將其用作所有觀察的基準。
現在,如果兩個度量值的絕對值可比,比如產品價格和成本,那麼您將無法再比較它們,因爲它們會被移位。如果您關心的是將絕對比較用於個人觀察的度量,則需要創建一個輔助度量,例如%利潤。在這種情況下,以價值爲中心的價值觀可以讓你問:「價格更高的產品比平均價格更有利可圖」。

+0

謝謝,這是一個神奇的解釋,它確實有幫助。 – ThePerson