2017-10-15 188 views
-4

我有兩組。治療組接觸媒體;對照組不是媒體。它們通過數據框中的分類變量進行區分。 (暴露於媒體= 1,沒有媒體= 0)應用k-means來檢查R中兩組間的差異

現在,我想檢查這兩個組之間是否存在明顯差異。爲此,將具有兩個羣集的k均值算法應用於四個變量(黑人人口比例,男性人口比例,西班牙裔人口比例,對數尺度中位數收入)。

如何在R中做到這一點?任何人都可以提供一些提示嗎?謝謝!這裏

km <-kmeans(your data, 2, nstart=10)

您的數據作爲data.frame(你的整個數據,或者你可以選擇你對他們感興趣的變量):

+0

嘗試用'?? kmeans' r中 –

回答

0

試試這個。你需要選擇簇的數量(這裏是2)。理解數據的一個好方法是應用不同數量的集羣,然後查看哪一個更適合您的數據(例如,使用任何標準方法,例如AIC或BIC)。

k-means是一種應用於羣集數據的方法。這些數據來自不同的分佈,我們想知道每個觀察來自哪裏(來自哪個分佈)。

你也可以看看關於kmeans在R.很多教程例如,

https://onlinecourses.science.psu.edu/stat857/node/125

https://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

http://www.statmethods.net/advstats/cluster.html

+0

我應該爲這四個變量分配數據框嗎? –

+0

請查看我答案的更新。我不清楚你的意思。但是,如果您的意思是選擇4個變量中的2個,然後應用k-means yes,則可以選擇變量。如果沒有,那麼你可以應用你的整個數據的代碼。 –