統計上幾天

假設，我必須對應於5個類別個連續程序10天每小時數據羣集成員關係，創建爲：統計上幾天

library(xts) 
set.seed(123) 
timestamp <- seq(as.POSIXct("2016-10-01"),as.POSIXct("2016-10-10 23:59:59"), by = "hour") 
data <- data.frame(cat1 = rnorm(length(timestamp),150,5), 
         cat2 = rnorm(length(timestamp),130,3), 
         cat3 = rnorm(length(timestamp),150,5), 
         cat4 = rnorm(length(timestamp),100,8), 
         cat5 = rnorm(length(timestamp),200,15)) 
data_obj <- xts(data,timestamp) # creat time-series object 
head(data_obj,2)

現在，每天我單獨進行集羣，看看這些類別相對於彼此表現使用簡單kmeans爲：

daywise_data <- split.xts(data_obj,f="days",k=1) # split data day wise 
clus_obj <- lapply(daywise_data, function(x){ # clustering day wise 
    return (kmeans(t(x), 2)) 
})

一旦集羣是結束了，我可視化在不同的10天羣集關係與

sapply(clus_obj,function(x) x$cluster) # clustering results

，我發現結果

目測，很顯然，cat1和cat3始終保持相同的羣集。類似地，cat4和cat5在10個不同的日子裏大多在不同的羣中。

除了目視檢查，是否有任何自動的方法來收集這種類型的統計從這樣的聚類表？

注意：這是一個虛擬的例子。我有一個包含連續100天80個類別的數據框。像上面這樣的自動總結會減少工作量。

來源

2016-11-19 Haroon Rashid

配對計數羣集評估措施顯示瞭解決此問題的簡單方法。

這些方法不是查看不穩定的對象集羣分配，而是查看兩個對象是否在同一個集羣中（稱爲「對」）。

所以你可以檢查這些對是否隨時間變化很大。由於k-means是隨機化的，你可能還想在每個時間片上運行幾次，因爲它們可能會返回不同的聚類！

然後你可以說例如系列1在90％的結果中與系列2處於同一簇中。等等。

來源

2016-11-19 15:12:45

你的解釋是正確的，我想計算這個百分比。但是[維基百科]（https://en.wikipedia.org/wiki/Cluster_analysis）中提到的外部評估指標似乎並不適用於我的案例，因爲我沒有基本事實（基準）。這個聚類是無監督的。您的進一步見解可能會幫助我進一步挖掘... –

同樣的方法可用於比較兩個不同時間點的結果。大多數這些方法是對稱的，基本上它們是分區的相似性度量。 –

我改寫了一下我的問題，並在[this]得到了答案（http://stackoverflow.com/q/40713096/3317829）堆棧溢出鏈接 –

回答

相關問題