2016-08-13 74 views
0

我有一個20,000,000行的數據集。每行有30列。基於一列的唯一值分離樹迴歸模型

其中一列包含7000個唯一的產品編號。

每一行都包含一個單位成本值,我希望使用除單位成本以外的所有列來預測。

我想建立一個獨特的決策樹或決策樹的獨特分支來模擬每個產品號碼的數據。

基本上爲每個產品編號劃分行併爲每個產品編號隔離建模。

我想在Azure中培訓單個模型,以便儘可能做到這一點。

回答

0

你將不得不使用使用lapply創建多個模型

創建R組件與火車腳本

訓練腳本類似於下面的內容:

model <- 
    lapply(seq(max(dataset$ProductNumber)), 
       function(j) 
        if(nrow(dataset[dataset$ProductNumber==j,])>0) 
        { 
         multinom(UnitCost~.,data=dataset[dataset$ProductNumber==j,]) 
        } 


     ) 

然後你可以使用預測性腳本類似下面

probabilities <- predict(model[[dataset$ProductNumber]], dataset, type="probs") 
scores<-data.frame(probabilities)