2016-07-23 153 views
1

我有20行60列的系列,即20個例子,每個60個參數。StratifiedKFold輸出處理

kfold = StratifiedKFold(Y = encoded_Y,n_folds = 10,隨機播放=真,random_state =種子) The output consists of two columns

我想知道什麼是第二列是什麼意思憑什麼它選擇兩個索引。爲什麼不採取三個指標?

Furthur,我想知道如何交叉驗證功能拍攝這個系列作爲「CV」參數的輸入。 「cv」通常是一個整數。

結果= cross_val_score(估計器,X,encoded_Y,CV = kfold)

回答

0

如同在此sklearn.cross_validation所有交叉驗證的是在對索引的迭代器。在每一對中,第一項是列車指數列表,第二項是測試指數列表。

the example you bring第一項包含一對這裏的一切除1,17是火車指數,和1,17是測試索引。

+0

正確!在什麼基礎上只選擇了2組測試指標。爲什麼不是隻有1個指數或者3個指數被這個計劃選中。我們如何在這裏精確定義測試指數的數量? –

+0

您有20行(列數不相關)。既然你要求K = 10,那麼它會給你10倍的1/10的分數(在這種情況下,2)從列車中移出並放入測試中。如果你要求5倍,你會得到4個測試指標。 –