2016-11-07 62 views
0

假設我們有一些記錄與我們試圖預測的目標號碼相關的幾個特徵。所有記錄都遵循相同的一般基礎模式,並通過RandomForestRegressor學得相當好。現在我們假設所有記錄都添加了一個分類特徵,該分類特徵可以被編碼爲附加信息以改進模型的預測能力。到現在爲止還挺好。分類信息可以改進對樣本外類別的預測嗎?

但現在的說,我們希望用我們的迴歸,這是接受了有關數據,包括分類功能預測,在訓練數據沒有代表新類別的記錄。在這種情況下,分類信息是否變得無用(或更糟?)爲了獲得最佳的泛化性能(因爲它以前適合於不在此數據集中的類別),是否應該對模型進行再培訓而沒有可用的分類信息?或者,是否有一些可能的方式來知道培訓數據中的類別成員可以提高對樣本外類別的預測能力?

+0

「所有記錄都屬於幾個組中的一個,它們可以被編碼爲附加信息」:所以你怎麼預測?如果您嘗試預測團體並將團體作爲您的訓練集的特徵,則實際上沒有學習,它只是對該特徵的投影,因此預測未看到的數據將是不可能的... – MMF

+0

我試圖預測與我稱爲組的分類特徵分開的目標值。我會重新解釋澄清。 –

+1

因此,例如,培訓數據有一個變量「國家」,其值爲[美國,加拿大],在測試數據中,國家變量的值爲[墨西哥,古巴]。如果這些集合沒有交集,那麼你不應該包含變量。如果您希望在測試數據中看到**一些**的原始值,那麼您應該使用它。 – maxymoo

回答

1

如果這些集合沒有交集,那麼您不應該包含該變量。如果您希望在測試數據中看到一些原始值,那麼您應該使用它。

相關問題