2017-10-12 49 views
0

我正在學習一些熊貓/ ML類型的東西。現在我正在做一個Kaggle教程,我們給出的示例數據有很多功能。我懷疑這些功能中的一部分會給模型增加噪音而不是幫助。因此,我想將幾​​個模型應用於具有所有功能的數據(如教程中所示),並將其分數記錄爲基線。然後,我想一次刪除一個功能,並在沒有該功能的數據上使用相同的模型,並比較分數。在熊貓中處理不同版本DataFrame的最安全方法是什麼?

這樣做的最好方法是什麼?天真地說,我只是爲每個刪除的功能創建一個不同的數據集副本,但copy()在熊貓中有點令人困惑(在版本0.20,it says中,默認情況下會進行深層複製,這應該正是我想要的,對嗎?沒有連接/參考原件的副本?)。我試了一下,它似乎並沒有真正的複製。

有沒有更好的方法?謝謝。

回答

1

使用for循環。

variables = locals() 
feature=['A','B','C'] 
for i in feature: 
    variables["dfremoved{0}".format(i)] = df.drop(i,axis=1) 

    ''' Do your fit and predict here within the for loop''' 
相關問題