0

我已經訓練了一個非常小的數據集上的隨機森林分類器。只有一個功能'位置'與目標'相關性'。我的代碼是很短的,簡單,可以在這裏 https://github.com/sakshamyadav/ocm_test/blob/master/Untitled.ipynb如何對csv文件中的所有條目進行隨機森林預測?

找到我想現在要做的,是這樣的:用「位置」

  • 把列

    • 輸入任何csv文件它通過我的訓練隨機森林算法,以確定其是相關,哪些不是(1或0)
    • 刪除所有行,其中相關是0
    • 將結果保存爲CSV

    而且,我很新的機器學習和將是知道是否有實現這個更簡單的方法很感興趣,我希望我的方法有任何意見或建議任務或者是否可以改進等。非常感謝:)

    PS我在jupyter筆記本代碼中提供的示例數據集是完全隨機的,我並不是要放下任何專業。

  • 回答

    0

    Asssuming從代碼中的變量名:

    df = pd.read_csv('file_name.csv') 
    df = df[rfc.predict(df['Position']) != 0] 
    df.to_csv('new_clean_file.csv') 
    
    +0

    嗨拉斐爾! 'file_name.csv'中的所有位置都是字符串,所以我得到錯誤'ValueError:無法將字符串轉換爲浮點數:'Director Marketing,Communications&Online'。我必須以某種方式將其轉換爲數字或其他東西? – novice

    +0

    是的將其轉換爲'pd.to_numeric(df ['Position'],errors ='coerce')'https://stackoverflow.com/questions/42719749/pandas-convert-string-to-int – RafaelLopes