我對隨機森林有疑問。想象一下,我有關於用戶與物品交互的數據。項目數量很大,大約爲10 000個。我的隨機森林輸出應該是用戶可能與之交互的項目(如推薦系統)。對於任何用戶,我想使用描述用戶過去已與之進行交互的項目的功能。但是,將分類產品功能映射爲單熱編碼看起來效率非常低,因爲用戶最多隻能與幾百個項目進行交互,有時甚至可能只有5個。XGBoost/CatBoost中含有大量類別的分類變量
您將如何去關於構建一個隨機森林時,其中一個輸入要素是一個具有〜10000個可能值的分類變量,輸出是一個具有〜10000個可能值的分類變量?我應該使用CatBoost作爲分類的功能嗎?或者我應該使用單熱編碼,如果是的話,您認爲XGBoost或CatBoost更好嗎?
在https://datascience.stackexchange.com/上查詢可能會更好 - 它似乎比關於代碼更理論一些? – josh
好的,那就試試,謝謝 –