categorical-data

    0熱度

    2回答

    我對隨機森林有疑問。想象一下,我有關於用戶與物品交互的數據。項目數量很大,大約爲10 000個。我的隨機森林輸出應該是用戶可能與之交互的項目(如推薦系統)。對於任何用戶,我想使用描述用戶過去已與之進行交互的項目的功能。但是,將分類產品功能映射爲單熱編碼看起來效率非常低,因爲用戶最多隻能與幾百個項目進行交互,有時甚至可能只有5個。 您將如何去關於構建一個隨機森林時,其中一個輸入要素是一個具有〜100

    1熱度

    1回答

    熊貓分類https://pandas.pydata.org/pandas-docs/stable/categorical.html如何處理新的和看不到的水平?我正在考慮像設置一樣的scikit-learn。目前,我有這樣的: https://gist.github.com/geoHeil/5caff5236b4850d673b2c9b0799dc2ce def: fit() for ea

    1熱度

    1回答

    我想知道在read_csv()過程中是否有讀取分類值的方法。 通常情況下,你可以做這樣的事實後轉換的東西,如: df.zone = df.zone.astype('category') 此時DF佔用更多的內存和我正在尋找一種方式來降低。 我已經試過了諸如: parking_meters = pd.read_csv('parking_meter_data.csv', con

    2熱度

    1回答

    這個問題給出了排序y軸的解決方案:Data order in seaborn heatmap from pivot 但是如何對x軸和y軸執行自定義排序? 沒有自定義排序,我們看到訂單: x軸:電話,電視 y軸:蘋果,谷歌,三星 代碼: lol = [['apple', 'phone', 10], ['samsung', 'tv', 20], ['apple', 'tv', 5], ['google

    -2熱度

    1回答

    我的R中的數據集如下所示: a <- c("M","F","F","F","M","M","F","F","F","M","F","F","M","M","F") p <- c("P","P","W","W","P","P","W","W","W","W","P","P","P","W","W") y1 <- c("yes","yes","null","no","no","no","yes",

    0熱度

    1回答

    我是R新手,所以我的問題很簡單。我正在嘗試創建一個散點圖,顯示所有國家的數據,然後根據人口對氣泡進行尺寸調整並按地區對它們進行着色。除了着色,我已經完成了一切。 這裏是我的代碼: attach(gapminder2) colors(distinct = FALSE) radius<-sqrt(gapminder2$Population/pi) plot(log(`CO2 Emissions

    -1熱度

    1回答

    我使用帶有固定效果''內'選項'的'plm'命令來運行我的面板迴歸。 因變量是數字,而所有自變量都是分類的或二元的,除了cgi,eui,sjump和rv。 三個二元變量cc,ce,cw應該代表4個類別的同一個分類變量,所以我排除了一個。 但是,當我嘗試從這三個代表4個類別的二元變量中分析第四個類別的效果時,由於此固定效果模型沒有給出可用於獲得此效果的截距第四個分類變量,我必須設置所有的零。 我可以

    0熱度

    1回答

    在Python/Scikit-learn GLM模型中是否可以像使用分類變量那樣使用分類變量?我確實意識到單熱編碼的另一種選擇。我對這種方法的問題是,我將無法測試整個變量的重要性。我只能測試編碼變量(這是部分的)。 爲什麼SAS可以處理這樣的變量而不是Python?請指教。

    0熱度

    1回答

    系列下面是一個例子,以獲得一點: missing_values=-999.0 level1=pd._libs.interval.Interval(-np.inf, 1, closed='right') level2=pd._libs.interval.Interval(1,np.inf, closed='right') data=pd.DataFrame({'a':[level1,miss

    0熱度

    2回答

    我有一個名爲diamonds的數據集。它有十個變量:克拉,切割,顏色,清晰度... 那麼,我該如何編寫代碼來找出哪些變量是分類變量。 我現在使用class()函數來找出每個變量的類型,但我怎麼讓我的程序自動打印它? classVariables = sapply(diamonds, function(x) class(x))