我懷疑與數字和非數字功能的樸素貝葉斯。就像我有5個獨立的獨立參數對這些我想分類數據。文本類型自變量爲數字類型spark樸素貝葉斯
男,酒精,平日,12 am-4am,75,30-39 男,移動交通違章,工作日,12 am-4am的嫌疑,0,20-24 男,酒精的懷疑,週末,4上午上午12點 - 下午4點,0,20-24 男,懷疑酒精,平日,上午12點 - 凌晨4點,0,50-59 男,道路交通碰撞,平日下午12點至下午4點0,25-29 男,道路交通碰撞,平日,晚上8點至12點,其他 男性,其他,平日上午8點至下午12點,23,60-69 男性違規行駛,週末,下午12點至4點,26,30-39 女性,道路交通碰撞,週末,上午4點 - 上午8點,61,16-19 男性,移動交通違規,週末,4p m-8pm,74,25-29 男,道路交通碰撞,工作日,上午12點至早上4點,其他 男,違規行駛,平日,晚上8點至12點,0,16-19 男,道路交通碰撞,其他 男性,移動交通違規,週末,上午4點 - 上午8點,0,30-39
您可以看到一些參數是數字,一些是非數字的。任何知道如何將非數字數據轉換爲數字數據。
- 如何轉換非數字到數字
- 如果我使用TF那麼這將是正確與否
- 如果TF是正確的,那麼爲什麼