文本類型自變量爲數字類型spark樸素貝葉斯

我懷疑與數字和非數字功能的樸素貝葉斯。就像我有5個獨立的獨立參數對這些我想分類數據。文本類型自變量爲數字類型spark樸素貝葉斯

男，酒精，平日，12 am-4am，75,30-39 男，移動交通違章，工作日，12 am-4am的嫌疑，0,20-24 男，酒精的懷疑，週末，4上午上午12點 - 下午4點，0,20-24 男，懷疑酒精，平日，上午12點 - 凌晨4點，0,50-59 男，道路交通碰撞，平日下午12點至下午4點0,25-29 男，道路交通碰撞，平日，晚上8點至12點，其他男性，其他，平日上午8點至下午12點，23,60-69 男性違規行駛，週末，下午12點至4點，26,30-39 女性，道路交通碰撞，週末，上午4點 - 上午8點，61,16-19 男性，移動交通違規，週末，4p m-8pm，74,25-29 男，道路交通碰撞，工作日，上午12點至早上4點，其他男，違規行駛，平日，晚上8點至12點，0,16-19 男，道路交通碰撞，其他男性，移動交通違規，週末，上午4點 - 上午8點，0,30-39

您可以看到一些參數是數字，一些是非數字的。任何知道如何將非數字數據轉換爲數字數據。

如何轉換非數字到數字
如果我使用TF那麼這將是正確與否
如果TF是正確的，那麼爲什麼

來源

2016-06-17 mahendra singh

您可以用下面的啓動：

通過應用factorizer將每個特徵轉換爲分類值。一個例子：
特徵1：男性= 0女= 1
特徵2：酒精= 0碰撞= 1動-違反= 2
..

等。

一個「列」的每個不同的可能值在分解結果中應該有其自己的具體數字表示。希望像4pm-8pm這樣的東西不重疊：但是如果他們是你可以從忽略那個細節開始，並且稍後在時間允許的情況下做一些更智能的手動特徵化。

輸入中的每個條目/行都由十幾個「功能」組成。然後，您可以創建每行的特徵向量。結果現在是tf-idf ready（TM）。您可以將NB算法應用於新近鑄造的特徵向量 - 並找到相對相似性。

來源

2016-06-18 23:23:17 javadba

文本類型自變量爲數字類型spark樸素貝葉斯

回答

相關問題