2016-06-17 37 views
1

我懷疑與數字和非數字功能的樸素貝葉斯。就像我有5個獨立的獨立參數對這些我想分類數據。文本類型自變量爲數字類型spark樸素貝葉斯

男,酒精,平日,12 am-4am,75,30-39 男,移動交通違章,工作日,12 am-4am的嫌疑,0,20-24 男,酒精的懷疑,週末,4上午上午12點 - 下午4點,0,20-24 男,懷疑酒精,平日,上午12點 - 凌晨4點,0,50-59 男,道路交通碰撞,平日下午12點至下午4點0,25-29 男,道路交通碰撞,平日,晚上8點至12點,其他 男性,其他,平日上午8點至下午12點,23,60-69 男性違規行駛,週末,下午12點至4點,26,30-39 女性,道路交通碰撞,週末,上午4點 - 上午8點,61,16-19 男性,移動交通違規,週末,4p m-8pm,74,25-29 男,道路交通碰撞,工作日,上午12點至早上4點,其他 男,違規行駛,平日,晚上8點至12點,0,16-19 男,道路交通碰撞,其他 男性,移動交通違規,週末,上午4點 - 上午8點,0,30-39

您可以看到一些參數是數字,一些是非數字的。任何知道如何將非數字數據轉換爲數字數據。

  1. 如何轉換非數字到數字
  2. 如果我使用TF那麼這將是正確與否
  3. 如果TF是正確的,那麼爲什麼

回答

0

您可以用下面的啓動:

  • 通過應用factorizer將每個特徵轉換爲分類值。一個例子:

  • 特徵1:男性= 0女= 1

  • 特徵2:酒精= 0碰撞= 1動-違反= 2
  • ..

等。

一個「列」的每個不同的可能值在分解結果中應該有其自己的具體數字表示。希望像4pm-8pm這樣的東西不重疊:但是如果他們是你可以從忽略那個細節開始,並且稍後在時間允許的情況下做一些更智能的手動特徵化。

輸入中的每個條目/行都由十幾個「功能」組成。然後,您可以創建每行的特徵向量。結果現在是tf-idf ready(TM)。您可以將NB算法應用於新近鑄造的特徵向量 - 並找到相對相似性。