2016-07-26 96 views
-3

如何使用波紋管訓練數據將新數據集分爲A類和B類?如何分類數據集?

  1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 class 
Dataset 1 42 13 22 324 270 96 107 93 80 228 A 
Dataset 2 45 23 14 596 445 135 153 124 132 331 A 
Dataset 3 42 22 16 479 407 130 150 121 128 342 A 

Dataset 4 37 63 10 481 397 155 143 159 172 394 B 
Dataset 5 46 18 10 387 356 127 118 129 136 359 B 
Dataset 6 23 34 9 550 436 147 166 164 208 467 B 

如果有一個方程可以分割數據集,那將是非常理想的。

例如,如果1.0 +#0.9#比55高是A類(這可能是錯誤的,但這樣的事情)

+0

想到的第一個想法是:使用裝袋/助推使10個分類器中的每一個都基於平均值進行投票。 http://stats.stackexchange.com/questions/18891/bagging-boosting-and-stacking-in-machine-learning – Babyburger

回答

1

如果你熟悉分類的任務,它的任務可以用做幾乎所有的分類算法如SVM,NN,C4.5,ID3,Random Forest和..

但是對於表述看看Logistic迴歸:https://en.wikipedia.org/wiki/Logistic_regression。它的分類數據集2(例如:正面,負面)類

對於implenetation,看看蟒蛇scikit線性模型,邏輯迴歸: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html這裏:http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression

X = [[...]] #your datasets list of lists(matrix) 
y = [...] #your labels list 
from sklearn.liner_mode import LogisticRegression 
clf = LogisticRegresion() 
clf.fit(X,y) 

這個例子也可以很好:http://scikit-learn.org/stable/auto_examples/linear_model/plot_iris_logistic.html

0

你也可以使用樸素貝葉斯來預測數據集的類別,通過使用樸素貝葉斯你可以得到每個類的概率,所以在你舉例說明你會得到數據集1的概率爲70% B類爲30%

根據您例如,你需要使用類列作爲你的標籤欄和和0.1 & 0.9爲你配備了列

與您的數據,便於

運行我花了== 1 &乙== 2本運行 enter image description here