考慮這裏給出的代碼之前並行化序列,我們應該並行化數據幀像我們培訓
https://spark.apache.org/docs/1.2.0/ml-guide.html
import org.apache.spark.ml.classification.LogisticRegression
val training = sparkContext.parallelize(Seq(
LabeledPoint(1.0, Vectors.dense(0.0, 1.1, 0.1)),
LabeledPoint(0.0, Vectors.dense(2.0, 1.0, -1.0)),
LabeledPoint(0.0, Vectors.dense(2.0, 1.3, 1.0)),
LabeledPoint(1.0, Vectors.dense(0.0, 1.2, -0.5))))
val lr = new LogisticRegression()
lr.setMaxIter(10).setRegParam(0.01)
val model1 = lr.fit(training)
假設我們讀到「培訓」爲使用sqlContext.read(一個數據幀),應 我們仍然這樣做
val model1 = lr.fit(sparkContext.parallelize(training)) // or some variation of this
或擬合函數將自動執行並行計算/數據時的護理通過一個數據幀
問候,