0
A
回答
0
如果您的數據是RDD,您可以撥打方法:saveAsLibSVMFile(rdd, path)
它是apache.spark.mllib.util.MLUtils
包的一部分。
對於官方文檔看:https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.util.MLUtils $
這裏是Scala的例子假設你已經將您的分類數據爲二進制的特點:(你可以做同樣的Python或Java的太)
val responseData=sc.textFile("response.txt")
val responseValue = responseData.map(line => line.trim().split(" ").map(_.toDouble))
val featuresData=sc.textFile("features.txt")
val featuresValue = featuresData.map(line => {
val featureInt = line.trim().toInt
})
val data = featuresValue.zip(featuresData).map(
line => LabeledPoint(line._1, Vectors.dense(line._2))
)
saveAsLibSVMFile(data, "data.libsvm")
如果你想要的PySpark版本,沒有測試過這個,但類似:
from pyspark.mllib.linalg import SparseVector
from pyspark.mllib.regression import LabeledPoint
responseData=sc.textFile("response.txt")
responseValue = responseData.map(lambda line: map(lambda x: Decimal(x), line.strip().split(" ")))
# for clarity you can also extract the lambda into a function
featuresData=sc.textFile("features.txt")
featuresValue = featuresData.map(lambda line: Int(line.strip()))
mtx = zip(featuresValue.collect(),featuresData.collect())
data = map(lambda line: LabeledPoint(line[0], Vectors.sparse(line[1]), mtx))
saveAsLibSVMFile(data, "data.libsvm")
相關問題
- 1. Apache Spark決策樹預測
- 2. 決策樹在樹決策中保持使用Y變量
- 3. 如何使用Spark決策樹調整分類閾值
- 4. 使用Apache Spark決策樹分類器進行多類分類時出錯
- 5. 帶LIBSVM數據錯誤的Spark決策樹
- 6. 完美的決策樹分類
- 7. 決策樹的文檔分類
- 8. 多變量決策樹學習
- 9. SKLearn決策樹分類深度/訂購
- 10. 如何處理spark tree中的決策樹,隨機森林的分類特徵?
- 11. 處理決策樹的分類特徵的策略?
- 12. 帶數值的ID3決策樹
- 13. 在帶有字符串字段的spark中使用決策樹分類器的數據框
- 14. 決策樹中的Shannon熵度量
- 15. 來自決策樹的假設數量?
- 16. Python決策樹 - 創建包含變量名稱的決策樹的圖形表示
- 17. 決策樹問題解決
- 18. 執行決策樹
- 19. 決策樹修剪
- 20. 修剪決策樹
- 21. 決策樹組件
- 22. weka決策樹java
- 23. 建模決策樹
- 24. 增量式決策樹C++實現
- 25. Classifcation /決策樹和選擇拆分
- 26. 如何將我的決策樹分類器變爲手動過程?
- 27. 當不以規則爲基礎的分類優於決策樹?
- 28. 該任務的決策樹相關分類?
- 29. 使用scikit的多輸出分類決策樹
- 30. 如何處理決策樹中的多個分類特徵?
什麼是features.txt只有分類數據或所有功能?並將代碼與刪除python中的所有「val」一起工作。 –
所有功能。我假設你已經將分類改爲二元特徵。該代碼需要修改才能使用PySpark –
謝謝。我做了一些改變,但我得到了一些錯誤的zip說,「zip參數必須支持迭代。我也試圖通過刪除zip字,但然後錯誤是地圖()必須有至少2個參數。請幫助。 –