火花管道矢量彙編下降等欄目

的火花VectorAssemblerhttp://spark.apache.org/docs/latest/ml-features.html#vectorassembler產生以下輸出火花管道矢量彙編下降等欄目

id | hour | mobile | userFeatures  | clicked | features 
----|------|--------|------------------|---------|----------------------------- 
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0  | [18.0, 1.0, 0.0, 10.0, 0.5]

，你可以看到最後一欄包含了所有以前的功能。如果其他列被移除，它是更好還是更高效？只有標籤/ ID和功能被保留，或者這是一個不必要的開銷，只需將標籤/ ID和功能添加到估算器就足夠了？

當VectorAssembler在流水線中使用時會發生什麼？如果原始列未被手動刪除，只會使用最後一個要素，否則會引入共線性（重複列）？

來源

2016-11-10 Georg Heiler

請解釋爲什麼downvote。 –

請仔細閱讀文檔。每個分類器都通過功能列進行參數設置（featuresCol）。它不考慮任何其他列或列的順序。

來源

2016-11-10 23:46:44

火花管道矢量彙編下降等欄目

回答

相關問題