2016-11-10 34 views
0

的火花VectorAssemblerhttp://spark.apache.org/docs/latest/ml-features.html#vectorassembler產生以下輸出火花管道矢量彙編下降等欄目

id | hour | mobile | userFeatures  | clicked | features 
----|------|--------|------------------|---------|----------------------------- 
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0  | [18.0, 1.0, 0.0, 10.0, 0.5] 

,你可以看到最後一欄包含了所有以前的功能。如果其他列被移除,它是更好還是更高效?只有標籤/ ID和功能被保留,或者這是一個不必要的開銷,只需將標籤/ ID和功能添加到估算器就足夠了?

VectorAssembler在流水線中使用時會發生什麼?如果原始列未被手動刪除,只會使用最後一個要素,否則會引入共線性(重複列)?

+0

請解釋爲什麼downvote。 –

回答

1

請仔細閱讀文檔。每個分類器都通過功能列進行參數設置(featuresCol)。它不考慮任何其他列或列的順序。