2017-08-13 74 views

回答

1

EMR步驟是描述你想如何提交火花罐的地方。

當您創建新的數據管道時,您可以選擇「使用模板構建」選項,然後選擇「在彈性MapReduce集羣上運行作業」。

現在在EmrActivity中,您應該描述您要提交的步驟(如果需要,也可以運行多個步驟)。

你可以閱讀這個AWS EMR Spark Step Guide以瞭解步驟是什麼。簡而言之,它是描述如何提交火花作業的地方。

請注意,雖然在數據管道上出於某些不明確的原因,您需要在步驟中用','替換空格。這裏是一個火花一步我就datapipeline跑了一個例子:

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments> 

我留下了一些我的配置,所以,你可以明白的地方使用它們,我更換了一些與<「文本」>這樣你就可以切換附上您自己的信息

+0

謝謝!它幫助我們爲我們的數據管道編寫步驟。我們實際上遇到了幾個問題,我們的EMR火花實例與我們的工作不兼容。它花了一段時間,但我們能夠弄清楚。 –