2015-10-06 84 views
1

我想使用AWS Data Pipeline來執行ETL過程。 假設我的進程有一個小輸入文件,並且我想使用自定義的jar或python腳本來進行數據轉換。我沒有看到有任何理由使用集羣EMR來完成這個簡單的數據步驟。所以,我想在EC2單個實例中執行這個數據步驟。使用AWS數據管道 - EMR vs EC2

查看EMRActivity對象上的AWS DataPipeline,我只看到使用EMR集羣運行的選項。 有沒有辦法在EC2實例中運行計算步驟? 這是用例的最佳解決方案嗎? 還是設置一個小EMR(使用單個節點)並執行hadoop作業會更好?

回答