amazon-emr

    0熱度

    3回答

    我在AWS中很新。我計劃使用HBase作爲我係統的數據庫,並將其安裝在EC2上,並將其安裝在S3上的實際數據文件中,因爲它的存儲成本更低,並且與EMR良好集成。我不希望僅將Amazon EMR用於全天候提供的HBase,並避免額外成本。但稍後將用於某些分析。任何想法如何配置HBase這樣的設置?

    0熱度

    1回答

    我需要從我的EMR Spark作業中調用外部進程。我看到rdd.pipe將允許我將RDD傳遞給進程。 (順便說一句,每個RDD有一個進程,還是每個元素有一個進程?)。 但是,我的外部進程需要一個文件名作爲輸入並生成一個文件作爲輸出。 如何調用此外部進程,然後將輸出文件加載爲RDD?

    2熱度

    1回答

    我正在使用EMR 5.0和Spark 2.0.0。 我試圖用org.apache.spark.launcher.SparkLauncher 我需要使用setSparkHome設置SPARK_HOME運行從斯卡拉火花申請孩子的火花應用: var handle = new SparkLauncher() .setAppResource("s3://my-bucket/python_code.

    0熱度

    2回答

    AWS EMR 5.0包含Spark: Spark 2.0.0 on Hadoop 2.7.2 YARN with Ganglia 3.7.2 and Zeppelin 0.6.1預包裝,但Zeppelin 0.6.1僅支持Spark 1.6.x.有沒有辦法解決版本差異而無需構建和部署定製版本的Zeppelin?

    1熱度

    2回答

    使用hadoop我可以使用s3作爲存儲網址。但目前我有很多應用程序使用hdfs://...,我想將整個羣集和應用程序遷移到EMR和s3。我是否必須將每個應用程序中的url從hdfs://...更改爲s3://...或者是否可以通過某種方式告訴EMR在s3上存儲hdfs內容,以便每個應用程序仍然可以使用hdfs://...但實際上它會指向s3?如果是這樣,怎麼樣?

    0熱度

    1回答

    如何通過SSL將作業從EMR羣集連接到Aurora?在論壇上散佈着大量的信息,爲這個問題帶來部分解決方案,所以我在這裏總結一下。

    0熱度

    1回答

    我正在嘗試將使用ami 3.x的遺留mapreduce管道遷移到ami 4.x.它目前有bash腳本作爲引導的一部分,其中一個叫hadoop fs-get s3n://somefile ~/otherfile。這在我目前向ami 4.x遷移的嘗試中失敗了。並且添加ls /home/hadoop/bin該腳本顯示目錄/home/hadoop/bin不存在,因此當然不存在二進制/home/hadoop

    3熱度

    1回答

    我正在嘗試登錄到Amazon EMR Spark羣集中。下面是我所做的: 獲取集羣主機的IP: aws emr describe-cluster --cluster-id <cluster_id> | grep MasterPublicDnsName 使用IP ssh到盒子: ssh -i CSxxx.pem [email protected] 我被陷在這裏,作爲跑步(2)給我以下錯誤:

    1熱度

    1回答

    我遇到了一個問題,並想到了一個問題,我沒有找到一個好的答案。那就是,我如何故意使AWS EMR步驟失敗? 我有一個Spark Scala腳本,作爲Spark步驟添加一些命令行參數,腳本的輸出寫入S3。 但是,如果在讀取和處理命令行參數時出現問題,則會跳過該腳本的邏輯並結束腳本。但是對於EMR這是正常的行爲,它不知道沒有輸入if塊。 並且在「失敗」運行後,步驟狀態仍然變爲「完成」,並且看起來成功而沒

    1熱度

    1回答

    我試圖部署Spark 2.0 StreamingAmazon EMR 5.0。 似乎應用陷在無限循環INFO客戶端日誌 「的無限循環‘:申請報告application_14111979683_1111(狀態:接受)。’ 然後退出 這裏是我如何努力deploy- - AWS EMR添加步驟--cluster-ID --steps 類型=星火,名稱= 「星火計劃 」,ActionOnFailure =