amazon-emr

0熱度

1回答

我正在使用EMR-5.9.0，並且在更改了一些配置文件之後，我想重新啓動服務以查看效果。我怎樣才能做到這一點？我嘗試使用列表initctl的查找服務的名稱，如我在其他的答案，但沒有運氣看到...

0熱度

1回答

我有以下文件夾中HDFS： hdfs://x.x.x.x:8020/Air/BOOK/AE/DOM/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/AE/INT/20171001/2017100101 hdfs://x.x.x.x:8020/Air/BOOK/BH/INT/20171001/2017100101 hdfs://x.x.x.x:

0熱度

1回答

Hive合併小ORC文件

我的輸入包含大量的小ORC文件，我希望在一天的每一天結束，我想將數據拆分爲100MB的塊。我的輸入和輸出都是S3和環境中使用的電子病歷，蜂巢參數，正在設置， set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

1熱度

1回答

如何在設置DataPipeline以將DynamoDB數據導出到S3時計算'DynamoDB讀取吞吐量比率'

我有一個帶有〜16M記錄的DynamoDB，其中每個記錄的大小爲4k。該表配置爲自動調節目標利用率：70％，讀取的最小配置容量：250和寫入的最大配置容量：3000. 我試圖設置數據管道將DynamoDB備份到S3。管道配置要求爲Read Throughput Ratio，默認情況下爲0.25。所以問題是如何計算Read Throughput Ratio備份大約1小時的表。我瞭解讀取容量單位。

1熱度

1回答

Spark EMR S3處理大量文件

我在S3中存在大約15000個文件（ORC），其中每個文件包含幾分鐘的數據和每個文件的大小在300-700MB之間變化。由於遞歸循環YYYY/MM/DD/HH24/MIN格式的目錄非常昂貴，我創建了一個包含給定日期的所有S3文件列表的文件（objects_list.txt）並傳遞此文件作爲輸入到火花讀API val file_list = scala.io.Source.fromInputStre

1熱度

1回答

使用boto3將現有EMR羣集複製到新羣集

使用boto3創建新羣集時，我想使用現有羣集（已終止）的配置並將其克隆。據我所知，emr_client.run_job_flow要求提供所有配置（Instances, InstanceFleets etc）作爲參數。有沒有什麼辦法可以從現有的羣集中進行克隆，就像我可以從ews的aws控制檯那樣進行克隆。

1熱度

2回答

當羣集大小很大時，Spark作業失敗，小時成功

我有一個需要三個輸入並執行兩個外部連接的spark任務。數據採用鍵值格式（String，Array [String]）。代碼的最重要的部分是： val partitioner = new HashPartitioner(8000) val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(inputRdd3, partitioner

6熱度

1回答

如何調整EMR上的火花作業，以便在S3上快速寫入大量數據

我有一個火花作業，我正在做兩個數據框之間的外連接。第一個數據幀的大小爲260 GB，文件格式爲文本文件，分割爲2200個文件，第二個數據幀的大小爲2GB。將這兩個文件加載到數據框本身需要10分鐘。然後將大約260 GB的數據幀輸出寫入S3大約需要1個小時。這是我的集羣信息。 emr-5.9.0 Master:1m3.2xlarge Core:c3.4large 5 machines

0熱度

2回答

失敗使用Spark在EMR

當AWS-EMR執行我的星火工作我試圖讀取從S3存儲Avro的文件時，這個錯誤從S3閱讀的Avro：這一點與版本： EMR - 5.5 0.0 EMR - 5.9.0 這是代碼： val files = 0 until numOfDaysToFetch map { i => s"s3n://bravos/clicks/${fromDate.minusDays(i)}/*" } sp

0熱度

1回答

pyspark模塊不可用於spark正在使用的python實例

我正在使用我自己沒有在AWS中設置的EMR。我想了解Python解釋器的火花是使用在我的.bashrc我有以下設置export PYSPARK_PYTHON=/mnt/anaconda/bin/python 當我運行我們的火花提交命令我用sys.executable打印到路徑python解釋器，這確實是它使用的解釋器。然而，當我專門去到該文件夾，運行Python的該實例與./python，