amazon-emr

    0熱度

    1回答

    2小時後,spark工作正在運行,將一些tgz文件轉換爲實木複合地板。 作業新數據追加到現有的實木複合地板在S3: df.write.mode("append").partitionBy("id","day").parquet("s3://myBucket/foo.parquet") 在火花提交輸出,我可以看到顯著的時間花費在閱讀舊地板的文件,例如: 16/11/27 14:06:15信息S3

    1熱度

    1回答

    我在S3存儲桶中有一個數據幀,分爲8個csv文件,每個文件709.7MB。 我創建了一個包含8個節點(r3.4xlarge:16個vCPU,122個RAM和320個磁盤)的EMR集羣。 我的星火配置: num-executors='23' executor-memory='34G' executor-cores='5' 我寫這篇文章的Python腳本加載我的數據框: df = sqlCon

    2熱度

    1回答

    我正嘗試在所有從屬機器上使用pip install來更新正在運行的EMR羣集。我怎樣才能做到這一點? 我不能用bootstrap步驟來做,因爲它是一個長時間運行的EMR,我不能把它取下來。 EMR集羣正在運行Spark &紗線,所以我通常會使用spark slaves.sh,但我無法在主節點上找到該腳本。它安裝在我還沒找到的地方嗎?或者有什麼方法可以安裝它? 我見過其他問題說使用yarn分佈式sh

    0熱度

    1回答

    我的Apache Spark應用程序獲取各種輸入文件並將結果和日誌存儲在其他文件中。輸入文件與預計在亞馬遜雲上運行的應用程序一起提供(EMR似乎優於EC2)。 現在,我知道我應該創建一個包含我的輸入文件和訪問它們的應用程序的超級jar。但是,一旦執行完成,我如何從雲中檢索生成的文件? 作爲附加信息,使用代碼中的相對路徑創建和寫入文件。

    2熱度

    1回答

    我有以下情形: 我在一家大公司工作。 我們有一個運行在YARN上的Spark/Hadoop堆棧的EMR集羣。 我可以通過SSH連接到集羣的主節點,然後從那裏創建Spark shell或者Spark任務,並將其提交給Spark集羣,沒有任何問題。 但是,我想在我公司的服務器上運行Spark客戶端,因爲我們的所有代碼庫都位於那裏,因此我有能力在該服務器上進行主動開發,因爲我可以克隆並推送到位於該服務器

    0熱度

    1回答

    我有一堆存儲在Amazon S3中的小型(1KB到1MB)文本文件,我想使用Amazon EMR的Hadoop進行處理。 爲映射器提供的每條記錄都需要包含文本文件的全部內容以及某種確定文件名的方法,所以我不能使用默認的TextInputFormat。 完成此操作的最佳方法是什麼?還有什麼我可以做的(如將文件從S3複製到hdfs)來提高性能?

    0熱度

    1回答

    我們計劃從In Cloudera集羣遷移到AWS EMR。該計劃是將數據存儲在S3中,並使用EMR Hive處理它們。我們有很多訪問數據的業務用戶。 目前我們使用sentry進行授權我們在AWS EMR中使用相似的東西。 EMR是否支持Hive的基於哨兵的授權?

    1熱度

    1回答

    IM使用EMR和想用jupyter(IPython中),所以我添加到集羣自舉操作: S3://elasticmapreduce.bootstrapactions/ipython-notebook/install-ipython-notebook 我執行端口調諧從我的本地主機訪問jupyter,並且工作正常,但它要求輸入登錄密碼,嘗試空,嘗試hadoop,但沒有運氣,是否有任何機構知道jypyter

    0熱度

    1回答

    我有一個使用AWS EMR運行pispark集羣的進程。 我有一個S3位置所有的進程日誌被存儲。 我想明白,有沒有一種方法可以過濾掉ERROR日誌,並將它們郵寄到我的收件箱中。我不想在系統上保存任何日誌文件。 是否有任何python庫可以幫助我監控實時日誌。我已經看到了boto3和EMR庫,但我從那裏找不到我的問題的答案。

    -1熱度

    1回答

    我有關於CDH hdfs的數據,我想將其移至Amazon S3存儲桶,以便我可以在AWS EMR而不是CDH上運行代碼。 如何安全快速地移動它? 我可以用s3a命令或其他有效的方法來做到嗎?