google-hadoop

    3熱度

    1回答

    使用SparkR,我試圖讓PoC收集從包含大約4M行的文本文件創建的RDD。 我的Spark羣集在Google Cloud中運行,並且由bdutil進行部署,由1個主服務器和2個工作服務器組成,每個服務器有15GB的RAM和4個內核。我的HDFS存儲庫基於帶有gcs-connector 1.4.0的Google Storage。在每臺機器上安裝SparkR,基本測試正在處理小文件。 這裏是我使用的

    1熱度

    2回答

    我剛剛安裝了Google Cloud platform進行免費試用。爲了與DataStore運行MapReduce任務時,docs說運行 ./bdutil --upload_files "samples/*" run_command ./test-mr-datastore.sh 但我不能讓我的本地文件,並有一個很好的理由,這種方式運行MapReduce工作似乎被棄用請參閱github。是的,是

    2熱度

    1回答

    使用Spark 1.1 我有2個數據集。一個非常大,另一個減小(使用一些1:100濾波)到更小的範圍。我需要通過將較小列表中的項目與較大列表中的對應項目(這些列表包含具有相互連接字段的元素)連接,將大數據集縮小至相同比例。 我做的是使用下面的代碼: 的 「如果(joinKeys!= NULL)」 部分是有關部分 小名單 「joinKeys」 大名單「keyedEvents 「 private st

    1熱度

    2回答

    我試圖在Google Compute Engine上使用command line option安裝自定義Hadoop實現(> 2.0)。是我bdutil_env.sh文件的修改參數如下: GCE_IMAGE='ubuntu-14-04' GCE_MACHINE_TYPE='n1-standard-1' GCE_ZONE='us-central1-a' DEFAULT_FS='hdfs' H

    0熱度

    1回答

    我們使用bdutil 1.1來部署Spark(1.2.0)羣集。然而,當我們啓動我們的火花腳本時,我們遇到了一個問題: py4j.protocol.Py4JJavaError: An error occurred while calling o70.registerTempTable. : java.lang.RuntimeException: java.lang.RuntimeExceptio

    1熱度

    1回答

    將Hadoop羣集同時連接到多個Google Cloud項目是可能的嗎? 如本線程Migrating 50TB data from local Hadoop cluster to Google Cloud Storage中所述,我可以通過Google雲端存儲連接器輕鬆地在單個Google項目中使用任何Google存儲桶。但是我找不到任何文檔或示例說明如何從單個地圖縮減作業連接到兩個或更多Googl

    0熱度

    1回答

    我使用bdutil在Hadoop(2.6)羣集上部署了Spark客戶端(1.3.1),默認情況下,實例是使用Ephemeral外部ips創建的,到目前爲止Spark的工作正常。考慮到一些安全問題,並假設集羣僅在內部訪問,我從實例中刪除了外部ips;在那之後,火花外殼甚至不會運行,並且似乎無法與Yarn/Hadoop通信,並且無限期地卡住。只有在我將外部ips加回來後,spark-shell才能正常

    0熱度

    1回答

    我們正在GCE上運行hadoop,使用HDFS默認文件系統以及從/到GCS的數據輸入/輸出。 的Hadoop版本:1.2.1 連接器版本:com.google.cloud.bigdataoss:GCS-連接器:1.3.0 hadoop1 觀察到的行爲:JT會積累線程等待狀態,導致OOM: 2015-02-06 14:15:51,206 ERROR org.apache.hadoop.mapred.

    1熱度

    1回答

    我正在Google Compute Engine的Hadoop集羣上測試一些MapReduce作業的縮放比例,並發現一些意外的結果。簡而言之,我被告知這種行爲可能是由Hadoop集羣中每個工作節點擁有多個reducer插槽來解釋的。 有人可以確認GCE Hadoop集羣上MapReduce作業的每個工作節點(worker VM)的reducer插槽數量嗎?我正在使用hadoop2_env.sh部署

    1熱度

    1回答

    我正在開始在谷歌雲計算引擎上運行Spark計算引擎,並使用bdutil部署(在GoogleCloudPlatform github上),我是這樣做如下: ./bdutil -e bigquery_env.sh,datastore_env.sh,extensions/spark/spark_env.sh -b myhdfsbucket deploy 我期待我可能要開始用2個節點的集羣(如默認值)