google-cloud-dataproc

    0熱度

    1回答

    我有以下形式的DataFrame: +--------------+------------+----+ | s|variant_hash|call| +--------------+------------+----+ |C1046::HG02024| 83779208| 0| |C1046::HG02025| 83779208| 1| |C1046::HG02026| 8377

    1熱度

    1回答

    我試圖在dataproc主節點上使用gcloud運行pyspark應用程序。我得到「請求認證範圍不足」 # gcloud dataproc jobs submit pyspark --cluster xxxxx test.py gcloud.dataproc.jobs.submit.pyspark) You do not have permission to access cluster

    1熱度

    1回答

    我可能搜索時使用了錯誤的術語,但Google並未告訴我如何執行此操作。問題是如何在更改一些配置文件(紗線屬性等)後在Dataproc上重新啓動hadoop服務? 服務必須在整個集羣中按特定順序重新啓動。希望在Dataproc安裝中有足夠的腳本或工具,我可以調用它來重新啓動集羣。

    0熱度

    1回答

    我試圖根據雲數據流管線中的自定義對象來實現Groupby鍵。 public static void main(String[] args) { Pipeline pipeline = Pipeline.create(PipelineOptionsFactory.create()); List<KV<Student,StudentValues>> studentList = ne

    1熱度

    1回答

    我們可以在一個Dataproc集羣中使用多個服務帳戶嗎? 比方說,我有3個桶: 服務帳戶具有讀/寫訪問桶中,其中r訪問桶B和C.服務B賬戶有鬥B r的/ W訪問,其中r進入鬥A和C.服務帳戶C具有對C桶的r/w訪問權限,可以訪問bucket A和B 我可以使用服務帳戶D創建一個羣集,但使用上面定義的每個服務帳戶( A,B和C)的工作內容是否可以正確訪問存儲桶?

    0熱度

    1回答

    我試圖配置Hive,在Google Dataproc鏡像v1.1(如Hive 2.1.0和Spark 2.0.2)上運行,使用Spark作爲執行引擎而不是默認的MapReduce。 按照這裏的說明https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started並不真的有幫助,當我設置hive.exec

    0熱度

    1回答

    我知道谷歌dataproc集羣配備處理初始化操作 - 這是在創建每個節點時執行的。但是,這對於小型操作來說只是合理的,並且對於創建具有大量管道依賴和節點軟件的節點並不會很好。因此,我想知道 - 有沒有辦法將節點加載爲自定義映像,或者在創建了所有安裝的節點後啓動映像,因此您不必一次又一次下載內容。

    0熱度

    2回答

    我已經在這裏看到了使用Dataproc設置Jupyter筆記本的說明https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook,但我無法弄清楚如何改變進程以便使用雲外殼在本地創建SSH隧道。我已經從雲shell中運行 datalab connect vmname ,然後使用預覽功能已經能夠連接到datalab筆記本。我想要

    0熱度

    2回答

    我使用Google Cloud Dataproc運行Jupyter筆記本(按照以下說明操作:https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook)。 我運行了一個筆記本,保存了它,然後在稍後的某個時候停止了集羣(使用GUI)。再後來我重新啓動集羣,並試圖用相同的指令再次運行Jupyter筆記本,但在最後一步,當我嘗試在C

    0熱度

    2回答

    我正在蜂巢插入從具有 13783531 記錄到另一個分區表沒有任何改造的表覆蓋谷歌dataproc羣集上查詢Java堆空間。 ,其失敗,錯誤 Diagnostic Messages for this Task: Error: Java heap space FAILED: Execution Error, return code 2 from org.apache.hadoop.hiv