google-cloud-dataproc

0熱度

1回答

我有以下形式的DataFrame： +--------------+------------+----+ | s|variant_hash|call| +--------------+------------+----+ |C1046::HG02024| 83779208| 0| |C1046::HG02025| 83779208| 1| |C1046::HG02026| 8377

1熱度

1回答

請求認證範圍不足

我試圖在dataproc主節點上使用gcloud運行pyspark應用程序。我得到「請求認證範圍不足」 # gcloud dataproc jobs submit pyspark --cluster xxxxx test.py gcloud.dataproc.jobs.submit.pyspark) You do not have permission to access cluster

1熱度

1回答

如何在數據集羣上重新啓動hadoop服務

我可能搜索時使用了錯誤的術語，但Google並未告訴我如何執行此操作。問題是如何在更改一些配置文件（紗線屬性等）後在Dataproc上重新啓動hadoop服務？服務必須在整個集羣中按特定順序重新啓動。希望在Dataproc安裝中有足夠的腳本或工具，我可以調用它來重新啓動集羣。

0熱度

1回答

如何通過雲數據流中的自定義邏輯按鍵組

我試圖根據雲數據流管線中的自定義對象來實現Groupby鍵。 public static void main(String[] args) { Pipeline pipeline = Pipeline.create(PipelineOptionsFactory.create()); List<KV<Student,StudentValues>> studentList = ne

1熱度

1回答

在Google Dataproc中使用多個服務帳戶

我們可以在一個Dataproc集羣中使用多個服務帳戶嗎？比方說，我有3個桶：服務帳戶具有讀/寫訪問桶中，其中r訪問桶B和C.服務B賬戶有鬥B r的/ W訪問，其中r進入鬥A和C.服務帳戶C具有對C桶的r/w訪問權限，可以訪問bucket A和B 我可以使用服務帳戶D創建一個羣集，但使用上面定義的每個服務帳戶（ A，B和C）的工作內容是否可以正確訪問存儲桶？

0熱度

1回答

如何配置Hive在Google Dataproc上使用Spark執行引擎？

我試圖配置Hive，在Google Dataproc鏡像v1.1（如Hive 2.1.0和Spark 2.0.2）上運行，使用Spark作爲執行引擎而不是默認的MapReduce。按照這裏的說明https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started並不真的有幫助，當我設置hive.exec

0熱度

1回答

Dataproc節點設置

我知道谷歌dataproc集羣配備處理初始化操作 - 這是在創建每個節點時執行的。但是，這對於小型操作來說只是合理的，並且對於創建具有大量管道依賴和節點軟件的節點並不會很好。因此，我想知道 - 有沒有辦法將節點加載爲自定義映像，或者在創建了所有安裝的節點後啓動映像，因此您不必一次又一次下載內容。

0熱度

2回答

如何使用雲外殼的Jupyter筆記本連接到Dataproc羣集

我已經在這裏看到了使用Dataproc設置Jupyter筆記本的說明https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook，但我無法弄清楚如何改變進程以便使用雲外殼在本地創建SSH隧道。我已經從雲shell中運行 datalab connect vmname ，然後使用預覽功能已經能夠連接到datalab筆記本。我想要

0熱度

2回答

在停止羣集後，無法在Google Cloud Dataproc羣集上重新打開Jupyter筆記本電腦

我使用Google Cloud Dataproc運行Jupyter筆記本（按照以下說明操作：https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook）。我運行了一個筆記本，保存了它，然後在稍後的某個時候停止了集羣（使用GUI）。再後來我重新啓動集羣，並試圖用相同的指令再次運行Jupyter筆記本，但在最後一步，當我嘗試在C

0熱度

2回答

錯誤：在谷歌數據PROC集羣

我正在蜂巢插入從具有 13783531 記錄到另一個分區表沒有任何改造的表覆蓋谷歌dataproc羣集上查詢Java堆空間。，其失敗，錯誤 Diagnostic Messages for this Task: Error: Java heap space FAILED: Execution Error, return code 2 from org.apache.hadoop.hiv