google-hadoop

0熱度

1回答

在正常運行中一個可以提供加密密鑰，以谷歌的存儲API來加密給定存儲桶/ BLOB： https://cloud.google.com/compute/docs/disks/customer-supplied-encryption 這是可能的火花/ Hadoop作業的「對飛」輸出？說我們要加密的火花的輸出寫入 df.write().format("json").save("gs:///somebu

2熱度

1回答

以有效的方式從BigQuery讀取Spark到Spark中？

當使用BigQuery Connector從BigQuery中讀取數據時，我發現它首先將所有數據複製到Google Cloud Storage。然後將這些數據並行讀入Spark，但在讀取大表時，複製數據階段需要很長時間。那麼是否有更高效的方式將BigQuery中的數據讀入Spark？另一個問題：從BigQuery中讀取2個階段（複製到GCS，從GCS並行讀取）。受Spark集羣大小影響的複製階段

0熱度

1回答

調用Spark時，刪除的Google存儲目錄顯示「已存在」DataFrame.saveAsParquetFile（）

當我通過Google Cloud Console刪除Google Cloud Storage目錄後（該目錄由早期的Spark（ver 1.3.1）作業生成），當重新執行這項工作時，它總是失敗，似乎該目錄仍然存在;我找不到gsutil的目錄。這是一個錯誤，或者我錯過了什麼？謝謝！我得到的錯誤： java.lang.RuntimeException: path gs://<my_bucket>/

0熱度

1回答

如何在創建基於Google雲的hadoop啓用羣集後更改默認存儲桶？

當我創建一個基於谷歌雲的hadoop啓用羣集後，我想將默認存儲區更改爲另一個存儲區，我該怎麼做？我無法在Google雲計算中找到答案。謝謝！

9熱度

1回答

無法使用來自Spark的GSC連接器連接Google存儲文件

我在本地機器上寫了一個Spark作業，該作業使用谷歌雲端存儲從Google雲端存儲中讀取該文件，如gs：//storage.googleapis.com/ as在https://cloud.google.com/dataproc/docs/connectors/cloud-storage中提到我已設置服務帳戶具有計算引擎和存儲權限。我的火花配置和代碼是 SparkConf conf = new

0熱度

1回答

GCS - 全球一致性與刪除+重命名

我的問題可能是我對谷歌存儲全球一致性的誤解的結果，但由於我直到最近（11月中旬）纔有過這個問題，現在看起來很容易重現，所以我想要澄清一下。這個問題發生在使用bdutil運行在計算引擎上的一段spark代碼中，但是我可以使用gsutil從命令行重現。我的代碼正在刪除目標路徑，然後立即將源路徑重命名爲目標路徑。由於目標路徑不再存在，因此在全局一致性的情況下，由於目標路徑不再存在，因此src將被重命名

0熱度

1回答

谷歌的BigQuery星火連接器：如何在追加

我們使用谷歌的BigQuery星火連接器導入存儲在文件拼花BigQuery內的數據忽略未知值。使用自定義工具，我們生成了BigQuery所需的模式文件，並在我們的導入代碼（Scala）中引用它。然而，我們的數據並沒有真正遵循固定和明確的架構，並在某些情況下，附加列可以被添加到個人數據集。這是使用命令行工具bq我們幾乎總是用--ignore_unknown_values否則許多進口將失敗與BigQ

1熱度

1回答

使用hadoop FileSystem api訪問谷歌雲存儲

在我的機器上，我配置了hadoop core-site.xml來識別gs：//方案，並將gcs-connector-1.2.8.jar添加爲hadoop庫。我可以運行hadoop fs -ls gs://mybucket/並獲得預期結果。但是，如果我嘗試從Java做模擬使用： Configuration conf = new Configuration(); FileSystem fs = Fil

0熱度

1回答

Hive將INSERT覆蓋到Google Storage，因爲LOCAL DIRECTORY不工作

我使用以下Hive查詢：配置單元> INSERT覆蓋本地目錄「gs：// Google/Storage/Directory/Path/Name」行格式分隔的字段以' ，' select * from。; 我正在以下「錯誤：與異常錯誤FS失敗：」 GS：//谷歌/存儲/目錄/路徑名」，預計：文件：/// 什麼可能我是做錯了什麼？

0熱度

1回答

用於Hadoop的Google Cloud連接器不適用於Pig

我使用HDFS 2.7.1.2.4和Pig 0.15.0.2.4（Hortonworks HDP 2.4）的Hadoop並嘗試使用Google Cloud Storage Connector for Spark and Hadoop（GitHub上的bigdata-interop）。它工作正常，當我嘗試，比方說， hadoop fs -ls gs://bucket-name 但是當我嘗試在豬