2017-03-15 88 views
0

我們使用谷歌的BigQuery星火連接器導入存儲在文件拼花BigQuery內的數據忽略未知值。使用自定義工具,我們生成了BigQuery所需的模式文件,並在我們的導入代碼(Scala)中引用它。谷歌的BigQuery星火連接器:如何在追加

然而,我們的數據並沒有真正遵循固定和明確的架構,並在某些情況下,附加列可以被添加到個人數據集。這是使用命令行工具bq我們幾乎總是用--ignore_unknown_values否則許多進口將失敗與BigQuery實驗時爲什麼。

不幸的是,我們無法找到使用BigQuery星火連接器com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2同等配置選項。它存在嗎?

回答

0

這不幸的是目前尚未通過連接管道連接,即使我們現在添加它的正式發佈將需要數週才能到處部署。我filed an issue跟蹤GitHub的倉庫這個功能要求。與此同時,如果您想要構建自己的連接器版本,則可以顯式編輯JobConfigurationLoad設置,如果您使用的是較舊的「直接輸出格式」,則可以在BigQueryRecordWriter之間編輯;如果您使用的是BigQueryHelper使用較新的「間接輸出格式」,並添加一行如下:

loadConfig.setIgnoreUnknownValues(true); 
+0

Thx用於說明。我們將考慮修補連接器。 –