2017-05-31 96 views
1

我們的數據流作業讀取GS文件夾兩個文本文件,將它們轉換,並將其寫入BigQuery資料集之前,將它們合併與合併步驟之前失敗:無法重命名輸出文件

Unable to rename output files from gs://xxx to gs://xxxx

看起來臨時文件在合併開始之前就被刪除了?

+0

你能分享你的管道代碼嗎? –

+0

您使用的是什麼版本的Dataflow SDK?你正在寫的GCS桶是否有任何類型的TTL?有沒有可用的職位ID,我們可以查看更多詳細信息? –

+0

管道: 'collection1 = load_all_from_tsv(PATH1) collection2 = load_all_from_tsv(PATH2) ((collection1,collection2) | 'Flaten既' >> beam.Flatten() | '格式行' >> beam.FlatMap( ourFormattingFunction) | '寫的BigQuery' >> beam.io.Write( beam.io.BigQuerySink( 'project.outputdataset', 模式=架構, create_disposition = beam.io.BigQueryDisposition.CREATE_IF_NEEDED, write_disposition = beam.io.BigQueryDisposition.WRITE_APPEND )) )' –

回答

1

發現問題! 兩個FlatMap函數之一由於數據格式不正確而失敗。提示任何其他人都會遇到類似問題:首先使用DirectRunner調試所有map/pardo/etc函數!