google-cloud-dataflow

0熱度

1回答

昨天我開始了Google-Dataflow的工作，通常運行時間大約10-30分鐘。它今天早上還在運行。當查看堆棧驅動程序時，我看到一個作業日誌的重複循環： I Refused to split GroupingShuffleReader <at position ShufflePosition(base64:AAAABOA3nVgAAQ) of shuffle range [ShufflePosi

0熱度

2回答

工作流失敗。原因：（35af2d4d3e5569e4）：數據流似乎卡住

我正在使用Google Dataflow Service爲ETL運行一些apache-beam腳本。最初完成需要4-5分鐘才能完成的作業，但是現在一小時後它們會失敗並出現以下錯誤。工作流失敗。原因：（35af2d4d3e5569e4）：Dataflow似乎卡住了。看來，這項工作並沒有真正開始。我正在通過使用Python SDK 2.1.0執行它作爲this問題的答案切換SDK的問題，我嘗試

0熱度

1回答

從數據流1.9到2.0/2.1的意外行爲更改

對於非常簡單的管道，我們發現Dataflow SDK 1.9和2.0/2.1之間存在非常奇怪的差異。我們有CoGroupByKey步驟，通過它們的鍵連接兩個PCollections並輸出兩個PCollections（通過TupleTags）。例如，一個PCollection可能包含{「str1」，「str2」}，另一個可能包含{「str3」}。這兩個PCollections被寫入GCS（位於不

0熱度

1回答

無效的日期時間錯誤，而試圖從數據流

插入datetime值至BigQuery我們寫了插入值到BigQuery的表，其列是DateTime類型的谷歌數據流的代碼。大部分時間邏輯運行良好。但突然我們得到無效的DateTime問題。 Exception: java.lang.RuntimeException: java.io.IOException: Insert failed: [{"errors":[{"debugInfo":"g

0熱度

1回答

從扳手讀取谷歌數據流

我想從谷歌的扳手數據庫中讀取表格，並將其寫入文本文件做一個備份，使用谷歌數據流與python sdk。我寫了下面的腳本： from __future__ import absolute_import import argparse import itertools import logging import re import time import datetime as dt

1熱度

1回答

Apache Beam窗口和分片BigQuery輸出表格

我的用例很簡單：從Pub/Sub訂閱中讀取事件日誌，解析它們並保存到BigQuery中。由於事件數量預計會顯着增加，我使用無限數據源，因此我決定在BigQuery中配置分片：根據事件數據的時間戳將事件存儲到日常表格中（Beam文檔中稱爲「事件時間」），。我的問題是我需要配置窗口在我的情況下，或者我可以保留隱式使用全局窗口的默認配置？我問的原因是因爲我發現大部分BigQuery分片的例子都假設

1熱度

1回答

數據流模板中的動態bigquery查詢

我寫了一個Dataflow作業，當我手動運行它時效果很好。下面是相關部分（爲清楚起見移除了一些驗證碼）： parser.add_argument('--end_datetime', dest='end_datetime') known_args, pipeline_args = parser.parse_known_args(argv) query = <redacted

0熱度

1回答

阿帕奇梁Python的依賴

我有我要在Apache梁管道與數據流轉輪內使用本地Python包。我試圖按照文檔中提供的說明：https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/（部分本地或非PyPI將依賴），但沒有成功。我的包具有以下結構： my_common ├── __init__.py └── shared ├─

2熱度

1回答

Beam - 會話窗口無法按預期發送結果

我正在構建一個將在Google Cloud Dataflow中運行的Apache Beam（v2.0）管道。預期流程如下：來自Pub/Sub的事件流（無界數據源）。它們是簡單的JSON對象，具有sessionId屬性。使用自定義的DoFn事件到KV<String, String>，其中他們的關鍵是sessionId並且該值是整個JSON對象。使用會話窗口的窗口事件（開發時間間隔爲2秒，生產時

0熱度

1回答

GCP Dataflow-從存儲讀取CSV文件，寫至BigQuery

我在存儲CSV文件，我想讀它，並將其寫入BigQuery資料表。這是我的CSV文件，其中第一行是標題： GroupName,Groupcode,GroupOwner,GroupCategoryID System Administrators,sysadmin,13456,100 Independence High Teachers,HS Teachers,,101 John Glenn Mi