google-cloud-dataflow

    0熱度

    1回答

    昨天我開始了Google-Dataflow的工作,通常運行時間大約10-30分鐘。它今天早上還在運行。當查看堆棧驅動程序時,我看到一個作業日誌的重複循環: I Refused to split GroupingShuffleReader <at position ShufflePosition(base64:AAAABOA3nVgAAQ) of shuffle range [ShufflePosi

    0熱度

    2回答

    我正在使用Google Dataflow Service爲ETL運行一些apache-beam腳本。 最初完成需要4-5分鐘才能完成的作業,但是現在一小時後它們會失敗並出現以下錯誤。 工作流失敗。原因:(35af2d4d3e5569e4):Dataflow似乎卡住了。 看來,這項工作並沒有真正開始。 我正在通過使用Python SDK 2.1.0執行它作爲this問題的答案切換SDK的問題,我嘗試

    0熱度

    1回答

    對於非常簡單的管道,我們發現Dataflow SDK 1.9和2.0/2.1之間存在非常奇怪的差異。 我們有CoGroupByKey步驟,通過它們的鍵連接兩個PCollections並輸出兩個PCollections(通過TupleTags)。例如,一個PCollection可能包含{「str1」,「str2」},另一個可能包含{「str3」}。 這兩個PCollections被寫入GCS(位於不

    0熱度

    1回答

    插入datetime值至BigQuery我們寫了插入值到BigQuery的 表,其列是DateTime類型的谷歌數據流的代碼。大部分時間邏輯運行良好。 但突然我們得到無效的DateTime問題。 Exception: java.lang.RuntimeException: java.io.IOException: Insert failed: [{"errors":[{"debugInfo":"g

    0熱度

    1回答

    我想從谷歌的扳手數據庫中讀取表格,並將其寫入文本文件做一個備份,使用谷歌數據流與python sdk。 我寫了下面的腳本: from __future__ import absolute_import import argparse import itertools import logging import re import time import datetime as dt

    1熱度

    1回答

    我的用例很簡單:從Pub/Sub訂閱中讀取事件日誌,解析它們並保存到BigQuery中。由於事件數量預計會顯着增加,我使用無限數據源,因此我決定在BigQuery中配置分片:根據事件數據的時間戳將事件存儲到日常表格中(Beam文檔中稱爲「事件時間」), 。 我的問題是我需要配置窗口在我的情況下,或者我可以保留隱式使用全局窗口的默認配置? 我問的原因是因爲我發現大部分BigQuery分片的例子都假設

    1熱度

    1回答

    我寫了一個Dataflow作業,當我手動運行它時效果很好。下面是相關部分(爲清楚起見移除了一些驗證碼): parser.add_argument('--end_datetime', dest='end_datetime') known_args, pipeline_args = parser.parse_known_args(argv) query = <redacted

    0熱度

    1回答

    我有我要在Apache梁管道與數據流轉輪內使用本地Python包。 我試圖按照文檔中提供的說明:https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/(部分本地或非PyPI將依賴),但沒有成功。 我的包具有以下結構: my_common ├── __init__.py └── shared ├─

    2熱度

    1回答

    我正在構建一個將在Google Cloud Dataflow中運行的Apache Beam(v2.0)管道。預期流程如下: 來自Pub/Sub的事件流(無界數據源)。它們是簡單的JSON對象,具有sessionId屬性。 使用自定義的DoFn事件到KV<String, String>,其中他們的關鍵是sessionId並且該值是整個JSON對象。 使用會話窗口的窗口事件(開發時間間隔爲2秒,生產時

    0熱度

    1回答

    我在存儲CSV文件,我想讀它,並將其寫入BigQuery資料表。這是我的CSV文件,其中第一行是標題: GroupName,Groupcode,GroupOwner,GroupCategoryID System Administrators,sysadmin,13456,100 Independence High Teachers,HS Teachers,,101 John Glenn Mi