0

我們使用數據流從一組的PubSub話題讀取和寫入數據至BigQuery。我們正在爲每個主題使用一個DataFlow作業,並將它們寫入相關的BigQuery表。是否有可能爲此編寫一個Dataflow作業?的PubSub - >的BigQuery - 如何處理多個獨立的主題?

我看到多個源文件,以一個輸出這裏:https://cloud.google.com/dataflow/pipelines/design-principles?hl=en#multiple-sources

有什麼不讓我只是做多的「基本」管道在同一數據流的工作就像在基本流程:https://cloud.google.com/dataflow/pipelines/design-principles?hl=en#a-basic-pipeline

的文檔和我對代碼的理解意味着這可以完成,但在開始努力之前我想確定一下。

回答

1

我的理解是,沒有什麼「錯誤」有這樣做,並且是可以做到的,它只是取決於你想要達到的目的,以及設計決策是與你有關的。例如,如果你希望某些話題有更多的吞吐量,分裂他們的一個可能的好處是它可以讓你擴展獨立來處理特定的主題。

在我來說,我是把多個主題,應用一些變換集和創建PCollectionList,最終寫出來至BigQuery。這一切都是在一項工作中完成的,而且我正在以編程方式在運行之前生成轉換。

+0

Idrees,感謝信息。我們確實有一個可以生成更多數據。然而,我們在擴展的早期階段,我寧願現在凝結,並擴大整個集合一點,並減少複雜性。然後拔出一個開始落後的工作並將它們分開。現在總體積可能需要兩臺小型機器。它會迅速增長,但其中大部分增長是兩個主題,而不是全部五個。我以後可以把它們拉出來。 –