在我的數據流管道中,我將有兩個從BigQuery表中讀取的PCollections<TableRow>
。我打算將這兩個PCollections合併成一個PCollection
並與flatten
合併。在基於時間戳的數據流中過濾有界數據
由於BigQuery僅附加,因此目標是使用新的PCollection
來截斷BigQuery中的第二個表。
我已閱讀了文檔,這是我感到困惑的中間步驟。使用我的新PCollection
計劃將使用Comparator DoFn
來查看最大最近更新日期並返回給定行。 我不確定我是否應該使用過濾器轉換,或者如果我應該按鍵進行分組,然後使用過濾器?
所有PCollection<TableRow>
s將包含相同的值:IE:字符串,整數和時間戳。對於關鍵值對,大部分關於雲數據流的文檔都只包含簡單的字符串。 是否有可能有一個鍵值對是PCollection<TableRow>
的整行?
該行應類似於:
customerID, customerName, lastUpdateDate
0001, customerOne, 2016-06-01 00:00:00
0001, customerOne, 2016-06-11 00:00:00
在上面的例子中,我將要過濾的PCollection只是第二行返回,將被寫入的BigQuery一個PCollection。 另外,是否可以在第三個PCollection上應用這些Pardo
而不創建第四個?