2016-11-22 55 views
1

我有以下設置:遠程機器'D'包含Postgres DB。遠程機器'C'包含一個數據處理平臺。氣流在本地機器「L」上運行。預計來自數據庫的簡單選擇查詢將導致大小約爲1 GB的數據集。氣流:將大數據集從數據庫傳輸到遠程機器

我想創建一個氣流DAG,其中一個任務在DB上運行查詢並將結果傳輸到'C'。但GenericTransfer操作員的官方文檔說:

「這意味着要用於適合內存的小型數據集。」

如何可靠地將大數據集從'D'轉移到'C'?

回答

0

在Python中嘗試循環塊,它可以生成並執行有限數據的查詢。

上限= 256

環{

query (with limit)<b> 
    limit +=256 

} 
0

您可以DBAPI的executemany延長了運營商由於您使用的是Postgres插入DATAS

相關問題