airflow

    0熱度

    1回答

    我有一個DAG,並行扇出到多個獨立單元。這在AWS中運行,因此我們擁有的任務可以將我們的AutoScalingGroup擴展到DAG啓動時的最大工作人員數量,並在DAG完成時達到最小數量。簡化的版本是這樣的: | - - taskA - - | | | scaleOut - | - - taskB - - | - scaleIn | |

    0熱度

    1回答

    我正在嘗試使用Airflow來替換我們現有的cron編排,並且所有內容都看起來很有希望。我已經成功安裝並獲得了一份計劃和執行的數據,但是我注意到他們在我指定的每項任務(至少15分鐘到60分鐘)之間存在顯着的延遲。 我的DAG定義如下 我缺少的東西,使他們在其他以後運行一個吧? 我不使用芹菜 兩個調度器和Web服務器在同一主機 上運行,並且是 - 需要調用一個遠程執行(某種形式的地方,直到然後在工作

    0熱度

    1回答

    在AWS EC2實例中安裝airflow包後,我試圖啓動airflow webserver它顯示權限被拒絕的問題,我沒有得到哪個文件或文件夾它試圖創建/修改以獲取此錯誤。 [[email protected] airflow]# /usr/local/bin/airflow webserver -p 8080 [2017-06-13 04:24:35,692] {__init__.py:57}

    1熱度

    2回答

    我可以在PythonOperator中使用宏嗎?我試着跟着,但我無法得到渲染的宏! dag = DAG( 'temp', default_args=default_args, description='temp dag', schedule_interval=timedelta(days=1)) def temp_def(a, b, **kwargs):

    2熱度

    1回答

    我想用執行日期作爲參數傳遞給我的SQL文件: 我試圖 dt = '{{ ds }}' s3_to_redshift = PostgresOperator( task_id='s3_to_redshift', postgres_conn_id='redshift', sql='s3_to_redshift.sql', params={'file': dt},

    -1熱度

    1回答

    首先,我是氣流新手。我想要做的是使用氣流運行數據流作業。 搜索了很多鏈接,發現我們需要創建一個jar文件,然後使用airflow腳本我們可以運行它。有沒有人知道這個罐子應放在哪裏,意味着谷歌雲桶或本地路徑。我們可以通過氣流直接運行模板嗎?

    6熱度

    1回答

    我很努力去理解Airflow中的BranchPythonOperator是如何工作的。我知道它主要用於分支,但是文檔混淆了什麼要傳入任務以及我需要從上游任務傳遞/期望什麼。 考慮到文檔on this page中的一個簡單示例,上游任務run_this_first和下游2個分支的源代碼的外觀如何? Airflow知道如何運行branch_a而不是branch_b?上游任務的輸出在哪裏被注意/讀取?

    0熱度

    1回答

    問題:使用airflow運行數據流作業時,出現錯誤,是否與我們提供的關鍵路徑有關。如果是的話應該是正確的道路。錯誤: File "/usr/lib/python2.7/site-packages/airflow/models.py", line 1374, in run result = task_copy.execute(context=context) File "/usr/lib/pyt

    0熱度

    1回答

    請問任何人都可以在生產服務器上分享部署Apache Airflow平臺的方式(使用順序執行程序以最簡單的獨立模式)的經驗/觀點?

    0熱度

    1回答

    下一個順序執行的順序運行,我已經在那裏我指定的需要被順序運行三個任務DAG的文件(T1 - > T2 - > T3): default_args = { 'owner': 'airflow', 'start_date': datetime(2017, 6, 14, 23 , 20), 'email_on_failure': False, 'email_on_