要在单个DAG运行中执行所有并行任务,可以使用Airflow提供的TaskGroup功能。TaskGroup允许将多个任务组织为一个组,并在DAG中以并行方式运行。
以下是一个包含代码示例的解决方法:
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from airflow.utils.task_group import TaskGroup
from datetime import datetime
default_args = {
'owner': 'airflow',
'start_date': datetime(2021, 1, 1)
}
def task_1():
print("Running task 1")
def task_2():
print("Running task 2")
def task_3():
print("Running task 3")
def task_4():
print("Running task 4")
with DAG('parallel_dag', default_args=default_args, schedule_interval=None) as dag:
with TaskGroup("parallel_tasks") as parallel_tasks:
t1 = PythonOperator(task_id='task_1', python_callable=task_1)
t2 = PythonOperator(task_id='task_2', python_callable=task_2)
t3 = PythonOperator(task_id='task_3', python_callable=task_3)
t4 = PythonOperator(task_id='task_4', python_callable=task_4)
t1 >> t2 >> t3 >> t4
在上面的示例中,我们创建了一个名为parallel_dag
的DAG,并且将所有并行任务放在一个TaskGroup中。每个任务都是一个PythonOperator,通过python_callable
参数指定要执行的函数。
最后,我们使用>>
运算符将任务连接起来,指定它们之间的依赖关系。在这个例子中,任务1必须在任务2之前完成,任务2必须在任务3之前完成,任务3必须在任务4之前完成。
通过这种方式,所有的并行任务将在单个DAG运行中执行。您可以根据需要添加更多的任务到TaskGroup中,并使用适当的依赖关系将它们连接起来。