大数据开发 Airflow实用技巧与最佳实践 为什么选择Airflow,它方便查看任务之间的依赖关系(在dag文件中跳转查看、而不必要在图形界面中看得眼花缭乱),创建专门管理 dag 的 git 项目,这项目可能会包含多个项目的dag,可以统一部署dag管理。 yuziyue 21 Jun 2023 · 5 min read
大数据开发 Airflow单dag内多个crontab任务 假设现在有个项目,需要定义很多的分钟级任务、同时伴随着小时级任务、以及在指定的某个时间点的任务,由于一个dag里面只能配置一个 schedule_interval, 所以没办法把这个项目的所有任务放在一个dag里面。 yuziyue 21 Jun 2023 · 3 min read
大数据开发 Airflow单节点安装部署与架构 一个Airflow安装实例主要包含了这些组件,dag将所有需要运行的tasks按照依赖关系组织起来,描述了所有tasks执行的顺序。scheduler定时触发workflow即dag的运行,dags folder 用于存放所有的dag files yuziyue 20 Jun 2023 · 8 min read
大数据开发 Airflow跨Dag任务之间依赖总结 跨Dag任务依赖中,Airflow 提供了一个 ExternalTaskMarker 类,它可以告诉 dag1 里面的task,dag2 中的 task 依赖了自己,在 clear dag1 的时候,也会把 dag2 中依赖 dag1 中的 task clear 掉! yuziyue 15 Jun 2023 · 6 min read
大数据开发 部署 Airflow Scheduler 高可用HA 在Airflow的高可用的集群中,Scheduler是不允许在多个节点同时运行的,因为这样可能会导致任务被重复执行,所以同一时间它只允许在一个节点上运行。从官网的架构图中可以看出Scheduler也只能有一个。 yuziyue 13 Jun 2023 · 6 min read