大数据开发 CentOS7安装MySQL5.7 MySQL5.7仓库配置,然后安装MySQL,安装完成后查看临时生成的默认密码,使用该默认密码登录,配置新密码,同时授权远程登录MySQL,注意新密码要有一定的复杂度。 yuziyue 20 Jun 2023 · 2 min read
大数据开发 Airflow单节点安装部署与架构 一个Airflow安装实例主要包含了这些组件,dag将所有需要运行的tasks按照依赖关系组织起来,描述了所有tasks执行的顺序。scheduler定时触发workflow即dag的运行,dags folder 用于存放所有的dag files yuziyue 20 Jun 2023 · 8 min read
大数据开发 Hive Spark 时间函数 hive的常用时间函数主要包括:current_date,current_timestamp,to_date,from_unixtime,unix_timestamp,dayofmonth,year,month,day,hour,minute,second,datediff,date_sub,date_add,add_months,本文会列出各个函数的使用示例以供后续查询使用。 yuziyue 18 Jun 2023 · 4 min read
大数据开发 hive中order sort distribute cluster总结 sort by不是全局排序,其在数据进入reducer前完成局部排序,即它会在数据进入reduce之前为每个reducer都产生一个排序后的文件。sort by只保证每个reducer的输出有序,不保证全局有序。 yuziyue 18 Jun 2023 · 2 min read
大数据开发 Airflow跨Dag任务之间依赖总结 跨Dag任务依赖中,Airflow 提供了一个 ExternalTaskMarker 类,它可以告诉 dag1 里面的task,dag2 中的 task 依赖了自己,在 clear dag1 的时候,也会把 dag2 中依赖 dag1 中的 task clear 掉! yuziyue 15 Jun 2023 · 6 min read
大数据开发 部署 Airflow Scheduler 高可用HA 在Airflow的高可用的集群中,Scheduler是不允许在多个节点同时运行的,因为这样可能会导致任务被重复执行,所以同一时间它只允许在一个节点上运行。从官网的架构图中可以看出Scheduler也只能有一个。 yuziyue 13 Jun 2023 · 6 min read