已复制
全屏展示
复制代码

大数据开发

主要包括大数据开发、数据分析等文章!

Flink 如何实现双流 join 连接

Flink 如何实现双流 join 连接 一. join() join() 即inner join,算子提供的语义为"Window join",即按照指定字段和(滚动/滑动/会话)窗口进行 inner join,支持处理时间和事件时间两种时间类型。left join 可以使用 coGroup 实现。二. coGroup() 使用 coGroup,不管能不能匹配上,都会把原始数据传递,下面的示例使用 coGroup 实现了 left join 的功能。

· 5 min read

flink 如何自定义 source 数据源

Flink 如何自定义 Source 数据源 Apache Flink 提供了自定义 Source 的能力,使用户可以根据自己的需求实现数据源的逻辑。自定义Source是通过实现 Flink 的 SourceFunction接口来实现的。一. 单并行度DataSource 单并行度source实现SourceFunction,并且单并行度source不允许使用setParallelism方式设置并行度。创建MySource 如果 run 方法不会退出,那么就是一个无限的数据流

· 2 min read

flink window窗口概念与使用总结

Flink 之 window 窗口概念与使用 当调用window或windowAll方法时,所传入的参数就是Window Assigner(窗口分配器),其作用是决定划分什么样类型的窗口,即以何种条件划分窗口,输入的数据以何种方式分配到窗口内,窗口如何触发等等。针对计数窗口来说,主要使用CountWindowAll、CountWindow,直接传入一个window的数据条数据。

· 10 min read

zookeeper 核心概念与架构总结

ZooKeeper 是一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能,ZooKeeper可以保证如下分布式一致性特性。从同一个客户端发起的事务请求,最终将会严格地按照其发起顺序被应用到ZooKeeper中去。

· 6 min read