数据湖hudi原理与实战资料
Apache Hudi 代表 Hadoop Upserts and Incrementals,管理大型分析数据集在 HDFS 上的存储。Hudi 的主要目的是高效减少摄取过程中的数据延迟。由 Uber 开发并开源。最初是用于解决数仓中 Lambda 架构中数据一致性的问题,将增量处理模型替代流式处理模型,并提供了 Upsert 和 Incremental Pull 两个非常重要的 feature。
数据湖
加速LakeHouse ACID Upsert的新写时复制方案
Lakehouse: 统一数据仓库和高级分析的新一代开放平台
Apache Hudi落地解读
日增数据超10PB!揭秘沃尔玛Lakehouse架构选型之路
干货 | 字节跳动基于 Apache Hudi 的数据湖实战解析
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
基于Apache Hudi 构建Serverless实时分析平台
医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
Flink SQL操作Apache Hudi并同步Hive使用总结
硬核!Apache Hudi Schema演变深度分析与应用
万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践
华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践
基于 Apache Hudi 的湖仓一体技术在 Shopee 的实践
字节跳动基于Apache Doris + Hudi的湖仓分析探索实践
基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse
使用 Apache Flink 和 Apache Hudi 创建低延迟数据湖管道
基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南
基于 Apache Hudi + dbt 构建开放的Lakehouse
腾讯广告业务基于Apache Flink + Hudi的批流一体实践
Halodoc使用Apache Hudi构建Lakehouse的关键经验
印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构
基于 Flink + Hudi 的实时数仓在 Shopee 的实践
印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0
B 站基于Apache Hudi + Flink的增量化探索与实践
印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0
使用 Apache Flink + Hudi 构建流式数据湖平台
基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台
基于Apache Hudi和Debezium构建CDC入湖管道
Apache Hudi Bucket Index 在字节跳动的设计与实践
Robinhood基于Apache Hudi的下一代数据湖实践
基于Apache Hudi + Flink的亿级数据入湖实践
Apache Kyuubi + Hudi在 T3 出行的深度实践
37 手游基于 Flink CDC + Hudi 湖仓一体方案实践
内附PPT下载|万字干货!阿里云基于Apache Hudi构建Lakehouse实践探索
基于 Apache Hudi 构建实时数据湖在百信银行的实践
Apache Hudi在Linkflow构建实时数据湖的生产实践
数仓实时化改造:Hudi on Flink 在顺丰的实践应用
最佳实践 | 通过Apache Hudi和Alluxio建设高性能数据湖
使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)
使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖
使用Apache Hudi和Debezium构建健壮的CDC管道
Apache Hudi丨数据服务实时化利器(在金融场景应用)
Apache Hudi社区
Apache Hudi 背后商业公司Onehouse宣布2500万美元A轮融资
Apache Hudi vs Delta Lake:透明TPC-DS Lakehouse性能基准
重磅!Apache Hudi联合传智教育推出免费中文视频教程
重磅!基于Apache Hudi的商业公司Onehouse成立
来自Apache Hudi PMC Chair的新年大礼包,请注意查收!(附带2021年精选文章集合)
Apache Hudi 0.9.0版本重磅发布!更强大的流式数据湖平台
恭喜!Apache Hudi社区新晋多名顶级互联网公司Committer
对话Apache Hudi VP,洞悉数据湖的过去现在和未来
恭喜!Apache Hudi社区新晋顶级互联网公司的PMC和Committer
特性速览 | Apache Hudi 0.5.3版本正式发布
Apache Hudi入门系列
使用 Bucket Index 加速Apache Hudi 写入
探索Apache Hudi核心概念 (4) - Clustering
探索Apache Hudi核心概念 (3) - Compaction
探索Apache Hudi核心概念 (2) - File Sizing
探索Apache Hudi核心概念 (1) - File Layouts
详解Apache Hudi Schema Evolution(模式演进)
超级重磅!Apache Hudi多模索引对查询优化高达30倍
一文带你了解Lakehouse的并发控制:我们是否过于乐观?
一文彻底掌握Apache Hudi异步Clustering部署
查询时间降低60%!Apache Hudi数据布局黑科技了解下
Hi, Data Lakers!这里有一份来自PMC Chair的新年礼包,请注意查收!
数据湖框架选型很纠结?一文了解Apache Hudi核心优势
Apache Hudi + AWS S3 + Athena实战
Apache Hudi实战
使用Apache RocketMQ + Hudi 快速构建 Lakehouse
基于Apache Hudi构建智能湖仓实践(附亚马逊工程师代码)
Hudi实战 | 在CDH 6.3.0上运行HoodieDeltaStreamer
Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践
超详细步骤!整合Apache Hudi + Flink + CDH
Apache Hudi数据不知道怎么删除?多种方式快来Get!
Apache Hudi实时入湖之DeltaStreamer最佳实践
Apache Flink 1.12.2集成Hudi 0.9.0运行指南
重磅!解锁Apache Flink读写Apache Hudi新姿势
Apache Hudi异步Compaction的不同部署模型全面汇总
实战|使用Spark Struct Streaming写入Hudi
实战!使用Apache Hudi DeltaStreamer将数据流写入OSS
使用Amazon EMR和Apache Hudi在S3上插入,更新,删除数据
官宣!Apache Hudi与AWS Database Migration Service深度集成
Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比
最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建
Apache Hudi数据备份与转储利器:HoodieSnapshotExporter
Apache Hudi生态
使用Apache Pulsar + Hudi 构建Lakehouse方案了解下?
Apache Hudi C位!云计算一哥AWS EMR 2020年度回顾
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
假期结束还没缓过神?Hudi on Flink最新进展了解下?
速度!Apache Hudi又双叕被国内顶级云服务提供商集成了!
生态|Apache Hudi集成Apache Zeppelin
基于Apache Hudi 和 Kylin 构建准实时高性能数据仓库
官宣!AWS Athena正式可查Apache Hudi数据集
Apache Hudi源码解读
Apache Hudi索引实现分析(一)之HoodieBloomIndex
Apache Hudi索引实现分析(二)之HoodieGlobalBloomIndex
Apache Hudi索引实现分析(三)之HBaseIndex
Apache Hudi索引实现分析(四)之基于Tree的IndexFileFilter