已复制
全屏展示
复制代码

数据湖hudi原理与实战资料


· 14 min read

Apache Hudi 代表 Hadoop Upserts and Incrementals,管理大型分析数据集在 HDFS 上的存储。Hudi 的主要目的是高效减少摄取过程中的数据延迟。由 Uber 开发并开源。最初是用于解决数仓中 Lambda 架构中数据一致性的问题,将增量处理模型替代流式处理模型,并提供了 Upsert 和 Incremental Pull 两个非常重要的 feature。

数据湖

加速LakeHouse ACID Upsert的新写时复制方案

一个理想的数据湖应具备哪些功能?

Lakehouse架构指南

Apache Hudi助力Uber低成本构建开源大数据平台

Lakehouse元数据管理技术深度解析

大数据技术变革正当时,Apache Hudi了解下?

Lakehouse: 统一数据仓库和高级分析的新一代开放平台

什么是LakeHouse

Data Lake架构揭秘

Apache Hudi落地解读

华为云基于Apache Hudi实时数据湖的查询优化

华为基于Hudi构建的实时数据湖架构与实践

Zoom 基于Apache Hudi 的流式日志处理实践

日增数据超10PB!揭秘沃尔玛Lakehouse架构选型之路

干货 | 字节跳动基于 Apache Hudi 的数据湖实战解析

Uber基于Apache Hudi增量 ETL 构建大规模数据湖

基于Apache Hudi 构建流式增量数仓—CDC

Apache Hudi 流转批 场景实践

流利说基于Apache Hudi构建实时数仓的实践

基于Apache Hudi 构建Serverless实时分析平台

阿里云ADB基于Hudi构建Lakehouse的实践

基于Flink+Hudi在兴盛优选营销域实时数仓的实践

一文聊透Apache Hudi的索引设计与应用

Apache Hudi在腾讯的落地与应用

医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用

强强联合!StarRocks 支持 Apache Hudi

Flink SQL操作Apache Hudi并同步Hive使用总结

从 Apache Kudu 迁移到 Apache Hudi

硬核!Apache Hudi Schema演变深度分析与应用

Apache Hudi + Flink的实时数据湖实践探索

基于Apache Hudi + MinIO 构建流式数据湖

基于Apache Hudi + Linkis构建数据湖实践

万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

字节跳动基于 Apache Hudi 构建实时数仓的实践

华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

基于 Apache Hudi 的湖仓一体技术在 Shopee 的实践

字节跳动基于Apache Doris + Hudi的湖仓分析探索实践

使用 Apache Hudi 实现 SCD-2(渐变维度)

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

使用 Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

基于Apache Hudi的多库多表实时入湖最佳实践

基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南

基于 Apache Hudi + dbt 构建开放的Lakehouse

基于 Apache Hudi 构建分析型数据湖

B站基于Apache Hudi的增量数据湖探索与实践

Apache Hudi数据跳过技术加速查询高达50倍

深入理解Apache Hudi异步索引机制

基于Apache Hudi拉链表的全量表极限存储优化方案

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

基于TIS构建Apache Hudi千表入湖方案

基于Apache Flink + Hudi的增量ETL架构

字节跳动基于Apache Hudi的实时数据湖实践

字节跳动基于 Apache Hudi 的多流拼接实践

Halodoc使用Apache Hudi构建Lakehouse的关键经验

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

基于 Flink + Hudi 的实时数仓在 Shopee 的实践

印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0

KLOOK客路旅行基于Apache Hudi的数据湖实践

B 站基于Apache Hudi + Flink的增量化探索与实践

印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0

使用 Apache Flink + Hudi 构建流式数据湖平台

Apache Hudi如何加速传统批处理模式?

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

基于Apache Hudi在Google云平台构建数据湖

基于Apache Hudi和Debezium构建CDC入湖管道

Apache Hudi Bucket Index 在字节跳动的设计与实践

Robinhood基于Apache Hudi的下一代数据湖实践

字节跳动基于Apache Hudi的数据湖集成实践

字节跳动数据湖技术选型的思考

基于Apache Hudi + Flink的亿级数据入湖实践

OnZoom基于Apache Hudi的流批一体架构实践

移动云基于Apache Hudi湖仓一体的探索与实践

Apache Kyuubi + Hudi在 T3 出行的深度实践

字节跳动基于Apache Hudi构建实时数据湖平台实践

顺丰科技 Hudi on Flink 实时数仓实践

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

Apache Hudi在华米科技的应用-湖仓一体化改造

Apache Hudi 在 B 站构建实时数据湖的实践

基于Apache Hudi 的CDC数据入湖

内附PPT下载|万字干货!阿里云基于Apache Hudi构建Lakehouse实践探索

字节跳动基于Apache Hudi构建EB级数据湖实践

快手基于Apache Hudi的实践

触宝科技基于Apache Hudi的流批一体架构实践

基于 Apache Hudi 构建实时数据湖在百信银行的实践

Apache Hudi在Linkflow构建实时数据湖的生产实践

数仓实时化改造:Hudi on Flink 在顺丰的实践应用

最佳实践 | 通过Apache Hudi和Alluxio建设高性能数据湖

使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)

T3 出行构建数据湖上低延迟数据 Pipeline 的实践

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖

印度最大在线食品杂货公司Grofers的数据湖建设之路

Apache Hudi助力nClouds加速数据交付

Apache Hudi:统一批和近实时分析的存储和服务

贝壳找房利用Hudi构建准实时数仓的实践与挑战

Uber如何使用Apache Hudi近实时分析全球网络

使用Apache Hudi和Debezium构建健壮的CDC管道

Yotpo基于Apache Hudi构建零延迟数据湖实践

电商公司Drop数据湖实践

在线房产公司Zillow数据迁移至数据湖实践

Apache Hudi在医疗大数据中的应用

Uber基于Apache Hudi构建PB级数据湖实践

Apache Hudi丨数据服务实时化利器(在金融场景应用)

Apache Hudi社区

Apache Hudi 1.x 版本重磅功能展望与讨论

Onetable:统一的表格式元数据表示

Apache Hudi 0.13.0版本重磅发布!

Apache Hudi 背后商业公司Onehouse宣布2500万美元A轮融资

年度合集!Apache Hudi 技术文章一次看个够

Apache Hudi 0.12.0版本重磅发布!

Apache Hudi vs Delta Lake:透明TPC-DS Lakehouse性能基准

Apache Hudi 0.11.0版本重磅发布!

重磅!Apache Hudi联合传智教育推出免费中文视频教程

Onehouse 对Apache Hudi开源社区的承诺

重磅!基于Apache Hudi的商业公司Onehouse成立

来自Apache Hudi PMC Chair的新年大礼包,请注意查收!(附带2021年精选文章集合)

Apache Hudi 0.10.0版本重磅发布!

Apache Hudi PMC畅谈Hudi未来演进之路

Apache Hudi 0.9.0版本重磅发布!更强大的流式数据湖平台

Apache Hudi:新一代流式数据湖平台

恭喜!Apache Hudi社区新晋多名顶级互联网公司Committer

对话Apache Hudi VP,洞悉数据湖的过去现在和未来

恭喜!Apache Hudi社区新晋顶级互联网公司的PMC和Committer

致广大数据湖用户的一封信

Apache Hudi 0.8.0版本重磅发布

恭喜!Apache Hudi社区新晋两位Committer

Apache Hudi 0.7.0版本重磅发布

Apache Hudi 0.5.1版本重磅发布

终于!Apache Hudi 0.5.2版本正式发布

特性速览 | Apache Hudi 0.5.3版本正式发布

Apache Hudi 0.6.0版本重磅发布

恭喜!Apache Hudi社区新晋多位Committer

快速参与下一代数据湖顶级项目ApacheHudi

一行代码成为Apache Contributor

揭秘!Apache Hudi社区发展数据盘点

首次!Apache Hudi在Apache官方Blog出镜

一个月增长4倍!数据揭示当下增长势头最猛的开源数据湖框架!

官宣!ASF官方正式宣布Apache Hudi成为顶级项目

Apache Hudi:云数据湖解决方案

Apache Hudi入门系列

Apache Hudi Timeline Server介绍

如何不加锁地将数据并发写入Apache Hudi?

Apache Hudi 元数据字段揭秘

提升 Apache Hudi Upsert 性能的三个建议

使用 Bucket Index 加速Apache Hudi 写入

探索Apache Hudi核心概念 (4) - Clustering

探索Apache Hudi核心概念 (3) - Compaction

探索Apache Hudi核心概念 (2) - File Sizing

探索Apache Hudi核心概念 (1) - File Layouts

Apache Hudi 负载类Payload使用案例剖析

详解Apache Hudi Schema Evolution(模式演进)

超级重磅!Apache Hudi多模索引对查询优化高达30倍

聊一聊Apache Hudi的原理(2)

聊一聊Apache Hudi的原理(1)

重磅!Vertica集成Apache Hudi指南

超硬核!详解Apache Hudi灵活的Payload机制

一文带你了解Lakehouse的并发控制:我们是否过于乐观?

Apache Hudi与Hive集成手册

一文彻底弄懂Apache Hudi不同表类型

如何将数据更快导入Apache Hudi?

一文彻底掌握Apache Hudi异步Clustering部署

Apache Hudi内核之文件标记机制深入解析

更进一步节省空间!Apache Hudi支持虚拟键

基于Apache Hudi构建数据湖的典型应用场景介绍

Apache Hudi测试、运维操作万字总结

Streaming与Hudi、Hive湖仓一体!

通过Z-Order技术加速Hudi大规模数据集分析方案

一文彻底理解Apache Hudi的清理服务

17张图带你彻底理解Hudi Upsert原理

Apache Hudi集成Spark SQL抢先体验

提升50%+!Presto如何提升Hudi表查询性能?

一文彻底掌握Apache Hudi的主键和分区配置

Apache Hudi核心概念一网打尽

Apache Hudi:CDC的黄金搭档

使用Apache Hudi构建下一代Lakehouse

查询时间降低60%!Apache Hudi数据布局黑科技了解下

Apache Hudi:不一样的存储、不一样的计算

只会数仓?数据湖与Apache Hudi有必要了解一下

Hi, Data Lakers!这里有一份来自PMC Chair的新年礼包,请注意查收!

数据湖框架选型很纠结?一文了解Apache Hudi核心优势

Apache Hudi初学者指南

什么是Apache Hudi

查询Hudi数据集

Hudi性能测试

Hudi运维与管理

Hudi常见问题汇总

Hudi使用问题汇总1

Hudi使用问题汇总2

Hudi与其他类似系统比较

一文了解Apache Hudi架构、工具和最佳实践

Apache Hudi与Delta Lake对比

Apache Hudi 设计与架构最强解读

使用Apache Hudi构建大规模、事务性数据湖

Apache Hudi重磅特性解读之全局索引

Apache Hudi重磅特性解读之存量表高效迁移机制

Apache Hudi + AWS S3 + Athena实战

详解Apache Hudi如何配置各种类型分区

Apache Hudi实战

使用Apache RocketMQ + Hudi 快速构建 Lakehouse

查询性能提升3倍!Apache Hudi 查询优化了解下?

基于Apache Hudi构建智能湖仓实践(附亚马逊工程师代码)

Hudi实战 | 在CDH 6.3.0上运行HoodieDeltaStreamer

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

超详细步骤!整合Apache Hudi + Flink + CDH

硬核!Apache Hudi中自定义序列化和数据写入逻辑

基于Hudi的流式CDC实践一:听说你准备了面试题?

Flink + Hudi,构架仓湖一体化解决方案

使用 Flink Hudi 构建流式数据湖

Apache Hudi数据不知道怎么删除?多种方式快来Get!

Apache Hudi实时入湖之DeltaStreamer最佳实践

实时数据湖:Flink CDC流式写入Hudi

Debezium-Flink-Hudi:实时流式CDC

在AWS Glue中使用Apache Hudi

Apache Flink 1.12.2集成Hudi 0.9.0运行指南

重磅!解锁Apache Flink读写Apache Hudi新姿势

集成才是硬道理! 用它构建一个完整的Hadoop

实战 | Apache Hudi回调功能简介及使用示例

Apache Hudi + Flink作业运行指南

Apache Hudi异步Compaction的不同部署模型全面汇总

解锁Apache Hudi删除记录新姿势

Apache Hudi入门指南(含代码示例)

真香!PySpark整合Apache Hudi实战

实战|使用Spark Struct Streaming写入Hudi

实战|将Apache Hudi数据集写入阿里云OSS

实战!使用Apache Hudi DeltaStreamer将数据流写入OSS

使用Amazon EMR和Apache Hudi在S3上插入,更新,删除数据

官宣!Apache Hudi与AWS Database Migration Service深度集成

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建

实战 | 将Kafka流式数据摄取至Hudi

Apache Hudi数据备份与转储利器:HoodieSnapshotExporter

实战!配置DataDog监控Apache Hudi应用指标

调优 | Apache Hudi应用调优指南

填坑 | 线上Presto查询Hudi表异常排查

Apache Hudi表自动同步至阿里云数据湖分析DLA

Apache Hudi生态

腾讯云DLC(数据湖计算)重磅支持Apache Hudi

数据湖正当时!华为云MRS重磅集成Apache Hudi

重磅!AWS升级对Apache Hudi的集成

Apache Hudi在Hopsworks机器学习的应用

基于Apache Hudi 湖仓一体的大数据生态体系

KIP-5:Apache Kylin深度集成Hudi

使用Apache Pulsar + Hudi 构建Lakehouse方案了解下?

Apache Hudi C位!云计算一哥AWS EMR 2020年度回顾

Apache Hudi与Apache Flink更好地集成,最新方案了解下?

数据湖风暴来袭!阿里云EMR重磅发布Apache Hudi

CDH 6.3.0安装Apache Hudi指南

假期结束还没缓过神?Hudi on Flink最新进展了解下?

划重点!AWS的湖仓一体使用哪种数据湖格式进行衔接?

速度!Apache Hudi又双叕被国内顶级云服务提供商集成了!

终于!Apache Hudi与Impala完成整合

如何将Apache Hudi应用于机器学习

Apache Hudi与机器学习特征存储

生态|Apache Hudi集成Apache Zeppelin

基于Apache Hudi 和 Kylin 构建准实时高性能数据仓库

生态 | Apache Hudi插上Alluxio的翅膀

官宣!AWS Athena正式可查Apache Hudi数据集

Apache Hudi源码解读

Bloom Filter在Hudi中的应用

Upsert在Hudi中的实现分析

生产者-消费者模型在Hudi中的应用

Hudi Log日志文件格式分析(一)

Hudi Log日志文件写入分析(二)

Hudi Log日志文件读取分析(三)

ApacheHudi Archive(归档)实现分析

Apache Hudi Savepoint实现分析

Apache Hudi Rollback实现分析

Hudi Timeline(时间轴)分析

Hudi MergeOnRead存储类型时Upsert分析

Hudi 压缩(Compaction)实现分析

揭秘ApacheHudi数据湖的文件管理

Spark读取变更Hudi数据集Schema实现分析

Apache Hudi索引实现分析(一)之HoodieBloomIndex

Apache Hudi索引实现分析(二)之HoodieGlobalBloomIndex

Apache Hudi索引实现分析(三)之HBaseIndex

Apache Hudi索引实现分析(四)之基于Tree的IndexFileFilter

Apache Hudi索引实现分析(五)之基于List的IndexFileFilter

详解ApacheHudi如何节约宝贵的存储空间

🔗