资料分享 大数据学习路线指南 Java 是大数据领域的主要语言,百分之90的大数据生态组件都是基于Java开发的,学好 Java 有助于在优化性能、排查问题方面得心应手,对Java的要求没有上限,越熟悉越好。Scala 是最强大的计算引擎 Spark、最强的消息队列Kafka的开发语言,如果我们要写 Spark yuziyue 19 Jul 2023 · 6 min read
资料分享 程序员经典书籍推荐 github star 104k 本书介绍了 Python 应用在各个领域中的一些使用技巧和方法,其主题涵盖了数据结构和算法,字符串和文本,数字、日期和时间,迭代器和生成器,文件和IO,数据编码与处理,函数,类与对象,元编程,模块和包,网络和 Web 编程 yuziyue 18 Jul 2023 · 18 min read
资料分享 数据湖hudi原理与实战资料 Apache Hudi 代表 Hadoop Upserts and Incrementals,管理大型分析数据集在HDFS 上的存储。Hudi 的主要目的是高效减少摄取过程中的数据延迟。由 Uber 开发并开源。最初是用于解决数仓中 Lambda 架构中数据一致性的问题,将增量处理模型替代流式处理模型 yuziyue 18 Jul 2023 · 14 min read