已复制
全屏展示
复制代码

大数据开发

主要包括大数据开发、数据分析等文章!

Kafka 原理与架构完全总结

一台kafka服务器就是一个broker,一个集群由一个或多个broker组成。在kafka的配置文件server.properties中,broker.id=0表示当前服务器的broker ID号,该ID号在集群内是全局唯一的。如果在节点紧缺的时候,一台服务器也可以启动多个broker。Epoch。一个单调增加的版本号。每当副本领导权发生变更时,都会增加该版本号。小版本号的 Leader 被认为是过期 Leader,不能再行使 Leader 权力。

· 20 min read

Airflow 中如何使用 XComs

在 airflow 中,operator 一般(not always)是原子的,也就是说,他们一般独立执行,同时也不需要和其他 operator 共享信息,如果两个 operators 需要共享信息,如 filename 之类的, 推荐将这两个 operators 组合成一个 operator。如果实在不能避免,则可以使用 XComs (cross-communication) 来实现。XComs 用来在不同tasks 之间交换信息,看下面的示例。

· 1 min read

Hive SQL 查询优化大总结

会对磁盘进行多次的读写操作,如果任务数量很多更占用资源。 Tez将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge、Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor、Output等依赖DAG,中间结果在内存中,只写一次磁盘。 Spark 将Map和Reduce生成DAG,划分Stage,将中间结果保存内存,只写一次磁盘。

· 7 min read

Hive 文件存储格式

Hive 文件存储格式表示最终存储在 HDFS 上的文件格式,不同的文件格式对磁盘占用、查询速度等有重要的影响。TextFile为默认的数据存储格式,TextFile以文本文件的形式存储数据,该种方式默认不对数据进行压缩处理,效率较低。导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看。TextFile格式的数据无法使用压缩算法来压缩存储。

· 3 min read