已复制
全屏展示
复制代码

大数据开发

主要包括大数据开发、数据分析等文章!

Spark task 序列化总结

我们在 driver 中定义的数据,在 executor 中执行时是无法获取到 driver 中的数据的( 会报错Task not serializable),task 分为 ShuffleMapTask 和 ResultTask,这两种 task 都已经实现了序列化了,所以如果我读取在 driver 中定义的对象,还需要将数据序列化。 其中一种方法是使用广播变量 另一种方法是我们手动编写数据的序列化方法。

· 2 min read

Hbase 性能优化总结

因为一个cf会对应一个store,每个store都有一个Memstore,当触发flush阈值后进行flush的最小单位是Region,而不是MemStore级别的,所以会有多个cf被flush,会生成多个HFile文件。并且HFile多了就会频繁触发compact。最终导致系统产生更多的I/O。批量数据写入采用 BulkLoad HBase通过rowkey、family、qualifier、TimeStamp可以对HBase中的数据进行快速定位,HBase中rowkey可以唯一标识一行记录。

· 4 min read

Kafka 生产者与消费者 JAVA API

本文总结 Kafka 生产者与消费者的 JAVA API 示例 序列化与反序列化 序列化配置 反序列化配置 1.3 ProducerRecord参数 二. 生产者 创建测试kafka ProducerRecord 消息记录可以简化参数,最简单的可以只有两个参数:topic 和 value,其他的都是用默认值。kafka消息的timestamp如果是自定义的话,不能晚于当前7天,因为晚于7天的消息会被自动删除。

· 4 min read

Kafka 原理与架构完全总结

一台kafka服务器就是一个broker,一个集群由一个或多个broker组成。在kafka的配置文件server.properties中,broker.id=0表示当前服务器的broker ID号,该ID号在集群内是全局唯一的。如果在节点紧缺的时候,一台服务器也可以启动多个broker。Epoch。一个单调增加的版本号。每当副本领导权发生变更时,都会增加该版本号。小版本号的 Leader 被认为是过期 Leader,不能再行使 Leader 权力。

· 20 min read