已复制
全屏展示
复制代码
yuziyue

yuziyue

Hi I'm yuziyue

大数据工程师

linux 命令 exec 到底有什么作用

我们在看别人写的脚步时,你可能会发现别人启动程序时喜欢在命令前面添加一个 exec 命令,它的作用其实是:将当前的 shell 进程替换为指定的命令或程序,这意味着原来的 shell 进程将被终止,并且执行的命令将在新的 shell 进程中运行。 这样做的好处在于可以在不创建新的子进程的情况下,直接在当前 shell 进程中执行指定的命令,从而节省了系统资源并且能够更高效地执行命令。

· 2 min read

Git 配置 http https socks5 代理

Git 配置 http https socks5 代理 git 命令下载 github 上的代码有时无法连接,此时需要配置代理才能下载。 --global 标志将配置应用于当前用户的全局 Git 配置。如果你只想在当前项目中使用代理,可以省略 --global 标志,这样配置将仅适用于当前项目。 # http.proxy 表示 http 协议 # https.proxy 表示 https 协议 # core.gitproxy 表示 git ssh 协议

· 1 min read

Spark task 序列化总结

我们在 driver 中定义的数据,在 executor 中执行时是无法获取到 driver 中的数据的( 会报错Task not serializable),task 分为 ShuffleMapTask 和 ResultTask,这两种 task 都已经实现了序列化了,所以如果我读取在 driver 中定义的对象,还需要将数据序列化。 其中一种方法是使用广播变量 另一种方法是我们手动编写数据的序列化方法。

· 2 min read

Hbase 性能优化总结

因为一个cf会对应一个store,每个store都有一个Memstore,当触发flush阈值后进行flush的最小单位是Region,而不是MemStore级别的,所以会有多个cf被flush,会生成多个HFile文件。并且HFile多了就会频繁触发compact。最终导致系统产生更多的I/O。批量数据写入采用 BulkLoad HBase通过rowkey、family、qualifier、TimeStamp可以对HBase中的数据进行快速定位,HBase中rowkey可以唯一标识一行记录。

· 4 min read

Kafka 生产者与消费者 JAVA API

本文总结 Kafka 生产者与消费者的 JAVA API 示例 序列化与反序列化 序列化配置 反序列化配置 1.3 ProducerRecord参数 二. 生产者 创建测试kafka ProducerRecord 消息记录可以简化参数,最简单的可以只有两个参数:topic 和 value,其他的都是用默认值。kafka消息的timestamp如果是自定义的话,不能晚于当前7天,因为晚于7天的消息会被自动删除。

· 4 min read