大数据开发 flink window窗口概念与使用总结 Flink 之 window 窗口概念与使用 当调用window或windowAll方法时,所传入的参数就是Window Assigner(窗口分配器),其作用是决定划分什么样类型的窗口,即以何种条件划分窗口,输入的数据以何种方式分配到窗口内,窗口如何触发等等。针对计数窗口来说,主要使用CountWindowAll、CountWindow,直接传入一个window的数据条数据。 yuziyue 31 Jul 2023 · 10 min read
大数据开发 Flink实战最常用算子合集详解 keyBy不是算子,只是一个分区的方法。将数据流按照key分成不相交的流,由 DataStream 转换为 KeyedStream。很多的算子都必须要分组以后才可以继续计算,比如:window process等。split 与 select 注意:最新版本的 flink 已经取消了split和select,可以使用测流输出(side output)来实现。 yuziyue 31 Jul 2023 · 3 min read
大数据开发 Hive Explain 输出详细总结 一个 HIVE 查询被转换为由一个或多个 stage 组成的序列,即有向无环图 DAG。这些 stage 可以是 MapReduce stage,也可以是负责元数据存储的 stage,也可以是负责文件系统的操作(比如移动和重命名)的 stage。 从最外层开始,包含两个大的部分:stage dependencies(各个stage之间的依赖性)和 stage plan(各个stage的执行计划) yuziyue 31 Jul 2023 · 4 min read
大数据开发 什么是 hive 动态分区 Hive 的动态分区是指在 Hive 表中,分区字段的值 是在数据加载过程中动态生成的。1. 创建表时指定分区字段 首先在创建表时指定分区字段 -- 设置为非严格模式,动态分区的模式默认为 strict -- strict 模式表示必须指定至少一个分区为静态分区 -- nonstrict 模式表示允许所有的分区字段都可以使用动态分区 yuziyue 31 Jul 2023 · 2 min read
大数据开发 zookeeper 核心概念与架构总结 ZooKeeper 是一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能,ZooKeeper可以保证如下分布式一致性特性。从同一个客户端发起的事务请求,最终将会严格地按照其发起顺序被应用到ZooKeeper中去。 yuziyue 31 Jul 2023 · 6 min read
大数据开发 zookeeper Java API 客户端 // 查询 zookeeper 节点数据 bytes = client .getData() .storingStatIn(stat) .forPath("/test-node"); // 删除 zookeeper 节点 // 获取 zookeeper 所有子节点 // 更新 zookeeper 节点 // 判断 zookeeper 节点是否存在 yuziyue 31 Jul 2023 · 1 min read
大数据开发 zookeeper 命令行客户端 zookeeper 命令行客户端 一. 登录 使用 zkCli 连接 zookeeper 二. 创建 create [-s] [-e] path data acl -s 表示创建持久节点。 -e 表示创建临时节点,默认情况下不加 -s 或者 -e 时,创建的是持久节点。 path 为从根开始的路径。 data 存入的数据。 acl 用来控制权限,默认情况下不做任何权限控制。 yuziyue 31 Jul 2023 · 1 min read
操作系统 linux 常见发行版本大总结 linux 常见发行版本大总结 rhel红帽企业系统(Red Hat Enterprise Linux, RHEL), 红帽公司是全球最大的开源技术厂商,RHEL是全世界内使用最广泛的Linux系统。RHEL系统具有极强的性能与稳定性,并且在全球范围内拥有完善的技术支持。RHEL系统也是本书、红帽认证以及众多生产环境中使用的系统。 yuziyue 31 Jul 2023 · 7 min read
操作系统 CentOS7 设置默认内核版本 CentOS7 设置默认内核版本 在使用 CentOS 时,如果中途升级内核版本,或者某些依赖需要安装不同版本的内核,或者某些版本的内核无法启动,这时需要修改默认的启动内核版本,操作步骤如下 一. 查看可用内核列表 二. 查看当前内核版本 yuziyue 31 Jul 2023 · 1 min read
操作系统 计算机硬盘类型详细总结 目前所能见到的硬盘接口类型主要有IDE、SATA、SCSI、SAS、FC等等。 IDE是俗称的并口,SATA是俗称的串口,这两种硬盘是个人电脑和低端服务器常见的硬盘。SCSI是"小型计算机系统专用接口"的简称,SCSI硬盘就是采用这种接口的硬盘。SAS就是串口的SCSI接口。 yuziyue 31 Jul 2023 · 18 min read
操作系统 ubuntu smaba 安装与挂载 ubuntu smaba 安装与挂载 在 /etc/samba/smb.conf 的最后添加如下配置 增加 samba 用户,此用户必须是 Linux 已存 在的用户。windows上挂载samba 1、按window+R键输入 services.msc, 在打开的窗口开启服务 webclient 2、按window+R键输入 gpedit.msc 来启动本地组策略编辑器。 yuziyue 30 Jul 2023 · 1 min read
编程语言 Python 实现 linux 命令 tail Python 实现 linux 命令 tail ,在某些场景需要实时读取文件的新增内容,使用linux的命令行tail不是很容易操作,所有有了python版本的tail,方便直接加入到脚本。自定义处理函数 同时还可以指定从文件开头,还是文件末尾读取,以及读取的间隔时间。t = tail.Tail("/tmp/able") yuziyue 30 Jul 2023 · 2 min read
操作系统 windows 命令行配置 IP 地址 windows 命令行配置 IP 地址 一. 查看网卡名称 打开 cmd.exe 命令行,或者 Windows Terminal 查看要配置的网卡名称,比如 以太网 查看要配置的网卡名称,比如 以太网 二. 配置网卡地址 $ 配置静态IP地址 netsh interface ip set address "以太网" static 10.10.10.22 255.255.255.0 10.10.10.1 $ 查看DNS netsh interface ip show dns "以太网" yuziyue 30 Jul 2023 · 1 min read
操作系统 linux 命令之 seq 详解 linux 命令之 seq 详解 简要介绍 seq 命令用于列出两个数之间的所有整数,也可以增加步长来列出间隔的整数,同时还可以对给出的数进行格式化输出。在给出的范围数上,首位的数都包含在内。 seq [选项] 首数 尾数首数默认为1,增量默认为1,尾数必须指定 yuziyue 30 Jul 2023 · 2 min read
操作系统 ubuntu 离线仓库制作详解 ubuntu 离线仓库制作详解 制作离线仓库的目的,是当有些Ubuntu机器不能访问外网,需要在能访问网络的机器上制作好离线仓库,然后拷贝到不能访问网络的机器上安装。一. 工具准备 首先准备一个 ubuntu18.04.3 的 server 版操作系统,确保能正常上网,在该操作系统上进行制作离线包。apt-rdepends 命令能找出指定工具的所有依赖,包括依赖的依赖。 vim /etc/apt/sources.list yuziyue 30 Jul 2023 · 3 min read
操作系统 ubuntu 时间同步ntp配置时钟同步 ubuntu 时间同步 ntp 配置时钟同步 ntp 配置时间同步的目的是 server 和所有的 client 机器时间进行完全同步,ntp 是server client 模式。 server server 端安装与配置,当前的 server 地址为 172.16.130.129 # 修改 /etc/ntp.conf # 注释掉现有的 pool 开头的 server yuziyue 30 Jul 2023 · 1 min read
操作系统 tmux 个人常用配置整理 tmux 个人常用配置整理 使用场景:跑后台任务时使用,由于 Ubuntu 和 CentOS 的 tmux 的版本不一样,所以配置文件也不一样,下面是个人最习惯的 tmux 配置,主要思想是命令行快捷键实现最常用的功能,同时满足大多数的命令行配置习惯。 注意:如果是 crt 或 xshell 的话需要设置 alt 为 meta 键,使用 tmux 就不要使用鼠标了。 yuziyue 30 Jul 2023 · 4 min read
操作系统 tmux 常用命令总结 tmux采用C/S模型构建,输入tmux命令就相当于开启了一个服务,此时将新建一个会话,然后会话中默认新建一个窗口,窗口中默认新建一个面板。一个tmux session(会话)可以包含多个window(窗口),窗口默认充满整个会话界面,允许在单个窗口中同时访问多个会话,允许每个会话有多个连接窗口,因此可以多人实时共享会话。一个window又可以包含多个pane(面板),窗口下的面板,都处于同一界面下。 yuziyue 30 Jul 2023 · 4 min read