Flink - 窗口理论、实现
1. Theory - Dataflow Model
Dataflow Model这篇论文,对大数据的处理范式做了总结,并且提出了一套处理模型。
1.1. Window
数据转换操作,有两种:
ParDo: 1->N,例如 map/flatmap/filter 等,这类操作在 unbound 和 bound 数据集上没有区别
GroupByKey: 聚合操作在 bound 数据集很自然;在 unbound 数据集上,既然数据不会结束,就需要解决何时聚合的问题。
之前在批处理和流处理的思考这篇笔记里提到过,bound 数据集其实也是在 unbound 数据集的一个划分,通常情况是 1 天/小时的数据。而论文则用更抽象的角度,提出了 window 的概念,用于在u...
一个环境导致读取 Kakfa TimeoutException 的问题
最近遇到一个比较奇怪的现象:相同 Flink 任务,换个运行环境就会报读取 kafka 失败,但是排查环境跟 Kafka 源的连通性又没有问题。
线上匆忙解决了,今天简化代码验证,感觉值得总结一版。
1. TimeoutException
org.apache.kafka.common.errors.TimeoutException: Timeout expired while fetching topic metadata
这个报错在读取 Kafka 时容易遇到,往往是 client 跟 bootstrap.server 的网络问题,或者 server 本身不可用导致。
但是从我的情况看,任务代码及配置是一致的,报错跟环境相关,唯一的疑点是任务 KafkaConsumer...
批处理和流处理的思考
1.时间的边界
1.1. T+1
时间分两种,处理时间和事件时间。大部分情况,数据处理都会选择事件时间。
以离线的天级 Hive 表任务为例,我们看看是如何产出 T+1 的数据的。
T+1 00:00 是处理时间,假定 A 表 Tday 的数据在 00:05 完全到达,B 表 T-day 的数据在 01:05 完全到达。
数据完全到达后,开始 merge Tday 的增量数据,然后根据需要生成全量表或者拉链表。可能的时间轴:
00:05 -> 00:30: merge A 表 Tday 的增量数据,记录到 A-inc
00:30 -> 01:35: merge A-inc + A-base,记录到 A 表 Tday 分区
01:05 ->...
238 post articles, 30 pages.