Home

上篇笔记介绍了 Checkpoint 相关的代码，关于源码的分析网上文章很多，通过断点调试也能大概了解 Checkpoint 的实现。 Checkpoint 的原理，在 Lightweight Asynchronous Snapshots for Distributed Dataflows 里有系统的描述，思路来源于最开始的这篇文章：Chandy-Lamport algorithm，没错，就是发明 Paxos 算法的那位。这篇笔记希望以简单易懂的方式介绍下我理解的 why checkpoint 以及解决思路。 1. Why 存储系统里的 snapshot，记录的是某个时间点存储的状态，存储可以恢复到这个时间点，用户也可以指定读取这个时间点时的存储内容。不同的 snapsh...

转眼21年已经过去了，无论是互联网还是所在的教育行业，这一年变化都挺大的。一年没有更新博客，主要是工作太忙，以及甩不掉的惰性。 1. 工作 1.1. 大数据实时计算这两年在作业帮负责大数据实时计算，互联网正在经历很大的变化，包括在线教育。身处其中自然也会有一些特别的体验，我个人觉得这是一个很好的审视的机会。工作内容上从业务架构转到大数据，虽然设计原则、衡量标准是通用的，但是实际执行起来不同路径差别很大。特别是对于中小公司，短期收益与长期收益同等重要，因此需要在经验较少的情况下摸索一条适合的路出来。这部分完成还算可以，既做架构又做平台再换位用户角度思考，同时抓平台功能、研发质量、稳定性，再加上人手较少，一年下来发际线有点后移。今年关于工作有两个比较大的感悟：找到适...

上篇笔记介绍了从用户视角看如何正确的应用 state，不过要想进一步确认一些猜测，例如对于 kafka-source，是如何确保snapshotState与emitRecord互相阻塞执行的，发送 CheckpointBarrier 时怎么保证 barrier 与普通数据的顺序性？这篇笔记比较简单，我们直接撸一下代码。 1. StackTrace 把上篇笔记例子里的getStackTrace的日志打开，当 source sink 位于不同的 vertex 时，source 的调用是从 SourceStreamTask -> StreamTask -> AbstractUdfStreamOperator: java.lang.Thread.getStackTrace(T...

前面介绍了读取 state，这篇笔记介绍下 state 是如何触发写入的。 1. Why 考虑订阅 Kafka 写 HBase 的场景：写入 HBase 时，为了获取最大的写入性能，可能会先缓存到内存然后批量写入消费 Kafka 时，需要记录当前的 offsets，方便重启时继续消费。因此，就需要有数据同步的机制，在上传 kafka 的 offsets 前，确保 hbase 收到了全部数据并且将内存的数据持久化，这就是 flink 里 checkpoint 的作用。 2. How Fault Tolerance via State Snapshots 里这张图从理论上解释的非常清楚: 简单来讲，相比 spark 物理上微批处理的方式，flink 在逻辑...

Flink - Why Checkpoint

2021年个人总结

Flink - State 之 Checkpoint 流程

Flink - State 之 Kafka 写入 HBase