Home

2024年个人总结

1. 工作 2024 换了工作,互联网还是央企,对于很多程序员来说,To do or not to do,that is a question. 我们不可避免的置身于 AI 的浪潮之中,以后对于我们来说,未来究竟是全栈还是专业。对于许多中小公司,是更依赖云厂商,还是会依赖内部员工。我也思考不清楚,不如把这个问题放到 2025 年拭目以待吧。 2. 读书 下半年读书很少,但是见识涨了很多。曹雪芹老先生说:世事洞明皆学问 人情练达即文章。所以也算是间接读了很多书吧。 书名 一句话总结 智慧的疆界 想要去了解 AI 历史读的第一本书,推荐。飞机不会像鸟上下扇动翅膀,但是可以在天上...

Read more

Flink - Timer定时器

1. Timer 系统收到 1 条数据,计算,输出 0~N 条数据,这种 Event-driven 的方式是最简单和自然的。 但实际上,由于存在乱序、丟数,以及业务周期性更新的需求,计算还会依赖于时间触发,例如Dataflow Model的第三节 IMPLEMENTATION & DESIGN 的场景。 这些场景依赖于 Timer,Flink 的窗口也是基于 Timer 实现。 Timer 不是简单的时间触发回调,Process Function#Timers文档介绍了 Timers,主要有几点: ProcessingTime 和 EventTime 都是由 TimerService 维护的,定时触发用户的 onTimer 方法 TimerService 会...

Read more

Flink - 窗口理论、实现

1. Theory - Dataflow Model Dataflow Model这篇论文,对大数据的处理范式做了总结,并且提出了一套处理模型。 1.1. Window 数据转换操作,有两种: ParDo: 1->N,例如 map/flatmap/filter 等,这类操作在 unbound 和 bound 数据集上没有区别 GroupByKey: 聚合操作在 bound 数据集很自然;在 unbound 数据集上,既然数据不会结束,就需要解决何时聚合的问题。 之前在批处理和流处理的思考这篇笔记里提到过,bound 数据集其实也是在 unbound 数据集的一个划分,通常情况是 1 天/小时的数据。而论文则用更抽象的角度,提出了 window 的概念,用于在u...

Read more