Home

2022年个人总结

1. 工作 今年的工作内容按照上半年、下半年分成了两块内容: 上半年的主要精力还是在大数据实时计算上,对实时计算平台、底层架构、FlinkSQL都做了较大升级,整体上还算满意。美中不足的是Flink任务的资源动态扩缩容这个项目,由于精力不足没能亲力亲为,我司的导师制度出发点我非常喜欢,现在看来还是虎头蛇尾了。 6月份经历了一次组织的变动,当时触动还是比较大的。有那么两周我经常陷入很多问题的反思中,比如工作方法、结果导向、收益如何汇报等等,最后的结论是:坚持自我、持续学习。 下半年增加了负责任务调度系统,面临的是非常古老、重要且一直无人下定决心重构的一套系统。工作重心也从实时转到了离线这块,感觉成长还是比较大的。也促使我不断思考FlinkSQL和HiveSQL的区别(提交、编译D...

Read more

当我谈论数据湖时,在谈些什么

最近由于工作原因,又重新接触了一番数据湖。如果按照英文直译,数据湖(DataLake)是一个非常早的概念,在 Data Lake Wiki1里引用的最早一篇文章是Pentaho 的创始人兼 CTO James Dixon 发表的这篇博客:《Pentaho, Hadoop, and Data Lakes》2,发表在 2010 年。 而最近两年数据湖的文章,明显多了起来。这篇文章记录下我对数据湖的理解。 1. 流批一体 提到数据湖,就不得不说流批一体。刚接触大数据的时候,常听到的一个名词就是「流批一体」。背景可以用这样一张图表示: 最传统的数仓架构,其实也是最简单、最经典的。 随着数据量变大、时效性需求不同,逐步衍生出了后续的几种架构,当然,链路也更加复杂。复杂的链路自身,在...

Read more