Home

1. JDBC 定义 Java Database Connectivity (JDBC) 定义了一套访问数据库的 API. Java Database Connectivity (JDBC) is an application programming interface (API) for the Java programming language which defines how a client may access a database.1 好处是几乎可以使用完全相同的代码，访问不同的数据库：MySQL、Hive、Doris、Presto 等等。定义在 package java.sql，主要包含了 DriverManager Driver Connection...

文件存储格式，即数据在磁盘上是如何组织的，比如 leveldb 的 sst 文件由 DataBlock、FilterBlock、IndexBlock、Footer 等组成。这种格式的设计，适应了单机写多读少、读取新写入数据的场景。 1. 大数据为何偏爱列存储 Apache ORC、Apache Parquet 都是典型的列存储格式，大数据的场景，为何偏爱列存储？首先无论场景如何变化，从单机到大数据，面临的磁盘性能是一致的，引用 Jeff Dean 演讲的数据1： Latency Comparison Numbers (~2012) Operation Time in Nano Seconds ...

前几天纷飞的大雪还未消融，周末又赶上降温。于是踏实关在屋里，快速读了一遍 linkedin/coral1 的代码，这篇笔记记录下整体流程。 1. 背景：SQL 重写的需求大数据领域，随着数据量变大、时效性要求越来越多样化，SQL 计算引擎也越来越多，从原来的 HiveSQL，到如今的 Presto/Trino、Flink、Spark。同时，随着 storage format、table format、table schema 各个方向的精细发展，SQL 的形式也越来越多，短期内也很难出现事实上的统一标准。 SQL 往往需要在不同执行计算引擎间变更，比如：分析师的 HiveSQL 运行很慢，希望能够修改为 TrinoSQL 执行数仓工程师的 HiveSQL，希望能够统...

微服务间调用链路要清晰，才能方便的进行后续的架构升级、核心链路演练等。大数据里的表/任务之间也是如此，同时由于任务量大，血缘系统的设计更加重要。这篇笔记记录下我理解的数据血缘系统。 1. 使用场景大数据很多功能都会依赖血缘，例如：数据开发：任务的修改、下线，影响产出表的操作，依赖血缘周知下游数据治理：通过血缘分析数据间的冗余依赖、是否存在依赖环数据资产：计算表的使用热度(血缘的入度、出度)、展示字段来源数据质量：字段质量的归因分析(上游) 因此数据血缘系统应当作为大数据的基石来建设。 2. 如何评价血缘做的好坏，评价标准有三点：准确率：表关系(输入、输出)、字段关系覆盖率：覆盖的任务、存储类型响应时间：血缘数据复杂，需要...

1. 简介 ANTLR(ANother Tool for Language Recognition)1是一个强大的 parser generator，可以根据规则生成 parser 代码，用于读取、处理、执行和翻译结构化或二进制数据。Hive/Trino/Spark/Flink/Doris/… 等常见大数据组件都用到了 ANTLR. 如果要实现 C++ 代码的解析器，需要提取出其中的变量、常量、关键字、注释；解析 JSON ，需要提取出{} [] '"；解析 SQL、Protobuf 也是如此。解析完成后，还需要能够遍历结果树，判断语法是否正确。 ANTLR 使用通用的方式解决了这一点，并对应分成两个步骤： LEXER: 输入流解析为 tokens PARSER: t...

之前讲工作流的启动，源头是t_ds_command表，这篇笔记讲讲该表数据是如何写入的，也就是 Crontab 的生效过程。 1. quartz 简单的 crontab 实现方式很多，java.util.Timer、spring @Scheduled、akka scheduler etc.。 quartz1也是一个调度框架，可以集成在 java 程序里，好处是持久化和分布式。我觉得 quartz 里最重要的概念有三个： JobDetail: 用户继承该基类实现自己的任务类，执行具体任务 Trigger: 任务触发器，比如一次性触发、Crontab 触发等 Scheduler: 调度器，接收 JobDetail，按照 Trigger 调度 JobBuilder...

1. 容错的必要性分布式系统使用集群提高了算力，也天然需要面对和解决单机不稳定的问题，比如常说的宕机、掉盘、网络抖动等。 Jeff Dean 多年前在斯坦福有过一个分享1，其中一些数字我觉得应该是架构谨记的: Typical first year for a new cluster: ~1 network rewiring (rolling ~5% of machines down over 2-day span) ~20 rack failures (40-80 machines instantly disappear, 1-6 hours to get back) ~5 racks go wonky (40-80 machines see 50% packet...

在工作流的生命周期里，初步介绍过工作流的各种状态。 1. 状态机如果我们实现一个任务调度系统，首要是梳理清楚任务状态。以 Flink 任务流程为例：提交：任务提交后，资源调度需要分配资源、初始化Container、启动JobManager、TaskManager等。因此任务首先是从初始化到提交中，再从提交成功到运行，当然任务也有可能因为各种原因导致提交失败。运行：运行中的任务，可能会成功，可能会失败，对流式任务，也有可能一直是运行。停止：任务在任何一个状态，都可能会收到停止的事件，同理会先变成停止中，再变成已停止，如果停止失败，那回到原来的状态。这个流程包含三元素：状态：初始化、提交中、运行、成功、失败、已停止，都是任务的状态事件...

JDBC

大数据列存储文件格式

linkedin/coral 代码速读

漫谈数据血缘系统

如何用 ANTLR 解析和重写SQL

DolphinScheduler-10: quartz

DolphinScheduler-9: 容错

DolphinScheduler-8: 状态