Calcite-4:代码生成与编译
1. Csv表
之前记录了 Calcite 的架构和简化后的代码流程,这篇笔记回归下最开始Tutorial笔记里的 Csv 表,仿照写了一个可以 Debug 的例子(TutorialTest.scala):
val csvPath = getClass.getClassLoader.getResource("sales_from_calcite_sources").getPath
// val csvSchema = new CsvSchema(new File(csvPath), CsvTable.Flavor.SCANNABLE)
val csvSchema = new CsvSchema(new File(csvPath), CsvTable.Flavor.TRAN...
Calcite-3:处理流程的代码例子
单纯看Calcite-2里的架构图理解不深,这篇笔记通过代码示例补充下 SqlParser、SqlValiator、SqlToRelConverter 等的处理流程。
实现主要参考了1和源码单测里的CsvTest,使用 Book & Author 表,查询 SQL 跟关系代数里基本一致以方便前后对比,完整的代码可以参考CalciteProcessSteps.scala
1. SqlParser
val query =
"""SELECT b.id,
| b.title,
| b.publish_year,
| a.fname,
| a.lname
...
Calcite-2:关系代数、架构与处理流程
了解关系代数有助于从逻辑或者各类名词上理解 Calciate,惭愧的是我只记得学过高等代数、抽象代数,好在看了下影响不大,其实从使用关系数据库的时候就已经潜移默化的有这些概念了。
1. Relational Algebra
Relational algebra is at the heart of Calcite.
关系代数是跟 SQL 一一对应的,一条 SQL 查询语句,可以转换为一个由关系运算符组成的树。这么说可能有些读者没有准确的概念,举两个例子说明:
比如上一篇笔记里的 SQL:
SELECT name FROM EMPS WHERE EMPNO = 1
转化成关系代数:
π name
σ empno = 1 emps
图形化的结果:
其中 ...
Calcite-1:Tutorial
最开始了解 Calcite 的时候,印象最深的是众多名词。而由于 Calcite 的定位,其应用方式又多种多样,所以有一种以为看懂了,却还是不知道如何应用的感觉。这篇笔记,记录下我对 Calcite 的理解。
1. 背景
2005年,Michael Stonebraker 发表了“One size fits all” is an idea whose time has come and gone,即传统关系型数据库一招吃遍天的时代过去了。
事实证明确实如此,随着数据量的增长,各种数据库层出不穷,各有所长。除非硬件突破,短时间内我们也很难看到一统江湖(One size fits all)的局面。
2015年,Julian Hyde 在 XLDB 上做了一次演讲,题为Apache ...
数据湖笔记之一:Z-Order
Z-order curve,1966年就已经在应用了。但是在大数据崭露头角,似乎才是这几年的事情。最近看了数据湖的一些技术,想从细处着手,介绍下我理解的 Z-Order.
1. 背景
Z-Order 在地图的场景中应用非常常见,比如查找地图上某个点附近的信息。
假定我们的地图数据里有 N 个点,记录了对应的位置坐标(经纬度)、id、名称、信息等,要查找当前坐标附近 10 公里内的餐馆。最朴素的想法就是计算所有餐馆跟当前位置的距离,过滤 <= 10 公里的结果。不过数据量大肯定不行,太多的冗余计算了。
按照我的理解,坐标轴天然是递增的,所以二分法是一个不错的解决方案:如果在一维世界(x维度),创建一个 x->id 的辅助数组,性能足够。类比到二维世界(x、y维度),通...
235 post articles, 30 pages.