SQL的执行过程简析

对于这个执行过程，过去总是模糊不清，含糊的知道，会有SQL语法解析，执行计划分析等等。近日在工作中有相关学习，故写此文记录。

SQL

SELECT id,name,age FROM Users WHERE id = 18;

先来看这样一句SQL，在人的角度可以从中获取几个关键信息：这是一个“SELECT”操作，从特定的某张表里，需要取出一系列字段，并且附加有查询条件。

而数据库无法直接从字符串中解析出这些信息，它需要做一些额外的处理。

词法分析 lexer

首先需要先解析SQL中的关键字，例如 SELECT、FROM、WHERE、以及SQL中涉及的字段、表达式等。

而具体的关键字，是需要被定义的，例如可以采用YYAC的格式进行定义：

%token <ident>
    invalid
    explainKwd "EXPLAIN"
    selectKwd "SELECT"
    insertKwd "INSERT"
    updateKwd "UPDATE"
    deleteKwd "DELETE"
    into "INTO"
    values "VALUES"
    set "SET"

词法分析就能从SQL语句中，将关键字提取成为token，这些token，就是后面语法分析需要用到的了。

语法分析 parser

拿到了token，相当于士兵收到了具体的命令，但是士兵并不知道这些命令能否进执行，它需要判断命令是否符合格式标准。

比如 select后面要么是字段、要么是*，不能紧接着就是WHERE。

这些格式定义同样需要声明：

SelectStmtBasic:
    "SELECT" SelectOpt FieldList
    {
        fields := &ast.FieldList{Fields: $3.(*ast.SelectFieldList).List}
        st := &ast.SelectStmt{
            SelectOpt: $2.(*ast.SelectOpt),
            Distinct: $2.(*ast.SelectOpt).Distinct,
            Fields: fields,
            }
        $$ = st
    }

以select为例，SELECT关键字后面，需要是 SelectOPt（例如 DISTINCT），和字段列表。如果语法解析器无法从定义中找到匹配的，那么说明这段SQL是无效的。

而如果能够匹配到对应的规则，那么语法解析器就会生成对应的抽象语法数节点。例如 select节点，它拥有一个fileds子节点，记录了要查询哪些字段，还有Distinct节点记录了是否需要进行去重。

而当整个SQL都被解析为AST（抽象语法树）之后，语法解析器的工作也就完成了。

执行优化器

对于一行SQL，只看它的ast，我们只能解析出，它要做什么；但是通往罗马的道路不止一条，数据库需要选择出最优的执行方案。
例如：

SELECT name,age FROM Users WHERE name = "Kaniu"

在name建立了索引的情况下，那么就可以通过访问name字段的索引，去进行检索，然后拿着主键id，再回表去拿到age。

这是其中一种方案，但它并不一定是最好的，有人可能会疑惑，索引不是能优化性能吗，这肯定就是最好的执行方案了呀。

在通常情况下，可能索引性能更好，但是如果这张Users只有1条数据，
如果还走索引的话，不仅需要走一遍name的索引，还需要回表到主键索引。而如果采用全表扫描的话，那么一次访问就可以了。

所以这就是执行优化器存在的意义。它会根据数据库的统计信息，分析出开销最小的执行方案。

执行引擎与存储引擎

有了具体的执行方案，那么就需要开始干活了。执行引擎就是负责实现具体操作的。例如SORT操作，执行引擎就会采用对应的算法将数据排序。而存储引擎，则是提供原始数据的。例如要执行按索引过滤，那么执行引擎就需要从存储引擎中，将索引加载到内存。

在这一步执行完毕后，数据也被按照SQL中的要求进行过滤、排序、分组了。就可以将数据返回给客户端了。

北川广海の梦

北川广海の梦

SQL的执行过程简析

SQL

词法分析 lexer

语法分析 parser

执行优化器

执行引擎与存储引擎

北川广海の梦

北川广海の梦

SQL的执行过程简析

SQL

词法分析 lexer

语法分析 parser

执行优化器

执行引擎 与 存储引擎

执行引擎与存储引擎