Mysql 多列字段索引 最左匹配原则理解
背景
在理解Mysql 索引的时候,有看到一篇关于 最左匹配原则的博客,感觉写的挺有意思的,因此做下记录
多列字段索引他数据结构是什么样的?
索引的底层数据就是一颗BTree,那么联合索引(多列字段索引)也是一颗BTree,只不过联合索引的键值数量不是一个而是多个。构建一颗BTree只能根据一个值来构建,因此数据库依据联合索引最左的字段构建BTree。
我们可以看到最左列,a的值是有顺序的,而b的值是没有顺序的。所以b=2这种查询条件没办法利用索引,因为联合索引首先按照a排序的,b是无序的。
同时我们还发现在a值相等的情况下,b值又是按照顺序排序的,但是这种顺序是相对的。所以最左匹配原则遇上范围查询就会停止,剩下的字段都无法使用索引。打个比方: a=1 and b=2
中a,b字段都可以使用索引,因为在a值确定的情况下b是相对有序的,而a>1 and b=2
中a字段可以匹配上索引,但b值不可以,因为a的值是一个范围,在这个范围中b是无序的。
最左匹配原则是什么?
最左匹配原则: 最左优先,以最左边的为起点任何连续的索引都能匹配上。同时遇到范围查询(<,>,between,like)就会停止匹配。
举个例子
假如建立联合索引(a,b,c)
- 全值匹配查询时
select * from table_name where a = '1' and b = '2' and c = '3'
select * from table_name where b = '2' and a = '1' and c = '3'
select * from table_name where c = '3' and b = '2' and a = '1'
.........
上面的sql用到了索引。
where子句几个搜索条件顺序调换不影响查询结果,因为Mysql中有查询优化器,会自动优化查询顺序。
- 匹配左边的列时
select * from table_name where a = '1'
select * from table_name where a = '1' and b = '2'
select * from table_name where a = '1' and b = '2' and c = '3'
都是从最左边开始连续匹配的,都用到了索引
select * from table_name where b = '2'
select * from table_name where c = '3'
select * from table_name where b = '1' and c = '3'
这些没有从最左边开始,最后查询没有用到索引,用的是全表扫描.
select * from table_name where a = '1' and c = '3'
如果不连续时,只用到了a列的索引,b,c列索引都没用到
- 匹配列前缀
如果列时字符型的话,它的比较规则是先比较字符串的第一个字符,第一个字符小的哪个字符串就比较小,如果两个字符串第一个字符想通,那就再比较第二个字符,第二个字符比较小的那个字符串就比较小,以此类推比较字符串
如果a是字符类型,那么前缀匹配用的是索引,后缀和中缀只能全表扫描了
select * from table_name where a like 'As%'; //前缀都是排好序的,走索引查询
select * from table_name where a like '%As'//全表查询
select * from table_name where a like '%As%'//全表查询
- 匹配范围值
select * from table_name where a > 1 and a < 3
可以对最左边的列进行范围查询
select * from table_name where a > 1 and a < 3 and b > 1;
多个列同时进行范围查找时,只有对索引最左边的那个列进行范围查找才用索引,也就是只有a用到索引,在1<a<3范围内b是无序的,不能使用索引,找到1<a<3的记录后,只能根据条件b>1继续逐条过滤
- 精确匹配某一列并范围匹配另外一列
如果左边的列时精确查找的,右边的列可以进行范围查找
select * from table_name where a = 1 and b > 3;
a=1的情况下b是有序的,进行范围查找时走的是联合索引
- 排序
一版情况下,我们只能把记录加载到内存中,再用一些排序算法,比如快速排序,归并排序等在内存中对这些记录进行排序,有时候查询的结果集太大不能再内存中进行排序的话,还能暂时借助磁盘空间存放中间结果,排序操作完成后再把排好序的结果返回客户端。MYSQL中把这种在内存中或者磁盘上进行排序的方式统称为文件排序。文件排序非常慢,但如果order子句用到了索引,就有可能省去文件排序的步骤
select * from table_name order by a,b,c limit 10;
因为BTree本身就按照上述规则排序的,所以可以直接从索引中提取数据,然后进行回表操作取出该索引不包含的列就好了
order by的子句后面的顺序也必须按照索引列的顺序给出,比如:
select * from table_name order by b,c,a limit 10;
这种顺序颠倒的没用到索引
select * from table_name order by a limit 10;
select * from table_name order by a,b limit 10;
这种用到部分索引
select * from table_name where a =1 order by b,c limit 10;
联合索引左边列为常量,后边的列排序可以用到索引
参考资料:Mysql最左匹配原则