jquery网站模板下载,如何建立一个论坛网站,公司公司网站建设,一呼百应网目录 第十一章 索引优化与查询优化11.1 数据准备11.2 索引失效案例11.2.1 全值匹配10.2.2 最佳左前缀法则10.2.3 主键插入顺序10.2.4 计算、函数、类型转换#xff08;自动或手动#xff09;导致索引失效10.2.5 范围条件右边的列索引失效10.2.6 不等于#xff08;! 或者 自动或手动导致索引失效10.2.5 范围条件右边的列索引失效10.2.6 不等于! 或者 索引失效10.2.7 is null 可以使用索引is not null 无法使用索引10.2.8 like 以通配符 % 开头索引失效10.2.9 OR 前后存在非索引的列索引失效10.2.10 数据库和表的字符集统一使用utf8mb4/utf8mb310.2.11 练习及一般性建议 10.3 关联查询优化10.3.1 数据准备10.3.1 采用左外连接10.3.3 采用内连接10.3.4 join 语句原理10.3.4.1 驱动表和被驱动表10.3.4.2 Simple Nested-Loop Join简单嵌套循环连接10.3.4.3 Index Nested-Loop Join索引嵌套循环连接10.3.4.4 Block Nested-Loop Join快嵌套循环连接10.3.4.5 Hash Join10.3.4.6 join 小结 10.4 子查询优化10.5 排序优化10.5.1 排序优化10.5.2 测试10.5.3 案例实战10.5.4 filesort 算法双路排序和单路排序 10.6 GROUP BY 优化10.7 优化分页查询10.8 优先考虑覆盖索引10.8.1 什么是覆盖索引10.8.2 覆盖索引的利弊 10.9 如何给字符串添加索引10.9.1 前缀索引10.9.2 前缀索引对覆盖索引的影响10.9.3 拓展内容 10.10 索引下推10.10.1 使用前后对比10.10.2 ICP 的开启、关闭10.10.3 ICP 使用案例10.10.4 开启和关闭ICP的性能对比10.10.5 ICP 的使用条件 10.11 其它查询优化策略10.11.1 EXISTS 和 IN 的区分10.11.2 COUNT(*) 与 COUNT具体字段效率10.11.3 关于 SELECT(*)10.11.4 LIMIT 1 对优化的影响10.11.5 多使用 COMMIT 10.12 淘宝数据库主键如何设计的?10.12.1 自增 ID 的问题10.12.2 业务字段做主键10.12.3 淘宝的主键设计10.12.4 推荐的主键设计10.12.5 有序 UUID 性能测试 上篇第十章、性能分析工具的使用
本文内容主要源于bilibili-尚硅谷-MySQL高级篇
第十一章 索引优化与查询优化
都有哪些纬度可以进行数据库调优简言之
索引失效、没有充分利用所以 —— 索引建立关联查询太多 JOIN设计缺陷或不得已的需求—— SQL 优化服务器调优及各个参数设置缓冲、 线程数—— 调整 my.cnf数据过多 —— 分库分表
关于数据库调优的知识点非常分散不同 DBMS不同的公司不同的职位不同的项目遇到的问题都不尽相同。
虽然 SQL 查询优化的技术很多但是大体方向上完全可以分为 物理查询优化 和 逻辑查询优化 两大块。
物理查询优化是通过 索引 和 表连接方式 等技术来进行优化这里重点需要掌握索引的使用逻辑查询优化就是通过 SQL等价变换 提升查询效率直白一点来讲就是换一种执行效率更高的查询写法 11.1 数据准备
学员表插 50 万条 班级表插 1 万条
步骤1建表
#班级表
CREATE TABLE class (
id INT(11) NOT NULL AUTO_INCREMENT,
className VARCHAR(30) DEFAULT NULL,
address VARCHAR(40) DEFAULT NULL,
monitor INT NULL ,
PRIMARY KEY (id)
) ENGINEINNODB AUTO_INCREMENT1 DEFAULT CHARSETutf8;#学员表
CREATE TABLE student (
id INT(11) NOT NULL AUTO_INCREMENT,
stuno INT NOT NULL ,
name VARCHAR(20) DEFAULT NULL,
age INT(3) DEFAULT NULL,
classId INT(11) DEFAULT NULL,
PRIMARY KEY (id)
#CONSTRAINT fk_class_id FOREIGN KEY (classId) REFERENCES t_class (id)
) ENGINEINNODB AUTO_INCREMENT1 DEFAULT CHARSETutf8;步骤2设置参数
命令开启允许创建函数设置
set global log_bin_trust_function_creators1;
# 不加global只是当前窗口有效。步骤3创建函数
随机产生字符串保证每条数据都不同
#随机产生字符串
DELIMITER //
CREATE FUNCTION rand_string(n INT) RETURNS VARCHAR(255)
BEGIN
DECLARE chars_str VARCHAR(100) DEFAULT
abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ;
DECLARE return_str VARCHAR(255) DEFAULT ;
DECLARE i INT DEFAULT 0;
WHILE i n DO
SET return_str CONCAT(return_str,SUBSTRING(chars_str,FLOOR(1RAND()*52),1));
SET i i 1;
END WHILE;
RETURN return_str;
END //
DELIMITER ;#假如要删除
#drop function rand_string;随机产生班级编号
#用于随机产生多少到多少的编号
DELIMITER //
CREATE FUNCTION rand_num (from_num INT ,to_num INT) RETURNS INT(11)
BEGIN
DECLARE i INT DEFAULT 0;
SET i FLOOR(from_num RAND()*(to_num - from_num1)) ;
RETURN i;
END //
DELIMITER ;#假如要删除
#drop function rand_num;步骤4创建存储过程
创建往 stu 表中插入数据的存储过程
#创建往stu表中插入数据的存储过程
DELIMITER //
CREATE PROCEDURE insert_stu( START INT , max_num INT )
BEGIN DECLARE i INT DEFAULT 0; SET autocommit 0; #设置手动提交事务REPEAT #循环SET i i 1; #赋值INSERT INTO student (stuno, name ,age ,classId ) VALUES((STARTi),rand_string(6),rand_num(1,50),rand_num(1,1000)); UNTIL i max_num END REPEAT; COMMIT; #提交事务
END //
DELIMITER ;#假如要删除
#drop PROCEDURE insert_stu;创建往 class 表中插入数据的存储过程
#执行存储过程往class表添加随机数据
DELIMITER //
CREATE PROCEDURE insert_class( max_num INT )
BEGIN DECLARE i INT DEFAULT 0; SET autocommit 0; REPEAT SET i i 1; INSERT INTO class ( classname,address,monitor ) VALUES(rand_string(8),rand_string(10),rand_num(1,100000)); UNTIL i max_num END REPEAT; COMMIT;
END //
DELIMITER ;#假如要删除
#drop PROCEDURE insert_class;步骤5调用存储过程
往 class 表添加 1 万条数据
#执行存储过程往class表添加1万条数据
CALL insert_class(10000);往 stu 表添加 50 万条数据这个时间会稍微有点长
#执行存储过程往stu表添加80万条数据
CALL insert_stu(100000,800000);查询下数据是否插入成功
SELECT COUNT(*) FROM class;
SELECT COUNT(*) FROM student;步骤6删除某表上的索引
创建删除索引存储过程。这是为了方便我们的学习因为我们在演示某个索引的效果时可能需要删除其它索引如果需要一个个手工删除就太费劲了。
DELIMITER //
CREATE PROCEDURE proc_drop_index(dbname VARCHAR(200),tablename VARCHAR(200))
BEGINDECLARE done INT DEFAULT 0;DECLARE ct INT DEFAULT 0;DECLARE _index VARCHAR(200) DEFAULT ;DECLARE _cur CURSOR FOR SELECT index_name FROM
information_schema.STATISTICS WHERE table_schemadbname AND table_nametablename AND
seq_in_index1 AND index_name PRIMARY ;
#每个游标必须使用不同的declare continue handler for not found set done1来控制游标的结束DECLARE CONTINUE HANDLER FOR NOT FOUND set done2 ;
#若没有数据返回,程序继续,并将变量done设为2OPEN _cur;FETCH _cur INTO _index;WHILE _index DOSET str CONCAT(drop index , _index , on , tablename );PREPARE sql_str FROM str ;EXECUTE sql_str;DEALLOCATE PREPARE sql_str;SET _index;FETCH _cur INTO _index;END WHILE;CLOSE _cur;
END //
DELIMITER ;执行存储过程
CALL proc_drop_index(dbname,tablename);11.2 索引失效案例
MySQL 中提高性能的一个最有效的方式是对数据表 设计合理的索引。索引提供了高效访问数据的方法并且加快查询的速度因此索引对查询的速度有着至关重要的影响。
使用索引可以 快速地定位 表中的某条记录从而提高数据库查询的速度提高数据库的性能如果查询时没有使用索引查询语句就会 扫描表中的所有记录。在数据量大的情况下这样查询的速度会很慢
大多数情况下都默认采用 B树 来构建索引。只是空间列类型的索引使用 R-树并且 MEMORY 表还支持 hash 索引。
其实用不用索引最终都是优化器说了算。优化器是基于什么的优化器基于 cost开销(CostBaseOptimizer)它不是基于 规则(Rule-BasedOptimizer)也不是基于语义。怎么样开销小就怎么来。另外SQL 语句是否使用索引跟数据库版本、数据量、数据选择度都有关系。 11.2.1 全值匹配
全值匹配可以充分的利用组合索引
系统中经常出现的 sql 语句如下当没有建立索引时possible_keys 和 key 都为 NULL
# SQL_NO_CACHE表示不使用查询缓存
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age30;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age30 AND classId4;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age30 AND classId4 AND NAME abcd;此时执行 SQL 数据查询速度会比较慢耗时 0.28s
mysql SELECT SQL_NO_CACHE * FROM student WHERE age30 AND classId4 AND NAME abcd;
Empty set, 1 warning (0.28 sec)接下来我们建立索引
CREATE INDEX idx_age ON student(age);CREATE INDEX idx_age_classid ON student(age,classId);CREATE INDEX idx_age_classid_name ON student(age,classId,NAME);建立索引后执行发现使用到了联合索引且耗时较短 0.00s
mysql EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age30 AND classId4 AND NAME abcd;
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
| 1 | SIMPLE | student | NULL | ref | idx_age,idx_age_classid,idx_age_classid_name | idx_age_classid_name | 73 | const,const,const | 1 | 100.00 | NULL |
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
1 row in set, 2 warnings (0.00 sec)mysql SELECT SQL_NO_CACHE * FROM student WHERE age30 AND classId4 AND NAME abcd;
Empty set, 1 warning (0.00 sec)从上面三个索引中优化器会根据查询的条件选择它认为比较合适的索引比如上述 SQL 中有通过 age、classId、name 作为查询条件而 idx_age_classid_name 这个联合索引正好是由这三个字段组成的所以选择了该索引。 注意 上面的索引可能不生效哦在数据量较大的情况下我们进行全值匹配 SELECT *优化器可能经过计算发现我们使用索引查询所有的数据后还需要对查找到的数据进行回表操作性能还不如全表扫描。 10.2.2 最佳左前缀法则
在 MySQL 建立联合索引时会遵守最佳左前缀匹配原则即最左优先在检索数据时从联合索引的最左边开始匹配。
1. 下面的 SQL 将使用索引 idx_age
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age30 AND student.nameabcd;2. 下面的 sql 不会使用索引因为我没有创建 classId 或者 name 的索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.classId4 AND student.nameabcd;3.下面的 sql 查询就是遵守这一原则的正确打开方式
EXPLAIN SELECT SQL_NO_CACHE * FROM student
WHERE student.age 30 AND student.classId4 AND student.nameabcd;思考下面sql会不会使用索引呢
EXPLAIN SELECT SQL_NO_CACHE * FROM student
WHERE student.classId4 AND student.age 30 AND student.nameabcd;答案是会的因为优化器会执行优化会调整查询条件的顺序不过在开发过程中我们还是要保持良好的开发习惯。
思考删去索引 idx_age_classid 和 idx_age只保留 idx_age_classid_name执行如下 sql会不会使用索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age 30 AND student.nameabcd;答案是 会但是只会用一部分。看看执行结果 使用了 idx_age_classid_name但是 key_len 是 5也就是说只使用了 age 部分的排序因为 age 是 int 类型4 个字节加上 null 值列表一共 5 个字节。因为 B树 是先按照 age 排序再按照 classid 排序最后按照 name 排序因此不能跳过 classId 的排序直接就使用 name 的排序。 结论 MySQL 可以为多个字段创建索引一个索引可以包括 16 个字段对于多列字段过滤条件要使用索引那必须按照索引建立时的顺序依次满足一旦跳过某个字段索引后面的字段都无法使用。如果查询条件中没有使用这些字段中的第一个字段时多列索引不会被使用。 10.2.3 主键插入顺序
对于一个使用 InnoDB 存储引擎的表来说在我们没有显式的创建索引时表中的数据实际上都是存储在 聚簇索引 的叶子节点的。而记录又是存储在数据页中数据页和记录又是按照记录 主键值从小到大 的顺序进行排序所以如果我们 插入 的记录的 主键是依次增大 的话那我们每插满一个数据页就换到下一个数据页继续插而如果我们插入的 主键值忽大忽小 的话就比较麻烦了假设某个数据页存储的记录已经满了它存储的主键值在 1~100 之间 如果此时再插入一条主键值为 9 的记录那它插入的位置就如下图 可这个数据页已经满了再插进来咋办呢?我们需要把当前 页面分裂 成两个页面把本页中的一些记录移动到新创建的这个页中。页面分裂和记录移位意味着什么意味着性能损耗 所以如果我们想尽量避免这样无谓的性能损耗最好让插入的记录的 主键值依次递增这样就不会发生这样的性能损耗了。 所以我们建议让主键具有 AUTO_INCREMENT让存储引擎自己为表生成主键而不是我们手动插入比如 person_info 表
CREATE TABLE person_info(id INT UNSIGNED NOT NULL AUTO_INCREMENT,name VARCHAR( 100) NOT NULL,birthday DATE NOT NULL,phone_number CHAR( 11) NOT NULL,country varchar( 1080) NOT NULL,PRIMARY KEY (id),KEY idx_name_birthday_phone_number (name( 10), birthdayphone_number)
);我们自定义的主键列 id 拥有 AUTO_INCREMENT 属性在插入记录时存储引擎会自动为我们填入自增的主键值。这样的主键占用空间小顺序写入减少页分裂。 10.2.4 计算、函数、类型转换自动或手动导致索引失效
举例1当使用函数时 这两条 sql 哪种写法更好 # 此语句比下一条要好能够使用上索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE abc%;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) abc; 创建索引 CREATE INDEX idx_name ON student(NAME); 第一种索引优化生效 mysql EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE abc%;
----------------------------------------------------------------------------------------------------------------------------
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
----------------------------------------------------------------------------------------------------------------------------
| 1 | SIMPLE | student | NULL | range | idx_name | idx_name | 63 | NULL | 22 | 100.00 | Using index condition |
----------------------------------------------------------------------------------------------------------------------------
mysql SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE abc%;
----------------------------------------
| id | stuno | name | age | classId |
----------------------------------------
| 4290221 | 247516 | aBCiho | 48 | 936 |
| ...... | ........ |
| 4243832 | 201127 | ABcIkb | 26 | 483 |
----------------------------------------
22 rows in set, 1 warning (0.00 sec)第二种索引优化失效 mysql EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) abc;
---------------------------------------------------------------------------------------------------------------
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
---------------------------------------------------------------------------------------------------------------
| 1 | SIMPLE | student | NULL | ALL | NULL | NULL | NULL | NULL | 499907 | 100.00 | Using where |
---------------------------------------------------------------------------------------------------------------
1 row in set, 2 warnings (0.00 sec)
mysql SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) abc;type 为 ALL表示没有使用到索引查询时间为 0.21 秒查询效率较之前低很多
举例2当条件有计算时 student 表的字段 stuno 上设置有索引 CREATE INDEX idx_sno ON student(stuno);索引优化失效 EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno1 900001; 可以看到如果对索引进行了表达式计算索引就失效了。这是因为我们需要把索引字段的值都取出来然后一次进行表达式的计算来进行条件判断因此采用的就是 全表扫描 的方式运行时间也会慢很多最终的运行时间为 2.538 秒。 去掉上面 SQL 的计算索引优化生效运行时间为 0.039 秒 EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno 900000; 举例3类型转换导致索引失效 student 表的字段 name 上设置索引 CREATE INDEX idx_name ON student(name);下列哪个 SQL 语句可以用到索引 # 未使用到索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name123;
# 使用到索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name123;name 123 发生类型转换相当于使用了隐形 函数导致索引失效 结论 设计实体类属性时一定要与数据库字段类型相对应。否则就会出现类型转换的情况 10.2.5 范围条件右边的列索引失效
先删除掉先前在 student 表中创建的索引
# 删除student表上的所有索引
CALL proc_drop_index(atguigudb2,student);再创建 age、classId、name 的联合索引
# 创建age、classId、NAME的联合索引
CREATE INDEX idx_age_classId_name ON student(age,classId,NAME);如果系统经常出现的sql如下那么索引 idx_age_classId_name 这个索引还能正常使用么
EXPLAIN SELECT SQL_NO_CACHE * FROM student
WHERE student.age30 AND student.classId20 AND student.name abc ;这里可以看到 key_len 的值为 10表明联合索引 idx_age_classId_name 只有 age 和 classId 起了作用而 name 没有起作用。
则说明不能正常起作用范围右边的列不能使用比如 和 between 等。
如果这样的 SQL 比较多的话应该建立联合索引
# 创建age、NAME、classId的联合索引
CREATE INDEX idx_age_name_classId ON student(age,name,classId);虽然说优化器会自动优化 AND 的排序但是建议遵循索引创建时排序的原则将范围查询条件放置语句最后
EXPLAIN SELECT SQL_NO_CACHE * FROM student
WHERE student.age30 AND student.name abc AND student.classId20;可以看到 key_len 的值变为 73可以看到联合索引上的列都用上了 应用开发中范围查询例如金额查询日期查询往往都是范围查询应将查询条件放置 where 语句最后。 10.2.6 不等于! 或者 索引失效
为 name 字段创建索引
CREATE INDEX idx_name ON student(NAME);查看索引是否失效
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name abc ;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name ! abc ;10.2.7 is null 可以使用索引is not null 无法使用索引
IS NULL 可以触发索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NULL;IS NOT NULL 无法触发索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NOT NULL;结论 最好在设计数据库的时候就将 字段设置为 NOT NULL 约束。比如可以将 INT 类型的字段默认设置为 0。将字符串的默认值设置为空字符串 “”。 扩展同理在查询中使用 not like 也无法使用索引导致全表扫描 10.2.8 like 以通配符 % 开头索引失效
在使用 LIKE 关键字进行查询的查询语句中如果匹配字符串的第一个字符为 %索引就不会其作用。只有 % 不在第一个位置索引才会起作用。 使用到索引 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE ab%; 未使用到索引 EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE %ab%;扩展Alibaba《Java 开发手册》 【强制】页面搜索 严禁左模糊或者全模糊如果需要请走搜索引擎来解决。 10.2.9 OR 前后存在非索引的列索引失效
在WHERE 子句中如果在 OR 前的条件列进行了索引而在 OR 后的条件列没有进行索引那么索引会失效。也就是说OR 前后的两个条件中的列都是索引时查询中才使用索引。
因为 OR 的含义就是两个只要满足一个即可因此 只有一个条件列进行了索引是没有意义的只要有条件列没有进行索引就会进行全表扫描因此索引的条件列也会失效。
先删除 student 表中的索引
# 删除student表上的所有索引
CALL proc_drop_index(atguigudb2,student);给 age 列创建索引
# 创建索引只有OR前面的字段有索引
CREATE INDEX idx_age ON student(age);查询语句使用 OR 关键字的情况
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age 10 OR classid 100;再为 OR 后面的字段创建一个索引
# 再为OR后面的字段创建一个索引
CREATE INDEX idx_cid ON student(classid);OR 前后存在非索引的列会导致索引失效是因为 OR 前后一个使用索引一个进行全表扫描还没有直接进行全表扫描更快~ 10.2.10 数据库和表的字符集统一使用utf8mb4/utf8mb3
统一使用 utf8mb45.5.3版本以上支持兼容性更好统一字符集可以避免由于字符集转换产生的乱码。不同的 字符集 进行比较前需要进行 转换 会造成索引失效。 10.2.11 练习及一般性建议
练习假设 index(a,b,c) 一般性建议
对于单列索引尽量选择针对当前 query 过滤性更好的索引在选择组合索引的时候当前 query 中过滤性最好的字段在索引字段顺序中位置越靠前越好在选择组合索引的时候尽量选择能够包含当前 query 中的 where 子句中更多字段的索引在选择组合索引的时候如果某个字段可能出现范围查询时尽量把这个字段放在索引次序的最后面
总之书写 SQL 语句时尽量避免造成索引失效的情况。 10.3 关联查询优化 10.3.1 数据准备
创建 type 表
CREATE TABLE IF NOT EXISTS type (
id INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
card INT(10) UNSIGNED NOT NULL,
PRIMARY KEY (id)
);创建 book 表
CREATE TABLE IF NOT EXISTS book (
bookid INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
card INT(10) UNSIGNED NOT NULL,
PRIMARY KEY (bookid)
);在 type 表中插入 20 条数据
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO type(card) VALUES(FLOOR(1 RAND() * 20));同样的在 book 表中插入 20 条数据
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));
INSERT INTO book(card) VALUES(FLOOR(1 RAND() * 20));10.3.1 采用左外连接
多表查询分为外连接和内连接而外连接又分为左外连接右外连接和满外连接。其中外连接中左外连接与右外连接可以通过交换表来相互改造其原理也是类似的而满外连接无非是二者的一个综合因此外连接我们只介绍左外连接的优化即可。
1.下面开始 EXPLAIN 分析当没有使用索引时可以看到是全表扫描
EXPLAIN SELECT SQL_NO_CACHE * FROM type LEFT JOIN book ON type.card book.card;在上面的查询 sql 中type 表是驱动表book 表是被驱动表。在执行查询时会先查找驱动表中符合条件的数据再根据驱动表查询到的数据在被驱动表中根据匹配条件查找对应的数据。因此被驱动表嵌套查询的次数是 20*20400 次。
实际上由于我们总是需要在被驱动表中进行查询优化器帮我们已经做了优化上面的查询结果中可以看到使用了 join buffer将数据缓存起来提高检索的速度。
2. 为了提高外连接的性能我们添加下索引
CREATE INDEX Y ON book(card); #【被驱动表】可以避免全表扫描EXPLAIN SELECT SQL_NO_CACHE * FROM type
LEFT JOIN book ON type.card book.card;对于外层表来说虽然其查询仍然是全表扫描但是因为是左外连接LEFT JOIN 左边的表的数据无论是否满足条件都会保留因此全表扫描也是不赖的。另外可以看到第二行的 type 变为了 refrows 也变成了 1优化比较明显。这是由左连接特性决定的。LEFT JOIN 条件用于确定如何从右表搜索行左边一定都有所以 右边是我们的关键点一定需要建立索引
3. 我们当然也可以给 type 表建立索引
CREATE INDEX X ON type(card); #【驱动表】无法避免全表扫描
# ALTER TABLE type ADD INDEX X (card);EXPLAIN SELECT SQL_NO_CACHE * FROM type LEFT JOIN book ON type.card book.card;注意外连接的关联条件中两个关联字段的类型、字符集一定要保持一致否则索引会失效 4. 删除索引 Y我们继续查询
# 删除索引
DROP INDEX Y ON book;EXPLAIN SELECT SQL_NO_CACHE * FROM type LEFT JOIN book ON type.card book.card;book 表使用 join buffer再次验证了左外连接左边的表是驱动表右边的表是被驱动表后面我们将与内连接在这一点进行对比。 左外链接左表是驱动表右表是被驱动表右外链接和此相反内链接则是按照数据量的大小数据量少的是驱动表多的是被驱动表 10.3.3 采用内连接
1. 删除现有的索引换成 inner join ( MySQL 自动选择驱动表)
drop index X on type;
drop index Y on book;# (如果已经删除了可以不用再执行该操作)
EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.cardbook.card;2. 为 book 表添加索引优化
ALTER TABLE book ADD INDEX Y (card);EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.cardbook.card;3. 向 type 表中再增加 20 条数据为 type 表增加索引优化观察情况
# 再向type表中插入20条数据此时type:40条数据book:20条数据 (过程省略)
ALTER TABLE type ADD INDEX X (card);EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.cardbook.card;面的两次查询中第一次是使用 type 作为驱动表book 作为被驱动表。而第二次是使用 book 作为驱动表type 作为被驱动表。对于内连接来说查询优化器可以决定谁作为驱动表谁作为被驱动表出现的。
4. 接着删除被驱动表的索引
DROP INDEX X ON type;EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.cardbook.card;被驱动表进行了反转。这是因为内连接优化器可以决定被驱动表。在只有一个表存在索引的情况下会选择存在索引的表作为被驱动表(因为被驱动表查询次数更多)。
5. 再加上索引观察结果
ALTER TABLE type ADD INDEX X (card);EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.cardbook.card;被驱动表又进行了反转 结论对于内连接来说在两个表的连接条件都存在索引的情况下会选择小表作为驱动表。小表驱动大表 10.3.4 join 语句原理
join 方式连接多表本质就是各个表之间数据的循环匹配。MySQL 5.5 版本之前MySQL 只支持一种表间关联方式就是嵌套循环。如果关联表的数据量很大则 join 关联的执行时间会非常漫长。在 MySQL 5.5 以后的版本中MySQL 通过引入 BNLJ 算法来优化嵌套执行。 10.3.4.1 驱动表和被驱动表
驱动表就是主表被驱动表就是从表、非驱动表。 对于内连接来说 SELECT * FROM A JOIN B ON ...A 并不一定就是驱动表优化器会根据你的查询语句做优化决定先查哪张表。先查询的哪张表就是驱动表反之就是被驱动表。通过 explain 关键字可以查看。 对于外连接来说 SELECT * FROM A LEFT JOIN B ON ...
# 或
SELECT * FROM B RIGHT JOIN A ON ...通常大家会认为 A 就是驱动表B 就是被驱动表。但也未必。测试如下 CREATE TABLE a(f1 INT,f2 INT,INDEX(f1)) ENGINEINNODB;
CREATE TABLE b(f1 INT,f2 INT) ENGINEINNODB;INSERT INTO a values(1,1),(2,2),(3,3),(4,4),(5,5),(6,6);
INSERT INTO b values(3,3),(4,4),(5,5),(6,6),(7,7),(8,8);
# 测试1
EXPLAIN SELECT * FROM a LEFT JOIN b ON(a.f1b.f1) WHERE (a.f2b.f2);明明我们写的是 a LEFT JOIN b但是我们执行 sql 查询时却是 b 作为了驱动表a 作为了被驱动表 实际上查询优化器会帮你把外连接改造为内连接然后根据其优化策略选择驱动表与被驱动表 10.3.4.2 Simple Nested-Loop Join简单嵌套循环连接
算法相当简单从表 A 取出一条数据 1遍历表 B将匹配到的数据放到 result。以此类推驱动表 A 中的每一条记录与被动驱动表 B 的记录进行判断 可以看到这种方式效率是非常低的以上述表 A 数据 100 条表 B 数据 1000 条则 A*B10 万次。开销统计如下
开销统计SNLJ外表扫描次数1内表扫描次数A读取记录数AB*AJOIN 比较次数B*A回表读取记录次数0
当然 MySQL 肯定不会这么粗暴的进行表的连接所以就出现了后面的两种其的优化算法。
另外从读取记录数来看AB*A 中驱动表A对性能的影响权重更大。因此我们优化器会选择小表驱动大表。 10.3.4.3 Index Nested-Loop Join索引嵌套循环连接
Index Nested-Loop Join 其优化的思路主要是为了 减少内层表数据的匹配次数所以要求被驱动表上必须 有索引 才行。通过外层表匹配条件直接与内层索引进行匹配避免和内层表的每条记录进行比较这样极大地减少了对内层表的匹配次数。 驱动表中的每条记录通过被驱动表的索引进行访问因为索引查询的成本是比较固定的故 MySQL 优化器都倾向于使用记录数少的表作为驱动表外表。
开销统计SNLJINLJ外表扫描次数11内表扫描次数A0读取记录数AB*AABmatchJOIN 比较次数B*AA*IndexHeight回表读取记录次数0Bmatchif possible
如果被驱动表加索引效率是非常高的如果索引不是主键索引所以还得进行一次回表查询。相比被驱动表的索引是主键索引效率会更高 10.3.4.4 Block Nested-Loop Join快嵌套循环连接
如果存在索引那么会使用 index 的方式进行 join如果 join 的列没有索引被驱动表要扫描的次数太多了。每次访问被驱动表其表中的记录都会被加载到内存中然后再从驱动表中取一条与其匹配匹配结束后清除内存然后再从驱动表中加载一条记录然后把驱动表的记录再加载到内存匹配这样周而复始大大增加了 IO 次数。为了减少被驱动表的 IO 次数就出现了 Block Nested-Loop Join 的方式
不再是逐条获取驱动表的数据而是一块一块的获取引入了 join buffer 缓冲区将驱动表 join 相关的部分数据列大小受 join buffer 的限制缓存到 join buffer 中然后全表扫描被驱动表被驱动表的每一条记录一次性和 join buffer 中的所有驱动表记录进行匹配内存中操作将简单嵌套循环中的多次比较合并成一次降低了被动表的访问频率。 注意 这里缓存的不只是关联表的列select 后面的列也会缓存起来。在一个有 N 个 join 关联的 SQL 中会分配 N-1 个 join buffer。所以查询的时候尽量减少不必要的字段可以 让 join buffer 中存放更多的列。 开销统计SNLJINLJBNLJ外表扫描次数111内表扫描次数A0A*used_column_size/join_buffer_size1读取记录数AB*AABmatchAB*(A*used_column_size/join_buffer_size)JOIN 比较次数B*AA*IndexHeightB*A回表读取记录次数0Bmatchif possible0
参数设置 block_nested_loop 通过 show variables like %optimizer_switch% 查看 block_nested_loop 状态。默认是开启的 join_buffer_size 驱动表能不能一次加载完要看 join buffer 能不能存储所有的数据默认情况下 join_buffer_size 256K join buffer size 的最大值在 32 位系统可以申请 4G而在 64 位操做系统下可以申请大于 4G 的 join_buffer 空间64 位 Windows 除外其大值会被截断为 4GB 并发出警告 10.3.4.5 Hash Join
从 MySQL 8.0.20 版本开始将废弃 BNLJ因为加入了 hash join 默认都会使用 hash join Nested Loop 对于被连接的数据子集较小的情况Nested Loop 是个较好的选择 Hash Join 是做 大数据集连接 时的常用方法优化器使用两个表中较小相对较小的表利用 join key 在内存中建立 散列表然后扫描较大的表并探测散列表找出与 Hash 表匹配的行 这种方式适用于较小的表完全可以放于内存中的情况这样总成本就是访问两个表的成本之和在表很大的情况下并不能完全放入内存这时优化器会将它分割成 若干不同的分区不能放入内存的部分就把该分区写入磁盘的临时段此时要求有较大的临时段从而尽量提高 I/O 的性能它能够很好的工作于没有索引的大表和并行查询的环境中并提供最好的性能。大多数人都说它是 Join 的重型升降机。Hash Join 只能应用于等值连接如 WHERE A.COL1 B.COL2这是由 Hash 的特点决定的
类型Nested LoopHash Join使用条件任何条件等值连接相关资源CPU、磁盘 I/O内存、临时空间特点当有高选择性索引或进行限制性搜索时效率比较高能够快速返回第一次的搜索结果当缺乏索引或者索引条件模糊时Hash Join 比 Nested Loop 有效。在数据仓库环境下如果表的记录数多效率高缺点当索引丢失或者查询条件限制不够时效率很低当表的记录数较多效率低为简历哈希表需要大量内存。第一次的结果返回较慢 10.3.4.6 join 小结
① 整体效率比较INLJ BNLJ SNLJ② 永远用小结果集驱动大结果集其本质就是减少外层循环的数据数量小的度量单位指的是 表行数*每行大小# 推荐
select t1.b,t2.* from t1 straight_join t2 on t1.bt2.b where t2.id100;
# 不推荐
select t1.b,t2.* from t2 straight_join t1 on t1.bt2.b where t2.id100;③ 为驱动表匹配的条件增加索引减少内层表的循环匹配次数④ 增大 join buffer size 的大小一次缓存的数据越多那么内层包的扫表次数就越少⑤ 减少驱动表不必要的字段查询字段越少join buffer 所缓存的数据就越多 10.4 子查询优化
MySQL 从 4.1 版本开始支持子查询使用子查询可以进行 SELECT 语句的嵌套查询即一个 SELECT 查询的结果作为另一个 SELECT 语句的条件。子查询可以一次性完成很多逻辑上需要多个步骤才能完成的操作 。
子查询是 MySQL 的一项重要的功能可以帮助我们通过一个 SQL 语句实现比较复杂的查询。但是子查询的执行效率不高。
原因 ① 执行子查询时MySQL 需要为内层查询语句的查询结果建立一个临时表 然后外层查询语句从临时表中查询记录。查询完毕后再撤销这些临时表 。这样会消耗过多的 CPU 和 IO 资源产生大量的慢查询。 ② 子查询的结果集存储的临时表不论是内存临时表还是磁盘临时表都 不会存在索引 所以查询性能会受到一定的影响。 ③ 对于返回结果集比较大的子查询其对查询性能的影响也就越大。
在 MySQL 中可以使用连接JOIN查询来替代子查询。 连接查询不需要建立临时表其速度比子查询要快如果查询中使用索引的话性能就会更好。
举例1查询学生表中是班长的学生信息 使用子查询 #创建班级表中班长的索引
CREATE INDEX idx_monitor ON class(monitor);#查询班长的信息
EXPLAIN SELECT * FROM student stu1WHERE stu1.stuno IN (SELECT monitorFROM class cWHERE monitor IS NOT NULL
);推荐使用多表查询 EXPLAIN SELECT stu1.* FROM student stu1 JOIN class c
ON stu1.stuno c.monitor
WHERE c.monitor IS NOT NULL;举例2取所有不为班长的同学 不推荐 #查询不为班长的学生信息
EXPLAIN SELECT SQL_NO_CACHE a.*
FROM student a
WHERE a.stuno NOT IN (SELECT monitor FROM class b WHERE monitor IS NOT NULL);推荐 # 转换成左连接查询
EXPLAIN SELECT SQL_NO_CACHE a.*
FROM student a LEFT OUTER JOIN class b
ON a.stuno b.monitor
WHERE b.monitor IS NULL;结论尽量不要使用 NOT IN 或者 NOT EXISTS用 LEFT JOIN xxx ON xx WHERE xx IS NULL 替代 10.5 排序优化 10.5.1 排序优化
在 WHERE 条件字段上加索引但是为什么在 ORDER BY 字段上还要加索引呢
在 MySQL 中支持两种排序方式分别是 FileSort 和 Index 排序。
Index 排序中索引可以保证数据的有序性就不需要再进行排序效率更更高。FileSort 排序则一般在 内存中 进行排序占用 CPU 较多。如果待排序的结果较大会产生临时文件 I/O 到磁盘进行排序的情况效率低。
优化建议:
① SQL 中可以在 WHERE 子句和 ORDER BY 子句中使用索引目的是在 WHERE 子句中 避免全表扫描在 ORDER BY 子句 避免使用 FileSort 排序。当然某些情况下全表扫描或者 FileSort 排序不一定比索引慢。但总的来说我们还是要避免以提高查询效率。②尽量使用 Index 完成 ORDER BY 排序。如果 WHERE 和 ORDER BY 后面是相同的列就使用单索引列如果不同就使用联合索引。③ 无法使用 Index 时需要对 FileSort 方式进行调优。 10.5.2 测试
执先案例前调用存储过程删除student和class表上的索引。只留主键
call proc_drop_index(atguigudb2,student);
call proc_drop_index(atguigudb2,class);以下是否能使用索引能否去掉 using filesort
过程一
EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid; EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid LIMIT 10;过程二
1. 创建索引但是不加 limit 限制索引失效
CREATE INDEX idx_age_classid_name ON student (age,classid,NAME);#不限制,索引失效
EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid; 我们不是建立了索引嘛为啥显示没有使用呢这是优化器通过计算发现这里需要回表的数据量特别大使用索引的性能代价反而比不上不用索引的。
2. 假如我们最后只查询二级索引中有的字段观察结果
# 会使用索引 覆盖索引
EXPLAIN SELECT SQL_NO_CACHE age,classid,name,id FROM student ORDER BY age,classid; 3. 假如我们限制排序返回的结果数量观察结果
#增加limit过滤条件使用上索引了。
EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid LIMIT 10;过程三order by 时顺序错误索引失效
#创建索引age,classid,stuno
CREATE INDEX idx_age_classid_stuno ON student (age,classid,stuno); #以下哪些索引失效?
# 失效
EXPLAIN SELECT * FROM student ORDER BY classid LIMIT 10;# 失效
EXPLAIN SELECT * FROM student ORDER BY classid,NAME LIMIT 10; # 可以
EXPLAIN SELECT * FROM student ORDER BY age,classid,stuno LIMIT 10; # 可以
EXPLAIN SELECT * FROM student ORDER BY age,classid LIMIT 10;# 可以
EXPLAIN SELECT * FROM student ORDER BY age LIMIT 10;过程四order by 时规则不一致, 索引失效 顺序错不索引方向反不索引
# 失效
EXPLAIN SELECT * FROM student ORDER BY age DESC, classid ASC LIMIT 10;# 失效
EXPLAIN SELECT * FROM student ORDER BY classid DESC, NAME DESC LIMIT 10;# 失效
EXPLAIN SELECT * FROM student ORDER BY age ASC,classid DESC LIMIT 10; # 可以
EXPLAIN SELECT * FROM student ORDER BY age DESC, classid DESC LIMIT 10;过程五无过滤不索引
# 可以
EXPLAIN SELECT * FROM student WHERE age45 ORDER BY classid;# 可以
EXPLAIN SELECT * FROM student WHERE age45 ORDER BY classid,NAME; # 失效
EXPLAIN SELECT * FROM student WHERE classid45 ORDER BY age;# 可以
EXPLAIN SELECT * FROM student WHERE classid45 ORDER BY age LIMIT 10;CREATE INDEX idx_cid ON student(classid);# 可以
EXPLAIN SELECT * FROM student WHERE classid45 ORDER BY age;小结
INDEX a_b_c(a,b,c)order by 能使用索引最左前缀 - ORDER BY a
- ORDER BY a,b
- ORDER BY a,b,c
- ORDER BY a DESC,b DESC,c DESC如果 WHERE 使用索引的最左前缀定义为常量则 order by 能使用索引
- WHERE a const ORDER BY b,c
- WHERE a const AND b const ORDER BY c
- WHERE a const ORDER BY b,c
- WHERE a const AND b const ORDER BY b,c不能使用索引进行排序
- ORDER BY a ASC,b DESC,c DESC /* 排序不一致 */
- WHERE g const ORDER BY b,c /*丢失a索引*/
- WHERE a const ORDER BY c /*丢失b索引*/
- WHERE a const ORDER BY a,d /*d不是索引的一部分*/
- WHERE a in (...) ORDER BY b,c /*对于排序来说多个相等条件也是范围查询*/10.5.3 案例实战
下面我们通过一个案例来实战 filesort 和 index 两种排序。对 ORDER BY 子句尽量使用 Index 方式排序避免使用 FileSort 方式排序。
场景查询年龄为30岁的且学生编号小于101000的学生按用户名称排序
执行案例前先清除 student 上的索引只留主键
DROP INDEX idx_age ON student;
DROP INDEX idx_age_classid_stuno ON student;
DROP INDEX idx_age_classid_name ON student;
#或者
call proc_drop_index(atguigudb2,student);测试以下的查询此时显然使用的是 filesort 进行排序
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age 30 AND stuno 101000 ORDER BY NAME ;结论type 是 ALL即最坏的情况。Extra 里还出现了 Using filesort也是最坏的情况。优化是必须的。 方案一为了去掉 filesort 我们可以创建特定索引
# 创建新索引
CREATE INDEX idx_age_name ON student(age,NAME);
# 进行测试可以看到已经使用了索引虽然仅仅使用到了age这个字段
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age 30 AND stuno 101000 ORDER BY NAME ;方案二尽量让 where 的过滤条件和排序使用上索引
DROP INDEX idx_age_name ON student;
# 建立三个字段的索引
CREATE INDEX idx_age_stuno_name ON student (age,stuno,NAME);
# 进行测试
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age 30 AND stuno 101000 ORDER BY NAME ;此时又使用了 filesort这是为什么呢这是因为此时 filesort 的性能更高。不信你可以对比执行下0.03sec 和 0.00sec看看时间的区别。结果竟然有 filesort 的 sql 运行速度超过了已经优化掉 filesort 的 sql而且快了很多几乎一瞬间就出现了结果。看来优化器做的工作真的特别灵活
原因所有的排序都是在条件过滤之后才执行的。所以如果条件过滤大部分数据的话剩下几百几千条数据进行排序其实并不是很消耗性能即使索引优化了排序但实际提升性能很有限。相对的 stuno 10100 这个条件如果没有用到索引的话要对几万条数据进行扫描这是非常消耗性能的所以索引放在这个字段上性价比最高是最优选择。 结论 两个索引同时存在mysql 自动选择最优的方案。对于这个例子mysql 选择 idx_age_stuno_name。但是随着数据量的变化选择的索引也会随之变化的 。当【范围条件】和【group by 或者 order by】的字段出现二选一时优先观察条件字段的过滤数量如果过滤的数据足够多而需要排序的数据并不多时优先把索引放在范围字段上。反之亦然。 10.5.4 filesort 算法双路排序和单路排序
排序的字段若不在索引列上则 filesort 会有两种算法双路排序 和 单路排序
1. 双路排序慢
MySQL4.1 之前是使用双路排序字面意思就是两次扫描磁盘最终得到数据 读取行指针和 order by 列对他们进行排序然后扫描已经排序好的列表按照列表中的值重新从列表中读取对应的数据输出从磁盘取排序字段在 buffer 进行排序再从 磁盘取其他字段
2. 单路排序快
从磁盘读取查询需要的 所有列 按照 order by 列在 buffer 对它们进行排序然后扫描排序后的列表进行输出 它的效率更快一些避免了第二次读取数据。并且把随机 IO 变成了顺序 IO但是它会使用更多的空间 因为它把每一行都保存在内存中了。
结论及引申出的问题
由于单路是后出的总体而言好过双路但是用单路有问题 在 sort_buffer 中单路比多路要多占用很多空间因为单路是把所有字段都取出所以可能取出的数据的总大小超出了 sort_buffer 的容量导致每次只能取 sort_buffer 容量大小的数据进行排序创建 temp 文件多路合并排完再取 sort_buffer 容量大小再排…从而多次 I/O单路本来想省一次 I/O 操作反而导致了大量的 I/O 操作反而得不偿失
优化策略 尝试提高 sort_buffer_size 不管用哪种算法提高这个参数都会提高效率要根据系统的能力去提高因为这个参数是针对每个进程connection的 1M - 8M 之间调整。MySQL5.7InnoDB 存储引擎默认值都是 1048576 字节1MB 尝试提高 max_length_for_sort_data 提高这个参数会增加改进算法的概率 SHOW VARIABLES LIKE%max_length_for_sort_data%;但是如果设的太高数据总容量超出 sort_buffer_size 的概率就增大明显症状是高的磁盘 I/O 活动和低的处理器使用率。如果需要返回的列的总长度大于 max_length_for_sort_data使用双路算法否则使用单路算法。1024-8192 字节之间调整 Order by 时 select 是一个大忌最好只 Query 需要的字段 当 Query 的字段大小综合小于 max_length_for_sort_data而且排序字段不是 TEXT|BLOG 类型时会改进后的算法——单路排序否则用老算法——多路排序两种算法的数据都有可能超出 sort_buffer_size 的容量超出之后会创建 tmp 文件进行合并排序导致多次 I/O但是用单路排序算法的风险会更大一些所以要提高 sort_buffer_size 10.6 GROUP BY 优化
group by 使用索引的原则几乎跟 order by 一致 group by 即使没有过滤条件用到索引也可以直接使用索引group by 先排序再分组遵照索引建的最佳左前缀法则当无法使用索引列增大 max_length_for_sort_data 和 sort_buffer_size 参数的设置where 效率高于 having能写在 where 限定的条件就不要写在 having 中了减少使用 order by和业务沟通能不排序就不排序或将排序放到程序端去做。Order by、group by、distinct 这些语句较为耗费 CPU数据库的 CPU 资源是极其宝贵的。包含了 order by、group by、distinct 这些查询的语句where 条件过滤出来的结果集请保持在 1000 行以内否则 SQL 会很慢 10.7 优化分页查询
一般分页查询时通过创建覆盖索引能够比较好地提高性能。一个常见有非常头疼的问题就是 limit 2000000,10此时需要 MySQL 排序前 2000010 记录仅仅返回 2000000-2000010 的记录其他记录丢弃查询排序的代价非常大
EXPLAIN SELECT * FROM student LIMIT 2000000,10;优化思路一
在索引上完成排序分页操作最后根据主键关联回原表查询所需要的其他列内容
EXPLAIN SELECT * FROM student t,(SELECT id FROM student ORDER BY id LIMIT 2000000,10) a
WHERE t.id a.id;优化思路二
该方案适用于主键自增的表可以把 Limit 查询转换成某个位置的查询
EXPLAIN SELECT * FROM student WHERE id 2000000 LIMIT 10;10.8 优先考虑覆盖索引 10.8.1 什么是覆盖索引
索引是高效找到行的一个方法但是一般数据库也能使用索引找到一个列的数据因此它不必读取整个行。毕竟索引叶子节点存储了它们索引的数据当能通过读取索引就可以得到想要的数据那就不需要读取行了。 一个索引包含了满足查询结果的数据就叫做覆盖索引。
非聚簇复合索引的一种形式它包括在查询里的 SELECT、JOIN 和 WHERE 子句用到的所有列即建索引的字段正好是覆盖查询条件中所涉及的字段。
简单说就是 索引列主键 包含 SELECT 到 FROM 之间查询的列
举例一
#删除之前的索引
DROP INDEX idx_age_stuno ON student;CREATE INDEX idx_age_name ON student (age,NAME);EXPLAIN SELECT * FROM student WHERE age 20;EXPLAIN SELECT age,NAME FROM student WHERE age 20;注意 前面我们提到如果使用上 就不会使用上索引了 并不是绝对的。比如上面这条 SQL 就用上了Attention我们讲解的关于 索引失效以及索引优化都是根据效率来决定的。对于二级索引来说查询时间 二级索引计算时间 回表查询时间由于我们使用的是覆盖索引回表查询时间 0索引优化器考虑到这一点就使用上二级索引了 举例二
EXPLAIN SELECT * FROM student WHERE NAME LIKE %abc;EXPLAIN SELECT id,age FROM student WHERE NAME LIKE %abc;同上由于也使用了覆盖索引最终 SQL 执行也正常使用上了索引 10.8.2 覆盖索引的利弊
好处
1. 避免 Innodb 表进行索引的二次查询回表
Innodb 是以聚集索引的顺序来存储的对于 Innodb 来说二级索引在叶子节点中所保存的是行的主键信息如果是用二级索引查询数据在查找到相应的键值后还需通过主键进行二次查询才能获取我们真实所需要的数据。
在覆盖索引中二级索引的键值中可以获取所要的数据避免了对主键的二次查询减少了 IO 操作提升了查询效率。
2. 可以把随机 IO 变成顺序 IO 加快查询效率
由于覆盖索引是按键值的顺序存储的对于 I/O 密集型的范围查找来说对比随机从磁盘读取每一行的数据 I/O 要少的多因此利用覆盖索引在访问时也可以把磁盘的随机读取的 I/O 转变成索引查找的顺序 I/O。
由于覆盖索引可以减少树的搜索次数显著提升查询性能所以使用覆盖索引是一个常用的性能优化手段。
弊端
索引字段的维护 总是有代价的。因此在建立冗余索引来支持覆盖索引时就需要权衡考虑了。这是业务 DBA或者称为业务数据架构师的工作。 10.9 如何给字符串添加索引
有一张教师表表定义如下
create table teacher(ID bigint unsigned primary key,email varchar(64),...
)engineinnodb;教师要使用邮箱登录所以业务代码中一定会出现类似于这样的语句:
mysql select col1, col2 from teacher where emailxxx; 如果 email 这个字段上没有索引那么这个语句就只能做 全表扫描 10.9.1 前缀索引
MySQL 是支持前缀索引的。默认地如果你创建索引的语句不指定前缀长度那么索引就会包含整个字符串
mysql alter table teacher add index index1(email);
#或
mysql alter table teacher add index index2(email(6));这两种不同的定义在数据结构和存储上有什么区别呢下图就是这两个索引的示意图 以及 如果使用的是 index1 即 email 整个字符串的索引结构执行顺序是这样的
从 index1 索引树找到满足索引值是 zhangssxyzxxx.com 的这条记录取得 ID2 的值到主键上查到主键值是 ID2 的行判断 email 的值是正确的将这行记录加入结果集取 index1 索引树上刚刚查到的位置的下一条记录发现已经不满足 email’zhangssxyzxxx.com’ 的条件了循环结束
这个过程中只需要回主键索引取一次数据所以系统认为只扫描了一行
如果使用的是 index2即 email(6) 索引结构执行顺序是这样的
从 index2 索引树找到满足索引值是 zhangs 的记录找到的第一个是 ID1到主键上查到主键值是 ID1 的行判断出 email 的值不是 zhangssxyzxxx.com这行记录丢弃取 index2 上刚刚查到的位置的下一条记录发现仍然是 zhangs取出 ID2再到 ID 索引上取整行然后判断这次值对了将这行记录加入结果集重复上一步直到在 idxe2 上取到的值不是 zhangs 时循环结束
也就是说 使用前缀索引定义好长度就可以做到既节省空间又不用额外增加太多的查询成本。 前面已经讲过区分度区分度越高越好。因为区分度越高意味着重复的键值越少 10.9.2 前缀索引对覆盖索引的影响
前面我们说了使用前缀索引可能会增加扫描行数这会影响到性能。其实前缀索引的影响不止如此我们再看一下另外一个场景
如果使用 index1即 email 整个字符串的索引结构的话可以利用覆盖索引从 index1 查到结果后直接就返回了不需要回到 ID 索引再去查一次。而如果使用 index2即 email(6) 索引结构的话就不得不回到 ID 索引再去判断 email 字段的值。
即使你将 index2 的定义修改为 email(18) 的前缀索引这时候虽然 index2 已经包含了所有的信息但 InnoDB 还是要回到 id 索引再查一下因为系统并不确定前缀索引的定义是否截断了完整信息。
select id,email from teacher where emailsonghongkangexxx.com;结论使用前缀索引就用不上覆盖索引对查询性能的优化了这也是你在选择是否使用前缀索引时需要考虑的一个因素。 10.9.3 拓展内容
对于类似于邮箱这样的字段来说使用前缀索引的效果可能还不错。但是遇到前缀的区分度不够好的情况时我们要怎么办呢?
比如我们国家的身份证号一共 18 位其中前 6 位是地址码所以同一个县的人的身份证号前 6 位一般会是相同的。
假设你维护的数据库是一个市的公民信息系统这时候如果对身份证号做长度为 6 的前缀索引的话这个索引的区分度就非常低了。按照我们前面说的方法可能你需要创建长度为 12 以上的前缀索引才能够满足区分度要求。
但是索引选取的越长占用的磁盘空间就越大相同的数据页能放下的索引值就越少搜索的效率也就会越低。
那么如果我们能够确定业务需求里面只有按照身份证进行等值查询的需求还有没有别的处理方法呢?这种方法既可以占用更小的空间也能达到相同的查询效率。
第一种方式是使用倒序存储
如果你存储身份证号的时候把它倒过来存每次查询的时候
mysql select field list from teacher where id_cardreverse(input_id_card_string);由于身份证号的最后 6 位没有地址码这样的重复逻辑所以最后这 6 位很可能就提供了足够的区分度。当然实践中你还要使用 count(distinct) 方法去做验证。
第二种方式是使用 hash 字段
你可以在表上再创建一个整数字段来保存身份证的校验码同时在这个字段上创建索引。
mysql alter table teacher add id_card_crc int unsignedadd index(id_card_crc);然后每次插入新记录的时候都同时用 crc32() 这个函数得到校验码填到这个新字段由于校验码可能存在冲突也就是说两个不同的身份证号通过 crc32() 函数得到的结果可能是相同的所以你的查询语句 where 部分要判断 id_card 的值是否精确相同。
mysql select field list from twhere id_card_rccrc32(input_id_card_string) and id_cardinput id_card_string这样索引的长度变成了 4 个字节比原来小了很多。 从查询效率上看使用 hash 字段方式的查询性能相对更稳定一些因为 crc32 算出来的值虽然有冲突的概率但是概率非常小可以认为每次查询的平均扫描行数接近 1。而倒序存储方式毕竟还是用的前缀索引的方式也就是说还是会增加扫描行数。 10.10 索引下推
index Condition Pushdown(ICP) 是 MySQL 5.6 中新特性是一种在存储引擎层使用索引过滤数据的一种优化方式。ICP 可以减少存储引擎访问基表的次数以及 MySQL 服务器访问存储引擎的次数。 10.10.1 使用前后对比
在不使用 ICP 索引扫描的过程
storage 层只将满足 index key 条件的索引记录对应的整行记录取出返回给 server 层server 层对返回的数据使用后面的 where 条件过滤直至返回最后一行
使用 ICP 扫描的过程
storage层首先将 index key 条件满足的索引记录区间确定然后在索引上使用 index filter 进行过滤。将满足的 index filter 条件的索引记录才去回表取出整行记录返回 server 层。不满足 index filter 条件的索引记录丢弃不回表、也不会返回 server 层server 层对返回的数据使用 table filter 条件做最后的过滤
使用前后的成本差别
使用前存储层多返回了需要被 index filter 过滤掉的整行记录使用 ICP 后直接就去掉了不满足 index filter 条件的记录省去了他们回表和传递到 server 层的成本ICP 的加速效果取决于在存储引擎内通过 ICP 筛选掉的数据的比例 索引中包含这个字段但是没有使用到这个字段的索引(比如 %a% )却可以使用这个字段在索引中进行条件过滤从而减少回表的记录条数这种情况就叫做索引下推 10.10.2 ICP 的开启、关闭
默认情况下启用索引条件下推。可以通过设置系统变量 optimizer_switch 控制 indexcondition_pushdown
#关闭索引下推
SET optimizer_switchindex_condition_pushdownoff;#打开索引下推
SET optimizerswitchindexcondition_pushdownon;当使用索引条件下推时EXPLAIN 语句输出结果中 Extra 列内容显示为 Using index condition 10.10.3 ICP 使用案例
建表
CREATE TABLE people(id int NOT NULL AUTO_INCREMENT,zipcode varchar (20) cOLLATE utf8_bin DEFAULT NULL,firstname varchar (28) COLLATE utf8_bin DEFAULT NULL,lastname varchar(20) COLLATE utf8_bin DEFAULT NULL,address varchar ( 50) COLLATE utf8_bin DEFAULT NULL,PRIMARY KEY ( id ),KEY zip_last_first( zipcode, lastname, firstname)
) ENGINEInnoDB AUTO_INCREMENT5 DEFAULT CHARSETutf8mb3 COLLATEutf8_bin;插入数据
INSERT INTO people VALUES
( 1, 008801, 三, 张, 北京市),
( 2, 088882, 四, 李, 南京市),
( 3, 088883, 五, 王, 上海市),
( 4, 088001, 六, 赵, 天津市);为该表定义联合索引 zip_last_first(zipcode, lastname, firstname) 。如果我们知道了一个人的邮编但是不确定这个人的姓氏我们可以进行如下检索
SELECT * FROM people
WHERE zipcode 000001
AND lastname LIKE %张%
AND address LIKE %北京市%;执行查看 SQL 的查询计划Extra 中显示了 Using index condition 这表示使用了索引下推。即先使用索引的 zipcode 字段进行匹配然后 索引下推 使用 lastname 字段进行过滤最后再进行回表。
另外Using where 表示条件中包含需要过滤的非索引列的数据即 address LIKE %北京市% 这个条件并不是索引列需要在服务端过滤掉。
这个表中存在两个索引分别是
主键索引简图
12341,000001,三,张,北京市2,000002,四,李,北京市3,000003,五,王,北京市3,000001,六,赵,北京市
二级索引 zip_last_first 简图这里省略了数据页等信息)
000001,三,张000002,四,李000003,五,王000001,六,赵1234
下面我们关闭 ICP 查看执行计划
mysql SET optimizer_switch index_condition_pushdownoff;
Query 0K,0 rows affected (0.02秒)查看执行计划已经没有了 Using index condition表示没有使用 ICP
SELECT * FROM people
WHERE zipcode 000001
AND lastname LIKE %张%
AND address LIKE %北京市%;10.10.4 开启和关闭ICP的性能对比
创建存储过程主要目的就是插入很多 000001 的数据这样查询的时候为了在存储引擎层做过滤减少 IO也为了减少缓冲池缓存数据页没有IO的作用。
DELIMITER //
CREATE PROCEDURE insert_people( max_num INT )
BEGIN
DECLARE i INT DEFAULT 0;
SET autocommit 0 ;
REPEAT
SET i i 1;
INSERT INTO people ( zipcode , firstname, lastname , address ) VALUES ( 000001六赵天津市);
UNTIL i max_num
END REPEAT;
COMMIT ;
END //DELIMITER ;调用存储过程
call insert_people(10000000) ;首先打开 profiling
set profiling 1;执行 SQL 语句此时默认打开索引下推
SELECT * FROM people WHERE zipcode080001 AND lastname LIKE%张%;再次执行 SQL语句不使用索引下推
SELECT /* no_icp (people) */ * FROM people WHERE zipcode 000001AND lastname LIKE %张%;查看当前会话所产生的所有 profiles
结果如下 多次测试效率对比来看使用 ICP 优化的查询效率会好一些。这里建议多存储一些数据效果更明显。 10.10.5 ICP 的使用条件
如果表访问的类型为 range、ref、eq_ref 和 ref_or_null 可以使用 ICPICP 可以用于 InnoDB 和 MyISAM 表包括分区表 InnoDB 和 MyISAM 表对于 InmoDB 表ICP 仅用于 二级索引ICP 的目标是减少全行读取次数从而减少 IO 操作当 SQL 使用覆盖索引时不支持 ICP因为这种情况下使用 ICP 不会减少 IO相关子查询的条件不能使用 ICP 10.11 其它查询优化策略 10.11.1 EXISTS 和 IN 的区分
不太理解哪种情况下应该使用 EXISTS哪种情况应该用 IN。选择的标准是看能否使用表的索引吗?
索引是个前提其实选择与否还是要看表的大小。你可以将选择的标准理解为 小表驱动大表。在这种方式下效率是最高的。
比如下面这样
SELECT * FROM A WHERE cc IN (SELECT cc FROM B)SELECT * FROM A WHERE EXISTS (SELECT cc FROM B WHERE B.cc A.cc)当 A 小于 B 时用 EXISTS。因为 EXISTS 的实现相当于外表循环实现的逻辑类似于
for i in Afor j in Bif j.cc i.cc then ...当 B 小于 A 时用 IN因为实现的逻辑类似于
for i in Bfor j in Aif j.cc i.cc then ...结论哪个表小就用哪个表来驱动A 表小就用 EXISTS B 表小就用 IN 10.11.2 COUNT(*) 与 COUNT具体字段效率
在 MySQL 中统计数据表的行数可以使用三种方式 SELECT COUNT(*)、SELECT COUNT(1) 和 SELECT COUNT (具体字段)使用这三者之间的查询效率是怎样的
前提如果你要统计的是某个字段的非空数据行数则另当别论毕竟比较执行效率的前提是结果一样才可以。
环节1 COUNT(*) 和 COUNT(1) 都是对所有结果进行 COUNTCOUNT(*) 和 COUNT(1) 本质上并没有区别二者执行时间可能略有差别不过你还是可以把它俩的执行效率看成是相等的。如果有 WHERE 子句则是对所有符合筛选条件的数据行进行统计如果没有 WHERE 子句则是对数据表的数据行数进行统计。
环节2 如果是 MylSAM 存储引擎统计数据表的行数只需要 O(1) 的复杂度这是因为每张 MvlSAM 的数据表都有一个 meta 信息存储了 row_count 值而一致性则由表级锁来保证。
如果是 InnoDB 存储引擎因为 InnoDB 支持事务采用行级锁和 MVCC 机制所以无法像 MyISAM 一样维护一个 row_count 变量因此需要采用扫描全表是 O(n) 的复杂度进行循环 计数的方式来完成统计。
环节3 在 InnoDB 引擎中如果采用 COUNT(具体字段) 来统计数据行数要尽量采用二级索引。因为主键采用的索引是聚簇索引聚簇索引包含的信息多明显会大于二级索引。对于 COUNT(*) 和 COUNT(1) 来说它们不需要查找具体的行只是统计行数系统会自动采用占用空间更小的二级索引来进行统计。
如果有多个二级索引会使用 keylen 小的二级索引进行扫描。当没有二级索引的时候才会采用主键索引来进行统计。 10.11.3 关于 SELECT(*)
在表查询中建议明确字段不要使用 * 作为查询的字段列表推荐使用 SELECT 字段列表 查询。原因
MySQL 在解析的过程中会通过 查询数据字典 将 * 按序转换成所有列名这会大大的耗费资源和时间无法使用 覆盖索引 10.11.4 LIMIT 1 对优化的影响
针对的是会扫描全表的 SQL 语句如果你可以确定结果集只有一条那么加上 LIMIT 1 的时候当找到一条结果的时候就不会继续扫描了这样会加快查询速度。
如果数据表已经对字段建立了唯一索引那么可以通过索引进行查询不会全表扫描的话就不需要加上 LIMIT 1 了。 10.11.5 多使用 COMMIT
只要有可能在程序中尽量多使用 COMMIT这样程序的性能得到提高需求也会因为 COMMIT 所释放的资源而减少。
COMMIT 所释放的资源
回滚段上用于恢复数据的信息被程序语句获得的锁redo / undo log buffer 中的空间管理上述 3 种资源中的内部花费 10.12 淘宝数据库主键如何设计的?
淘宝的数据库主键是如何设计的
大部分人会回答如此自信用 8 字节的 BIGINT 做主键而不要用 INT。
这样的回答只站在了数据库这一层而没有 从业务的角度 思考主键所以是不行的。 10.12.1 自增 ID 的问题
自增 ID 做主键简单易懂几乎所有数据库都支持自增类型只是实现上各自有所不同而已。自增 ID 除了简单其他都是缺点总体来看存在以下几方面的问题 ① 可靠性不高 存在自增 ID 回溯的问题这个问题直到最新版本的 MySQL 8.0 才修复 ② 安全性不高 对外暴露的接口可以非常容易猜测对应的信息。比如/User/1/ 这样的接口可以非常容易猜测用户 ID 的值为多少总用户数量有多少也可以非常容易地通过接口进行数据的爬取 ③ 性能差 自增 ID 的性能较差需要在数据库服务器端生成 ④ 交互多 业务还需要额外执行一次类似 last_insert_id() 的函数才能知道刚才插入的自增值这需要多一次的网络交互。在海量并发的系统中多 1 条 SQL就多一次性能上的开销 ⑤ 局部唯一性 最重要的一点自增 ID 是局部唯一只在当前数据库实例中唯一而不是全局唯一在任意服务器间都是唯一的。对于目前分布式系统来说这简直就是噩梦 10.12.2 业务字段做主键
为了能够唯一地标识一个会员的信息需要为 会员信息表 设置一个主键。那么怎么为这个表设置主键才能达到我们理想的目标呢? 这里我们考虑业务字段做主键。 表数据如下 在这表里哪个字段比较合适呢?
旋转卡号cardno
会员卡号cardno看起来比较合适因为会员卡号不能为空而且有唯一性可以用来标识一条会员记录
mysql CREATE TABLE demo.membermaster
- (
- cardno CHAR(8) PRIMARY KEY, -- 会员卡号为主键 - membername TEXT,
- memberphone TEXT,
- memberpid TEXT,
- memberaddress TEXT,
- sex TEXT,
- birthday DATETIME
- );
Query OK, 0 rows affected (0.06 sec)不同的会员卡号对应不同的会员字段 cardno 唯一地标识某一个会员。如果都是这样会员卡号与会员一一对应系统是可以正常运行的。
但实际情况是 会员卡号可能存在重复使用 的情况。比如张三因为工作变动搬离了原来的地址不再到商家的门店消费了 (退还了会员卡)于是张三就不再是这个商家门店的会员了。但是商家不想让这个会员卡空着就把卡号是 10000001 的会员卡发给了王五。
从系统设计的角度看这个变化只是修改了会员信息表中的卡号是 10000001 这个会员 信息并不会影响到数据一致性。也就是说修改会员卡号是 10000001 的会员信息 系统的各个模块都会获取到修改后的会员信息不会出现有的模块获取到修改之前的会员信息有的模块获取到修改后的会员信息 而导致系统内部数据不一致的情况。因此从 信息系统层面 上看是没问题的。
但是从使用系统的业务层面来看就有很大的问题 了会对商家造成影响。
比如我们有一个销售流水表(trans)记录了所有的销售流水明细。2020 年 12 月 01 日张三在门店购买了一本书消费了 89 元。那么系统中就有了张三买书的流水记录如下所示: 接着我们查询一下 2020 年 12 月 01 日的会员销售记录:
mysql SELECT b.membername,c.goodsname,a.quantity,a.salesvalue,a.transdate
- FROM demo.trans AS a
- JOIN demo.membermaster AS b
- JOIN demo.goodsmaster AS c
- ON (a.cardno b.cardno AND a.itemnumberc.itemnumber);
------------------------------------------------------------------
| membername | goodsname | quantity | salesvalue | transdate |
------------------------------------------------------------------
| 张三 | 书 | 1.000 | 89.00 | 2020-12-01 00:00:00 |
------------------------------------------------------------------
1 row in set (0.00 sec)如果会员卡 10000001 又发给了王五我们会更改会员信息表。导致查询时
mysql SELECT b.membername,c.goodsname,a.quantity,a.salesvalue,a.transdate
- FROM demo.trans AS a
- JOIN demo.membermaster AS b
- JOIN demo.goodsmaster AS c
- ON (a.cardno b.cardno AND a.itemnumberc.itemnumber);
------------------------------------------------------------------
| membername | goodsname | quantity | salesvalue | transdate |
------------------------------------------------------------------
| 王五 | 书 | 1.000 | 89.00 | 2020-12-01 00:00:00 |
------------------------------------------------------------------
1 row in set (0.01 sec)选择会员电话或身份证号
会员电话可以做主键吗不行的。在实际操作中手机号也存在 被运营商收回 重新发给别人用的情况。
那身份证号行不行呢好像可以。因为身份证决不会重复身份证号与一个人存在一一对 应的关系。可问题是身份证号属于 个人隐私 顾客不一定愿意给你。要是强制要求会员必须登记身份证号会把很多客人赶跑的。其实客户电话也有这个问题这也是我们在设计会员信息表的时候允许身份证号和电话都为空的原因。
所以建议尽量不要用跟业务有关的字段做主键。毕竟作为项目设计的技术人员我们谁也无法预测在项目的整个生命周期中哪个业务字段会因为项目的业务需求而有重复或者重用之类的情况出现。 刚开始使用 MySQL 时很多人都很容易犯的错误是喜欢用业务字段做主键想当然地认为了解业务需求但实际情况往往出乎意料而更改主键设置的成本非常高。 10.12.3 淘宝的主键设计
在淘宝的电商业务中订单服务是一个核心业务。请问 订单表的主键 淘宝是如何设计的呢是自增ID吗
打开淘宝看一下订单信息 从上图可以发现订单号不是自增 ID ! 我们详细看下上述 4 个订单号
1550672064762308113
1481195847180308113
1431156171142308113
1431146631521308113订单号是 19 位的长度且订单的最后 5 位都是一样的都是 08113。且订单号的前面 14 位部分是单调递增的。
大胆猜测淘宝的订单 ID 设计应该是订单ID 时间 去重字段 用户 ID 后 6 位尾号
这样的设计能做到全局唯一且对分布式系统查询及其友好。 10.12.4 推荐的主键设计
非核心业务对应表的主键自增 ID如告警、日志、监控等信息
核心业务主键设计至少应该是全局唯一且是单调递增。全局唯一保证在各系统之间都是唯一的单调递增是希望插入时不影响数据库性能
这里推荐最简单的一种主键设计UUID
UUID 的特点全局唯一占用 36 字节数据无序插入性能差
MySQL 数据库的 UUID 组成如下所示 U U I D 时间 U U I D 版本 16 字节 − 时钟序列 4 字节 − M A C 地址 12 字节 UUID 时间 UUID 版本16字节- 时钟序列4字节 - MAC 地址12字节 UUID时间UUID版本16字节−时钟序列4字节−MAC地址12字节
我们以 UUID 值e0ea12d4-6473-11eb-943c-00155dbaa39d 举例 为什么 UUID 是全局唯一的?
在 UUID 中时间部分占用 60 位存储的类似 TIMESTAMP 的时间戳但表示的是从1582-10-15 00:00:00.00 到现在的 100 ns 的计数。可以看到 UUID 存储的时间精度比 TIMESTAMPE 更高时间维度发生重复的概率降低到 1/100ns。
时钟序列是为了避免时钟被回拨导致产生时间重复的可能性。MAC地址用于全局唯一
为什么 UUID 占用 36 个字节?
UUID 根据字符串进行存储设计时还带有无用 - 字符串因此总共需要 36 个字节
为什么 UUID 是无序的?
因为 UUID 的设计中将时间低位放在最前面而这部分的数据是一直在变化的并且是无序
改造 UUID
若将时间高低位互换则时间就是单调递增的了也就变得单调递增了。MySQL 8.0 可以更换时间低位和时间高位的存储方式这样 UUID 就是有序的 UUID 了
MySQL 8.0 还解决了 UUID 存在的空间占用的问题除去了 UUID 字符串中无意义的 - 字符串并且将字符串用二进制类型保存这样存储空间降低为了 16 字节
可以通过 MySQL 8.0 提供的 uuid_to_bin 函数实现上述功能同样的MySQL 也提供了 bin_to_uuid 函数进行 转化
SET uuid UUID();
SELECT uuid,uuid_to_bin(uuid),uuid_to_bin(uuid,TRUE);通过函数 uuid_to_bin(uuid,true) 将 UUID 转化为有序 UUID 了。全局唯一 单调递增这不就是我们想要的主键 10.12.5 有序 UUID 性能测试
16 字节的有序 UUID相比之前 8 字节的自增 ID性能和存储空间对比究竟如何呢
我们来做一个测试插入 1 亿条数据每条数据占用 500 字节含有 3 个二级索引最终的结果如下所示 从上图可以看到插入 1 亿条数据有序 UUID 是最快的而且在实际业务使用中有序 UUID 在 业务端就可以生成 。还可以进一步减少 SQL 的交互次数。
另外虽然有序 UUID 相比自增 ID 多了 8 个字节但实际只增大了 3G 的存储空间还可以接受。 在当今的互联网环境中非常不推荐自增 ID 作为主键的数据库设计。更推荐类似有序 UUID 的全局唯一的实现。 另外在真实的业务系统中主键还可以加入业务和系统属性如用户的尾号机房的信息等。这样的主键设计就更为考验架构师的水平了。 如果不是 MySQL8.0 怎么办?
手动赋值字段做主键
比如设计各个分店的会员表的主键因为如果每台机器各自产生的数据需要合并就可能会出现主键重复的问题。
可以在总部 MySQL 数据库中有一个管理信息表在这个表中添加一个字段专门用来记录当前会员编号的最大值。
门店在添加会员的时候先到总部 MySQL 数据库中获取这个最大值在这个基础上加 1然后用这个值作为新会员的 id 同时更新总部 MySQL 数据库管理信息表中的当前会员编号的最大值。
这样一来各个门店添加会员的时候都对同一个总部 MySQL 数据库中的数据表字段进行操作就解决了各门店添加会员时会员编号冲突的问题。 上篇第十章、性能分析工具的使用
参考文章
《MySQL高级篇》八、索引优化与查询优化https://blog.csdn.net/LXYDSF/article/details/126606855