雪鹰领主,武道至尊帝临小说,完结小说

今天給大家分享個生產事故，一個由于 MySQL 分頁導致的線上事故，事情是這樣的～

背景

一天晚上 10 點半，下班后愉快的坐在在回家的地鐵上，心里想著周末的生活怎么安排。

突然電話響了起來，一看是我們的一個運維同學，頓時緊張了起來，本周的版本已經發布過了，這時候打電話一般來說是線上出問題了。

果然，溝通的情況是線上的一個查詢數據的接口被瘋狂的失去理智般的調用，這個操作直接導致線上的 MySQL 集群被拖慢了。

好吧，這問題算是嚴重了，匆匆趕到家后打開電腦，跟同事把 Pinpoint 上的慢查詢日志撈出來。

看到一個很奇怪的查詢，如下：

1POSTdomain/v1.0/module/method?order=condition&orderType=desc&offset=1800000&limit=500

domain、module 和 method 都是化名，代表接口的域、模塊和實例方法名，后面的 offset 和 limit 代表分頁操作的偏移量和每頁的數量，也就是說該同學是在翻第（1800000/500+1=3601）頁。初步撈了一下日志，發現有 8000 多次這樣調用。

這太神奇了，而且我們頁面上的分頁單頁數量也不是 500，而是 25 條每頁，這個絕對不是人為的在功能頁面上進行一頁一頁的翻頁操作，而是數據被刷了（說明下，我們生產環境數據有 1 億+）。

詳細對比日志發現，很多分頁的時間是重疊的，對方應該是多線程調用。

通過對鑒權的 Token 的分析，基本定位了請求是來自一個叫做 ApiAutotest 的客戶端程序在做這個操作，也定位了生成鑒權 Token 的賬號來自一個 QA 的同學。立馬打電話給同學，進行了溝通和處理。

分析

其實對于我們的 MySQL 查詢語句來說，整體效率還是可以的，該有的聯表查詢優化都有，該簡略的查詢內容也有，關鍵條件字段和排序字段該有的索引也都在，問題在于他一頁一頁的分頁去查詢，查到越后面的頁數，掃描到的數據越多，也就越慢。

我們在查看前幾頁的時候，發現速度非常快，比如 limit 200，25，瞬間就出來了。但是越往后，速度就越慢，特別是百萬條之后，卡到不行，那這個是什么原理呢。

先看一下我們翻頁翻到后面時，查詢的 sql 是怎樣的：

1select*fromt_namewherec_name1='xxx'orderbyc_name2limit2000000,25;

這種查詢的慢，其實是因為 limit 后面的偏移量太大導致的。

比如像上面的 limit 2000000，25，這個等同于數據庫要掃描出 2000025 條數據，然后再丟棄前面的 20000000 條數據，返回剩下 25 條數據給用戶，這種取法明顯不合理。

大家翻看《高性能 MySQL》第六章：查詢性能優化，對這個問題有過說明：分頁操作通常會使用 limit 加上偏移量的辦法實現，同時再加上合適的 order by 子句。

但這會出現一個常見問題：當偏移量非常大的時候，它會導致 MySQL 掃描大量不需要的行然后再拋棄掉。

數據模擬

那好，了解了問題的原理，那就要試著解決它了。涉及數據敏感性，我們這邊模擬一下這種情況，構造一些數據來做測試。

①創建兩個表：員工表和部門表

/*部門表,存在則進行刪除*/
droptableifEXISTSdep;
createtabledep(
idintunsignedprimarykeyauto_increment,
depnomediumintunsignednotnulldefault0,
depnamevarchar(20)notnulldefault"",
memovarchar(200)notnulldefault""
);

/*員工表,存在則進行刪除*/
droptableifEXISTSemp;
createtableemp(
idintunsignedprimarykeyauto_increment,
empnomediumintunsignednotnulldefault0,
empnamevarchar(20)notnulldefault"",
jobvarchar(9)notnulldefault"",
mgrmediumintunsignednotnulldefault0,
hiredatedatetimenotnull,
saldecimal(7,2)notnull,
comndecimal(7,2)notnull,
depnomediumintunsignednotnulldefault0
);

②創建兩個函數：生成隨機字符串和隨機編號

/*產生隨機字符串的函數*/
DELIMITER$
dropFUNCTIONifEXISTSrand_string;
CREATEFUNCTIONrand_string(nINT)RETURNSVARCHAR(255)
BEGIN
DECLAREchars_strVARCHAR(100)DEFAULT'abcdefghijklmlopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ';
DECLAREreturn_strVARCHAR(255)DEFAULT'';
DECLAREiINTDEFAULT0;
WHILEiDO
SETreturn_str=CONCAT(return_str,SUBSTRING(chars_str,FLOOR(1+RAND()*52),1));
SETi=i+1;
ENDWHILE;
RETURNreturn_str;
END$
DELIMITER;


/*產生隨機部門編號的函數*/
DELIMITER$
dropFUNCTIONifEXISTSrand_num;
CREATEFUNCTIONrand_num()RETURNSINT(5)
BEGIN
DECLAREiINTDEFAULT0;
SETi=FLOOR(100+RAND()*10);
RETURNi;
END$
DELIMITER;

③編寫存儲過程，模擬 500W 的員工數據

/*建立存儲過程：往emp表中插入數據*/
DELIMITER$
dropPROCEDUREifEXISTSinsert_emp;
CREATEPROCEDUREinsert_emp(INSTARTINT(10),INmax_numINT(10))
BEGIN
DECLAREiINTDEFAULT0;
/*setautocommit=0把autocommit設置成0，把默認提交關閉*/
SETautocommit=0;
REPEAT
SETi=i+1;
INSERTINTOemp(empno,empname,job,mgr,hiredate,sal,comn,depno)VALUES((START+i),rand_string(6),'SALEMAN',0001,now(),2000,400,rand_num());
UNTILi=max_num
ENDREPEAT;
COMMIT;
END$
DELIMITER;
/*插入500W條數據*/
callinsert_emp(0,5000000);

④編寫存儲過程，模擬 120 的部門數據

/*建立存儲過程：往dep表中插入數據*/
DELIMITER$
dropPROCEDUREifEXISTSinsert_dept;
CREATEPROCEDUREinsert_dept(INSTARTINT(10),INmax_numINT(10))
BEGIN
DECLAREiINTDEFAULT0;
SETautocommit=0;
REPEAT
SETi=i+1;
INSERTINTOdep(depno,depname,memo)VALUES((START+i),rand_string(10),rand_string(8));
UNTILi=max_num
ENDREPEAT;
COMMIT;
END$
DELIMITER;
/*插入120條數據*/
callinsert_dept(1,120);

⑤建立關鍵字段的索引，這邊是跑完數據之后再建索引，會導致建索引耗時長，但是跑數據就會快一些。

/*建立關鍵字段的索引:排序、條件*/
CREATEINDEXidx_emp_idONemp(id);
CREATEINDEXidx_emp_depnoONemp(depno);
CREATEINDEXidx_dep_depnoONdep(depno);

測試

測試數據：

/*偏移量為100，取25*/
SELECTa.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depnoorderbya.iddesclimit100,25;
/*偏移量為4800000，取25*/
SELECTa.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depnoorderbya.iddesclimit4800000,25;

執行結果：

[SQL]
SELECTa.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depnoorderbya.iddesclimit100,25;
受影響的行:0
時間:0.001s
[SQL]
SELECTa.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depnoorderbya.iddesclimit4800000,25;
受影響的行:0
時間:12.275s

因為掃描的數據多，所以這個明顯不是一個量級上的耗時。

解決方案

①使用索引覆蓋+子查詢優化

因為我們有主鍵 id，并且在上面建了索引，所以可以先在索引樹中找到開始位置的 id 值，再根據找到的 id 值查詢行數據。

/*子查詢獲取偏移100條的位置的id，在這個位置上往后取25*/
SELECTa.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depno
wherea.id>=(selectidfromemporderbyidlimit100,1)
orderbya.idlimit25;

/*子查詢獲取偏移4800000條的位置的id，在這個位置上往后取25*/
SELECTa.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depno
wherea.id>=(selectidfromemporderbyidlimit4800000,1)
orderbya.idlimit25;

執行結果

執行效率相比之前有大幅的提升：

[SQL]
SELECTa.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depno
wherea.id>=(selectidfromemporderbyidlimit100,1)
orderbya.idlimit25;
受影響的行:0
時間:0.106s

[SQL]
SELECTa.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depno
wherea.id>=(selectidfromemporderbyidlimit4800000,1)
orderbya.idlimit25;
受影響的行:0
時間:1.541s

②起始位置重定義

記住上次查找結果的主鍵位置，避免使用偏移量 offset：

/*記住了上次的分頁的最后一條數據的id是100，這邊就直接跳過100，從101開始掃描表*/
SELECTa.id,a.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depno
wherea.id>100orderbya.idlimit25;

/*記住了上次的分頁的最后一條數據的id是4800000，這邊就直接跳過4800000，從4800001開始掃描表*/
SELECTa.id,a.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depno
wherea.id>4800000
orderbya.idlimit25;

執行結果：

[SQL]
SELECTa.id,a.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depno
wherea.id>100orderbya.idlimit25;
受影響的行:0
時間:0.001s

[SQL]
SELECTa.id,a.empno,a.empname,a.job,a.sal,b.depno,b.depname
fromempaleftjoindepbona.depno=b.depno
wherea.id>4800000
orderbya.idlimit25;
受影響的行:0
時間:0.000s