背景
XX實例(一主一從)xxx告警中每天凌晨在報SLA報警,該報警的意思是存在一定的主從延遲(若在此時發生主從切換,需要長時間才可以完成切換,要追延遲來保證主從數據的一致性)
XX實例的慢查詢數量最多(執行時間超過1s的sql會被記錄),XX應用那方每天晚上在做刪除一個月前數據的任務
基于 Spring Boot + MyBatis Plus + Vue & Element 實現的后臺管理系統 + 用戶小程序,支持 RBAC 動態權限、多租戶、數據權限、工作流、三方登錄、支付、短信、商城等功能
項目地址:https://github.com/YunaiV/ruoyi-vue-pro
視頻教程:https://doc.iocoder.cn/video/
分析
使用pt-query-digest工具分析最近一周的mysql-slow.log
pt-query-digest--since=148hmysql-slow.log|less
結果第一部分
最近一個星期內,總共記錄的慢查詢執行花費時間為25403s,最大的慢sql執行時間為266s,平均每個慢sql執行時間5s,平均掃描的行數為1766萬
結果第二部分
select arrival_record操作記錄的慢查詢數量最多有4萬多次,平均響應時間為4s,delete arrival_record記錄了6次,平均響應時間258s。
select xxx_record語句
select arrival_record 慢查詢語句都類似于如下所示,where語句中的參數字段是一樣的,傳入的參數值不一樣select count(*) from arrival_record where product_id=26 and receive_time between '2019-03-25 1400' and '2019-03-25 1500' and receive_spend_ms>=0G
select arrival_record 語句在mysql中最多掃描的行數為5600萬、平均掃描的行數為172萬,推斷由于掃描的行數多導致的執行時間長
查看執行計劃
explainselectcount(*)fromarrival_recordwhereproduct_id=26andreceive_timebetween'2019-03-251400'and'2019-03-251500'andreceive_spend_ms>=0G; ***************************1.row*************************** id:1 select_type:SIMPLE table:arrival_record partitions:NULL type:ref possible_keys:IXFK_arrival_record key:IXFK_arrival_record key_len:8 ref:const rows:32261320 filtered:3.70 Extra:Usingindexcondition;Usingwhere 1rowinset,1warning(0.00sec)
用到了索引IXFK_arrival_record,但預計掃描的行數很多有3000多w行
showindexfromarrival_record; +----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+ |Table|Non_unique|Key_name|Seq_in_index|Column_name|Collation|Cardinality|Sub_part|Packed|Null|Index_type|Comment|Index_comment| +----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+ |arrival_record|0|PRIMARY|1|id|A|107990720|NULL|NULL||BTREE||| |arrival_record|1|IXFK_arrival_record|1|product_id|A|1344|NULL|NULL||BTREE||| |arrival_record|1|IXFK_arrival_record|2|station_no|A|22161|NULL|NULL|YES|BTREE||| |arrival_record|1|IXFK_arrival_record|3|sequence|A|77233384|NULL|NULL||BTREE||| |arrival_record|1|IXFK_arrival_record|4|receive_time|A|65854652|NULL|NULL|YES|BTREE||| |arrival_record|1|IXFK_arrival_record|5|arrival_time|A|73861904|NULL|NULL|YES|BTREE||| +----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+ showcreatetablearrival_record; .......... arrival_spend_msbigint(20)DEFAULTNULL, total_spend_msbigint(20)DEFAULTNULL, PRIMARYKEY(id), KEYIXFK_arrival_record(product_id,station_no,sequence,receive_time,arrival_time)USINGBTREE, CONSTRAINTFK_arrival_record_productFOREIGNKEY(product_id)REFERENCESproduct(id)ONDELETENOACTIONONUPDATENOACTION )ENGINE=InnoDBAUTO_INCREMENT=614538979DEFAULTCHARSET=utf8COLLATE=utf8_bin|
該表總記錄數約1億多條,表上只有一個復合索引,product_id字段基數很小,選擇性不好
傳入的過濾條件 where product_id=26 and receive_time between '2019-03-25 1400' and '2019-03-25 1500' and receive_spend_ms>=0 沒有station_nu字段,使用不到復合索引 IXFK_arrival_record的 product_id,station_no,sequence,receive_time 這幾個字段
根據最左前綴原則,select arrival_record只用到了復合索引IXFK_arrival_record的第一個字段product_id,而該字段選擇性很差,導致掃描的行數很多,執行時間長
receive_time字段的基數大,選擇性好,可對該字段單獨建立索引,select arrival_record sql就會使用到該索引
現在已經知道了在慢查詢中記錄的select arrival_record where語句傳入的參數字段有 product_id,receive_time,receive_spend_ms,還想知道對該表的訪問有沒有通過其它字段來過濾了?
神器tcpdump出場的時候到了
使用tcpdump抓包一段時間對該表的select語句
tcpdump-ibond0-s0-l-w-dstport3316|strings|grepselect|egrep-i'arrival_record'>/tmp/select_arri.log
獲取select 語句中from 后面的where條件語句
IFS_OLD=$IFS IFS=$' ' foriin`cat/tmp/select_arri.log`;doecho${i#*'from'};done|less IFS=$IFS_OLD
arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=17andarrivalrec0_.station_no='56742' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=22andarrivalrec0_.station_no='S7100' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=24andarrivalrec0_.station_no='V4631' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=22andarrivalrec0_.station_no='S9466' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=24andarrivalrec0_.station_no='V4205' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=24andarrivalrec0_.station_no='V4105' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=24andarrivalrec0_.station_no='V4506' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=24andarrivalrec0_.station_no='V4617' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=22andarrivalrec0_.station_no='S8356' arrival_recordarrivalrec0_wherearrivalrec0_.sequence='2019-03-2708:40'andarrivalrec0_.product_id=22andarrivalrec0_.station_no='S8356' select該表where條件中有product_id,station_no,sequence字段,可以使用到復合索引IXFK_arrival_record的前三個字段
綜上所示,優化方法為,刪除復合索引IXFK_arrival_record,建立復合索引idx_sequence_station_no_product_id,并建立單獨索引indx_receive_time
delete xxx_record語句
該delete操作平均掃描行數為1.1億行,平均執行時間是262s
delete語句如下所示,每次記錄的慢查詢傳入的參數值不一樣
deletefromarrival_recordwherereceive_time
執行計劃
explainselect*fromarrival_recordwherereceive_time
該delete語句沒有使用索引(沒有合適的索引可用),走的全表掃描,導致執行時間長
優化方法也是 建立單獨索引indx_receive_time(receive_time)
基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 實現的后臺管理系統 + 用戶小程序,支持 RBAC 動態權限、多租戶、數據權限、工作流、三方登錄、支付、短信、商城等功能
項目地址:https://github.com/YunaiV/yudao-cloud
視頻教程:https://doc.iocoder.cn/video/
測試
拷貝arrival_record表到測試實例上進行刪除重新索引操作XX實例arrival_record表信息
du-sh/datas/mysql/data/3316/cq_new_cimiss/arrival_record* 12K/datas/mysql/data/3316/cq_new_cimiss/arrival_record.frm 48G/datas/mysql/data/3316/cq_new_cimiss/arrival_record.ibd selectcount()fromcq_new_cimiss.arrival_record; +-----------+ |count()| +-----------+ |112294946| +-----------+ 1億多記錄數 SELECT table_name, CONCAT(FORMAT(SUM(data_length)/1024/1024,2),'M')ASdbdata_size, CONCAT(FORMAT(SUM(index_length)/1024/1024,2),'M')ASdbindex_size, CONCAT(FORMAT(SUM(data_length+index_length)/1024/1024/1024,2),'G')AStable_size(G), AVG_ROW_LENGTH,table_rows,update_time FROM information_schema.tables WHEREtable_schema='cq_new_cimiss'andtable_name='arrival_record'; +----------------+-------------+--------------+------------+----------------+------------+---------------------+ |table_name|dbdata_size|dbindex_size|table_size(G)|AVG_ROW_LENGTH|table_rows|update_time| +----------------+-------------+--------------+------------+----------------+------------+---------------------+ |arrival_record|18,268.02M|13,868.05M|31.38G|175|109155053|2019-03-2612:40:17| +----------------+-------------+--------------+------------+----------------+------------+---------------------+
磁盤占用空間48G,mysql中該表大小為31G,存在17G左右的碎片,大多由于刪除操作造成的(記錄被刪除了,空間沒有回收)
備份還原該表到新的實例中,刪除原來的復合索引,重新添加索引進行測試
mydumper并行壓縮備份
user=root passwd=xxxx socket=/datas/mysql/data/3316/mysqld.sock db=cq_new_cimiss table_name=arrival_record backupdir=/datas/dump_$table_name mkdir-p$backupdir nohupecho`date+%T`&&mydumper-u$user-p$passwd-S$socket-B$db-c-T$table_name-o$backupdir-t32-r2000000&&echo`date+%T`&
并行壓縮備份所花時間(52s)和占用空間(1.2G,實際該表占用磁盤空間為48G,mydumper并行壓縮備份壓縮比相當高!)
Starteddumpat:2019-03-2612:46:04 ........ Finisheddumpat:2019-03-2612:46:56 du-sh/datas/dump_arrival_record/ 1.2G/datas/dump_arrival_record/
拷貝dump數據到測試節點
scp-rp/datas/dump_arrival_recordroot@10.230.124.19:/datas
多線程導入數據
timemyloader-uroot-S/datas/mysql/data/3308/mysqld.sock-P3308-proot-Btest-d/datas/dump_arrival_record-t32
real 126m42.885suser 1m4.543ssys 0m4.267s
邏輯導入該表后磁盤占用空間
du-h-d1/datas/mysql/data/3308/test/arrival_record.* 12K/datas/mysql/data/3308/test/arrival_record.frm 30G/datas/mysql/data/3308/test/arrival_record.ibd 沒有碎片,和mysql的該表的大小一致 cp-rp/datas/mysql/data/3308/datas
分別使用online DDL和 pt-osc工具來做刪除重建索引操作先刪除外鍵,不刪除外鍵,無法刪除復合索引,外鍵列屬于復合索引中第一列
nohupbash/tmp/ddl_index.sh& 2019-04-04-10:41:39beginstopmysqld_3308 2019-04-04-10:41:41beginrm-rfdatadirandcp-rpdatadir_bak 2019-04-04-10:46:53startmysqld_3308 2019-04-04-10:46:59onlineddlbegin 2019-04-04-11:20:34onlieddlstop 2019-04-04-11:20:34beginstopmysqld_3308 2019-04-04-11:20:36beginrm-rfdatadirandcp-rpdatadir_bak 2019-04-04-11:22:48startmysqld_3308 2019-04-04-11:22:53pt-oscbegin 2019-04-04-12:19:15pt-oscstop onlineddl花費時間為34分鐘,pt-osc花費時間為57分鐘,使用onlneddl時間約為pt-osc工具時間的一半
*做DDL 參考 *
實施
由于是一主一從實例,應用是連接的vip,刪除重建索引采用online ddl來做。停止主從復制后,先在從實例上做(不記錄binlog),主從切換,再在新切換的從實例上做(不記錄binlog)
functionred_echo(){ localwhat="$*" echo-e"$(date+%F-%T)${what}" } functioncheck_las_comm(){ if["$1"!="0"];then red_echo"$2" echo"exit1" exit1 fi } red_echo"stopslave" mysql-uroot-p$passwd--socket=/datas/mysql/data/${port}/mysqld.sock-e"stopslave" check_las_comm"$?""stopslavefailed" red_echo"onlineddlbegin" mysql-uroot-p$passwd--socket=/datas/mysql/data/${port}/mysqld.sock-e"setsql_log_bin=0;selectnow()asddl_start;ALTERTABLE$db_.`${table_name}`DROPFOREIGNKEYFK_arrival_record_product,dropindexIXFK_arrival_record,addindexidx_product_id_sequence_station_no(product_id,sequence,station_no),addindexidx_receive_time(receive_time);selectnow()asddl_stop">>${log_file}2>&1 red_echo"onlieddlstop" red_echo"addforeignkey" mysql-uroot-p$passwd--socket=/datas/mysql/data/${port}/mysqld.sock-e"setsql_log_bin=0;ALTERTABLE$db_.${table_name}ADDCONSTRAINT_FK_${table_name}_productFOREIGNKEY(product_id)REFERENCEScq_new_cimiss.product(id)ONDELETENOACTIONONUPDATENOACTION;">>${log_file}2>&1 check_las_comm"$?""addforeignkeyerror" red_echo"addforeignkeystop" red_echo"startslave" mysql-uroot-p$passwd--socket=/datas/mysql/data/${port}/mysqld.sock-e"startslave" check_las_comm"$?""startslavefailed"
*執行時間 *
2019-04-08-1136 stop slavemysql: [Warning] Using a password on the command line interface can be insecure.ddl_start2019-04-08 1136ddl_stop2019-04-08 11132019-04-08-1113 onlie ddl stop2019-04-08-1113 add foreign keymysql: [Warning] Using a password on the command line interface can be insecure.2019-04-08-1248 add foreign key stop2019-04-08-1248 start slave
*再次查看delete 和select語句的執行計劃 *
explainselectcount(*)fromarrival_recordwherereceive_time=0G; ***************************1.row*************************** id:1 select_type:SIMPLE table:arrival_record partitions:NULL type:range possible_keys:idx_product_id_sequence_station_no,idx_receive_time key:idx_receive_time key_len:6 ref:NULL rows:291448 filtered:16.66 Extra:Usingindexcondition;Usingwhere 都使用到了idx_receive_time索引,掃描的行數大大降低
索引優化后
delete 還是花費了77s時間
deletefromarrival_recordwherereceive_time
delete 語句通過receive_time的索引刪除300多萬的記錄花費77s時間*
delete大表優化為小批量刪除
*應用端已優化成每次刪除10分鐘的數據(每次執行時間1s左右),xxx中沒在出現SLA(主從延遲告警) *
*另一個方法是通過主鍵的順序每次刪除20000條記錄 *
#得到滿足時間條件的最大主鍵ID #通過按照主鍵的順序去順序掃描小批量刪除數據 #先執行一次以下語句 SELECTMAX(id)INTO@need_delete_max_idFROM`arrival_record`WHEREreceive_time<'2019-03-01'?; ?DELETE?FROM?arrival_record?WHERE?id<@need_delete_max_id?LIMIT?20000; ?select?ROW_COUNT();??#返回20000 #執行小批量delete后會返回row_count(),?刪除的行數 #程序判斷返回的row_count()是否為0,不為0執行以下循環,為0退出循環,刪除操作完成 ?DELETE?FROM?arrival_record?WHERE?id<@need_delete_max_id?LIMIT?20000; ?select?ROW_COUNT(); #程序睡眠0.5s
總結
表數據量太大時,除了關注訪問該表的響應時間外,還要關注對該表的維護成本(如做DDL表更時間太長,delete歷史數據)。
對大表進行DDL操作時,要考慮表的實際情況(如對該表的并發表,是否有外鍵)來選擇合適的DDL變更方式。
對大數據量表進行delete,用小批量刪除的方式,減少對主實例的壓力和主從延遲。
審核編輯:劉清
-
SQL
+關注
關注
1文章
770瀏覽量
44190 -
DDL
+關注
關注
0文章
13瀏覽量
6342 -
MYSQL數據庫
+關注
關注
0文章
96瀏覽量
9415
原文標題:面試官:MySQL 上億大表,如何深度優化?
文章出處:【微信號:芋道源碼,微信公眾號:芋道源碼】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論