大促过程问题汇总

查看50上的慢SQL统计

逐渐缩小范围

查看具体的慢SQL

找到 dataspaceddl 执行以上2条update语句之后，就会造成主从同步的延迟，此时只读域名解析会解析得到主库IP，app_read只读连接连到主库50上，导致主库上的慢SQL快速增多。经过分析定位，发现 dataspaceddl 执行的2条SQL都是运维提交的修数脚本。

以上是DBA维护的域名解析shell脚本，可以看出主从延迟超过5秒就会解析到主库上面。

6月5日

分析这个时间段的API接口调用情况

具体商品信息同步接口调用走势为例

这个时间点也不是商品同步接口调用最多的时刻，这个时间点的主从延迟应该和这个接口没关系。

从库127备份

从库128备份

分析主机的IO情况，由上面IO监控截图可以看出，2台从库都从1点多开始备份（IO被打满，影响从库上事务回放，导致产生主从延时），2点多的是计费异常处理。

由此，可以确定C-CSP的DB服务以上2个时间点的主从延迟原因，都是因为数据库备份引起的IO打满，导致DB事务回放延时。

C-CSP系统由于618大促封板，之前最后一个版本为5月24日，6月8日开始个别容器节点出现内存告警。

发现一个规律，CSP系统启动时间越久，越到后面越容器产生内存告警。

节点启动2天时，内存使用率最多是56%，当前logs目录为150M~200M；一周之后达到500M~700M，已有部分节点触发内存使用率超过60%的告警。时间越久这个logs目录文件越大，内存告警的频率也就越高。

下次大促，记得调整一下日志策略，保留3天。