✅日志打印导致CPU飙高问题排查

Documentation

线上问题排查

✅日志打印导致CPU飙高问题排查

在我们的压测过程中，我们出现过一次因为日志打印占用CPU过的问题，当时的情况是这样的。

4C8G的机器，单商品设置5000库存，采用秒杀第二套方案Redis+MQ+Mysql的方案进行扣减，QPS在100进行压测。（详见压测视频）

压测过程中出现CPU飙高。

通过top命令查看CPU在300%以上，因为我们是4核的机器，所以基本上CPU利用率在80%以上了。

通过prometheus的监控也能看到CPU飙高的比较明显。

紧接着通过arthas进行问题排查。

下载后解压，然后执行java -jar arthas-boot.jar

进入arthas之后，执行thread -n 3 查看占用CPU最高的三个线程，可以看到第一个线程的情况是：

通过以上信息我们可以知道，这个线程占用CPU在50%左右，并且通过多次执行thread命令后发现他都是持续排在第一的。那说明他一定有问题。

于是通过堆栈信息，发现这是一个和日志打印有关的代码。因为可以看到堆栈的最后一行，提示这个是logback的AsyncAppender的调用。

这时候基本定位到和日志打印有关。那我们看下我们的logback的配置，找到代码中的logback-spring.xml ，找到AsyncAppender的配置内容如下：

以上配置问题很大，我们看下这几个配置的作用分别是什么。

属性	默认值	说明
`queueSize`	256	队列容量（日志事件数）。队列满时根据策略处理新事件。
`discardingThreshold`	20	队列剩余容量阈值（百分比）。低于阈值时丢弃`INFO`以下级别日志（TRACE/DEBUG）。
`neverBlock`	`false`	队列满时： `true`=直接丢弃新事件 `false`=阻塞等待队列空间（可能影响性能）。
`includeCallerData`	`false`	`true`=异步获取调用者信息（类/方法名），有性能损耗，必要时启用。
`maxFlushTime`	1000	关闭时等待队列处理完成的超时时间（毫秒），超时后丢弃剩余事件。