线上问题处理案例:出乎意料的数据库连接池

导读

一、问题描述

大促期间，某接口超时次数增多，经排查直接原因是GC耗时过长，查看监控FullGC达500ms以上，接口超时时间与FullGC发生时间吻合。

二、应用基本情况

JVM配置：-XX:+UseConcMarkSweepGC -Xms6144m -Xmx6144m -Xmn2048m -XX:ParallelGCThreads=8 -XX:+UseCMSInitiatingOccupancyOnly -XX:CMSInitiatingOccupancyFraction=70 -XX:+ParallelRefProcEnabled；
数据库类型：MySQL；
数据库连接池：DBCP；

三、排查过程

1、 GC耗时过长，说明内存中垃圾对象很多。

3、推断FullGC耗时过长是否因为老年代有大量死亡对象，遂导出FullGC前后堆内存dump，通过比对“保留大小”，发现FullGC后大量数据库相关对象被回收。

4、数据库连接正常应该不会频繁创建和断开，进入老年代后，正常不应该被回收，通过堆dump内容OQL分析每个数据库连接数量，发现很多库连接数都大于“maxActive”数量，可以肯定有很多失效连接。

6、怀疑连接池验证周期过长，导致数据库因空闲过长关闭连接，将连接池参数“
timeBetweenEvictionRunsMillis”由1分钟调整到10秒，问题依旧。

org.apache.commons.pool.impl.GenericObjectPool.Evictor定时任务，按照timeBetweenEvictionRunsMillis配置的周期定时驱逐失效连接，驱逐条件：若连接空闲时间大于“minEvictableIdleTimeMillis”，则会驱逐连接，等待垃圾回收。若开启“testWhileIdle”则会执行“validationQuery”。进一步阅读代码，发现执行“validationQuery”后，连接空闲时间并不会重新计算，导致连接在业务低谷时很容易被淘汰，而数据库连接会关联大量对象，创建、回收成本昂贵，并且影响GC。

可以看到平时由于业务量小，GC不频繁，过期连接没有达到进入老年代阈值，在年轻代被回收。而大促时业务量大，GC频繁，连接在进入老年代以后才过期，导致老年代FullGC时间过长。

四、解决方案

方案1：改为G1回收器，对老年代回收是分块进行，可以防止长时间停顿。另外默认MaxTenuringThreshold值是15，可以防止失效连接过早进入老年代；

方案2：
minEvictableIdleTimeMillis设置为0，使数据库连接不会自动失效，进入老年代以后一直存活，避免在老年代失效回收；

五、问题总结

com.mysql.jdbc.NonRegisteringDriver$ConnectionPhantomReference）携带大量对象，如果连接存活时间内YGC次数达到寿命阈值，则会进入老年代，老年代是使用“标记-清除”算法，回收成本更高，进而造成FullGC耗时过长。

六、拓展知识点

2、 Druid连接池配置的“validationQuery”语句通常并不会被执行，MySqlValidConnectionChecker在检查连接有效性时，会判断驱动是否实现pingInternal方法，如果实现则会通过此方法验证有效性。MySQL的JDBC驱动实现了该方法，因此“validationQuery”配置的语句通常不会执行；

3、 DBCP和Druid连接池默认都是FILO，如果业务不繁忙，会导致只有最前边的连接被使用-归还-使用，后边连接基本都在无谓的驱逐、重建连接；

5、类似的影响还有finalize方法；

结语

本文对数据库连接失效引起的GC问题进行了详细分析，希望读者通过本文对数据库连接“保活”机制、GC问题基本分析方法有所收益，后续该系列文章会继续推出其他案例分享。

内容来源：京东云开发者社区

编程笔记 » 线上问题处理案例:出乎意料的数据库连接池