nacos配置变更导致服务器内存爆满异常
问题背景:
线上的服务突然内存爆满,查服务器突然发现,日志全部打印到了/tmp/tomcat.xxx.port目录下,后来对应操作时间,和nacos修改配置是同一时间发生的,但是疑惑的点是,nacos配置变更为什么会引起logback的日志打印目录突然切换,以下是分析结论和原理。
排查过程:
之后发现是tmp临时目录磁盘堆满导致,日志文件全部输出到/tmp,排查tmp磁盘堆满的原因。
结合相同时间点操作发现,nacos变更配置的时间和写入文件时间对得上。开始分析nacos变更配置为何会导致日志目录变更。
原理分析:
总结简述:
初始化logsystem的配置会发生在两个阶段或者说两次,按照启动顺序依次讲述:
1.第一次是在服务启动的时候,初始化配置时对logback的xml配置进行流读取后saxParser解析,此时因为服务还处于未完全启动的阶段,读取变量catalina.home时候,不管是当前上下文还是系统变量中都是null,所以NodeToStringTransformer类在handleVariable方法中赋值了默认值(下面有具体表示)UNDEFINED_PROPERTY_SUFFIX = "_IS_UNDEFINED";也就造成了日志系统根目录都在这个目录下,即catalina.home_IS_UNDIFINED。
2.而完全启动服务后,tomcat会默认在临时路径下(linux 是/tmp。windows是C:\Users\Administrator\AppData\Local\Temp)创建tomcat.随机数字.port的文件夹,目的是为了存储临时缓存和一些文件上传(multipartFile)时候使用。也会随之将catalina.home变量赋值为新建的这个临时目录。
3.在后续nacos配置变更时,触发日志系统配置重置后,再次读取logback.xml并解析变量时,变量的值和刚启动时已经不同,也就导致之后的日志全部输出到变量赋值后的临时目录下,随后临时目录磁盘较小(3G),在写满之后,日志在缓存中,导致后续内存飙升。
源码分析:
1.服务启动过程中,LoggingApplicationListener监听器监听事件进行环境参数初始化配置:
准备读取logginSystemProperties配置
初始化配置
加载配置文件,读取到配置文件logback.xml的全路径
根据文件全路径进行IO流读取文件内容:
接下来处理xml文件中的每个节点,进入到了NodeToStringTransformer类(这个类是具体针对节点变量进行读取操作)
读取到catalina.home打断点查看,可以看到不管是从系统变量还是上下文中获取都是null,随后赋予了默认值 UNDEFINED_PROPERTY_SUFFIX = "_IS_UNDEFINED";所以日志文件会写在catalina.home_IS_UNDIFINED下。
=================================================================== 服务启动后修改nacos配置,通过spi插件机制触发springcloud的配置类初始化:
和服务启动时一样,进入LogbackLoggingSystem这个类的初始化配置值方法。
同样在catalina.home变量处打断点:
从lookupKey方法调用获取系统变量方法中已经能获取到服务启动后创建的tomcat临时目录。
也就直接返回,不在走下一步逻辑中的赋默认值操作。
到这里之后,catalina.home变量赋值已经改变,后续的日志也会往新的路径打印。
处理方法:
将${catalina.home}变量赋值,或者去掉,总之变为固定路径。避免在服务启动过程中日志路径的变化。