总结一次CPU占用1600%问题的定位过程

发布时间：2021-10-20 11:26:29 阅读：109 作者：iii 栏目：编程语言

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要讲解了“总结一次CPU占用1600%问题的定位过程”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“总结一次CPU占用1600%问题的定位过程”吧！

6619 6625 等是占用最高的进程Id.

对JVM栈信息进行打印并输出到文件。

6619转成16进制后为19db 根据进程号在栈文件中搜如下图所示总结一次CPU占用1600%问题的定位过程

最后发现占用cpu高的全部为gc进程，此时可以判定。有部分代码逻辑内存占用过高。或者出现内存泄漏。

此时已经连续三次上线失败，没办法在从线上测试。那么想的是在灰度环境模拟这个现象然后dump堆信息这样肯定可以找到原因。

此时核心流程代码修改过的部分已经检查了n遍没发现问题。

那么需要思考一下，为什么灰度环境没有问题。而线上有问题。他们的用户有什么不同？

此时发现灰度环境全是权限最低的用户，而管理员没有在灰度环境上工作，想到这里问题已经离真相很近了。可以说已经定位到问题所在了，只需要验证一下自己的猜想。

其中有个功能，是查看自己所管理人的数据，这个功能因为不是核心功能，并且请求的量很小很小，起初并没有向这个方向考虑。
逻辑是：查找自己下一级别，如果有数据，在继续查找，恰好数据库有一条异常的数据，他的下一级就是自己！导致产生了死循环，导致内存里的数据越来越多。

又因为是IO密集的操作，所以这个循环占用的cpu很低。在线程栈中并没有发现他。

找到问题解决就是很容易的事情了，不再详细描述。

第一次系统出现卡顿，正确的处理方式大概应该如下

这种bug不应该存在，即使存在了出现问题也不要太慌应该快速的保留能保留下来的信息。

大的改动上线前需要灰度发布，少量用户先使用。

感谢各位的阅读，以上就是“总结一次CPU占用1600%问题的定位过程”的内容了，经过本文的学习后，相信大家对总结一次CPU占用1600%问题的定位过程这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是亿速云，小编将为大家推送更多相关知识点的文章，欢迎关注！

向AI问一下细节

猜你喜欢