产品行业: 政务一网通军团(L1)-狭义政府(L2) 产品型号: FusionInsight Manager 背景叙述: 客户现场部署了华为FusionManager 8.0.2,现场集群有2台管理节点,其中1个节点突然被告知NMCN1主备节点心跳中断,来回抢占管理节点,导致处理业务系统数据出现问题。
[图片]https://jdc100.huawei.com/CommunityGatewayService/com.huawei.ipd.sppm.jdcforum:JDCCommunityUserService/CommunityUserService/jdc/api/attachment/downLoadByAid?path=202504/21/15465369ca5756-3eb7-4935-b0df-6b87b705270a.png&aid=964268&bussinessType=2&tid=1141110[图片]
[图片]https://jdc100.huawei.com/CommunityGatewayService/com.huawei.ipd.sppm.jdcforum:JDCCommunityUserService/CommunityUserService/jdc/api/attachment/downLoadByAid?path=202504/21/154825a239dd3a-91b2-4cfe-b914-59f78486f577.png&aid=964269&bussinessType=2&tid=1141110[图片]
产品问题: 1.日志收集发400,400定位华为FusionManager 8.0.2平台运行软件测没问题。让转排数通方面的问题。
2.数通经ping和抓包排查,网路都正常,通过巡检交换机运行状态也正常。
2.紧接通过流统分析,数据包转发也正常,排除网络问题。
3.问题定位依旧没找到,管理节点心跳还是无规律通,又断。
4.最终邀请400一线工程师,经排查定位在arm版cetos 操作系统内核进程占用资源较多,kill该内核进程恢复了该业务。
(内部维护链接。https://uniportal.huawei.com/uniportal1/login-mobile.html?redirect=https%3A%2F%2Fsupport.huawei.com%2Fhedex%2Fhdx.do%3Fdocid%3DEDOC1000126368%26id%3DZH-CN_TOPIC_0222551683) 产品建议: (1)在设计软件阶段:
【1】兼顾监听各底层系统内核运行资源情况;
【2】对于管理节点的心跳能否设置一旦不通之后,不再频繁来回切换机制,选择临时最优的管理节点掌管集群运行,保证业务持续稳定运行。
(2)运行维护中:
【1】综合运维手册在日常维护中更新窗口,或者邮件推送,并附带更新链接(对于非公开内部网络的用户)。跳出正常运行的监控告警,全面思考解决问题的方法真的很难哦,尤其是积累的经验。