大数据集群服务器慢盘问题处理建议
产品行业:
政务一网通军团(L1)-狭义政府(L2)
产品型号:
FusionInsight Manager
背景叙述:
每当大数据集群运行中,底层服务器硬件会出现某个SATA硬盘掉速问题,但服务器硬件本身通过BMC 进入检测不到坏盘。如果某个盘出现掉速后就会影响到集群的某一个进程的运行,造成业务卡顿堆积。
产品问题:当下大数据系统能根据系统日志查到是那块盘影响业务系统,但是实际呢大数据软件给的盘参数又和服务器硬件本身收集到的盘的编号盘位又不一致,导致更换慢盘的操作就异常困难,还要在底层操作系统上工具,费时费力。当下由于arm架构版本、C86服务器都有部署,对应找工具包和安装依赖文件会花费大量时间。
产品建议:能否在部署华为FusionInsight Manager产品时,部署包里额外添加 硬盘查找工具包,直接在发生硬盘问题时,直接定位出硬盘盘位进行更换。而不是解决问题时,同时调动服务器售后+大数据售后结合排查。
赞赏
感谢建议,我们先分析一下
发表于 2025-3-31 11:30
来自 中国
回复
点赞