Q:训练过程中会出现哪些异常和问题?请按频率高低先后写出最常见的TOP3异常问题:摘选回复1:TOP1:硬件资源不足导致的计算能力不足,结果就是训练时间过长或无法收敛; TOP2:软件算法不兼容,又是会导致模型无法正确加载和训练失败。 TOP3:数据质量,数据集不完整、数据噪声等,影响模型学习数据特征。摘选回复2:训练过程中出现异常和问题频率比较高的分别是1.训练模型本身原因造成的异常;2.集群中某一个模块的性能瓶颈,如储存系统的瓶颈问题造成训练过程异常;3.网络原因导致的训练中断问题。摘选回复3:硬件故障:NPU/GPU偶发硬件报错,导致训练中断。 数据加载异常:通信原始数据格式不统一,引发训练任务崩溃。 资源争抢:多任务并行时,内存/存储资源竞争导致训练效率下降。摘选回复4:训练过程中会出现以下异常和问题:一是数值不稳定。训练过程中参数或损失值突然变为NaN或Inf,导致模型崩溃或无法收敛。二是代码错误。运行时报错,如RuntimeError: shape mismatch、TypeError: unsupported operand type等。三是硬件或资源问题。训练中断、GPU温度异常或报错CUDA out of memory。Q:您一般是如何定界定位训练问题的?在这个过程中,您最大的痛点诉求是什么?摘选回复1:从硬件资源问题的实际案例出发,在一个大型语言模型的训练任务中,如果GPU资源不足,训练过程可能会变得极其缓慢,无法满足项目的时间要求。通过在私有云的管理平台查看系统资源分配情况,VCPU利用率和磁盘使用率等参数来确认问题是否处于硬件资源分配不足,然后重新调整资源分配,占用降低或进度加快后进行闭环。主要问题就是这些操作没有比较智能化的方式,比较依赖运维人员的问题定位能力和资源配置能力。摘选回复2:定位和定界训练问题往往需要跨部门的协同处置,当出现训练异常时训练模型的开发公司人员会第一时间检查异常类型并初步定位故障,如果是模型本身的问题需要他们进行调试和优化。如果是涉及到支撑系统的问题那就需要其他运维团队来进行排查,包括使用厂商提供的运维管理工具、集成商开发的统一运维管理工具等,会先判断导致异常的根因,需要通过告警信息、日志信息等数据来判断,然后定位故障位置并进行修复,修复完成后会通过我们内部的沟通平台进行故障闭环。整个过程中最大的痛点是各个部门的衔接效率低,处理一个问题经常会涉及多个部门和外部人员,异常事件解决的周期长,成本高是当前的最大痛点。摘选回复3:训练任务频繁中断定位过程:通过集群运维系统查看硬件日志,发现某台服务器NPU间歇性报错;切换任务至健康节点,同时通知硬件团队检修。痛点诉求就是硬件故障预警能力不足,依赖事后排查,影响任务进度。摘选回复4:日常工作中,巡检的占比比较多,处理故障比较少。巡检过程中,分析整个模型的运行情况,包括容量利用率、查看告警,或是做数据备份等。要说痛点,应该还是一些动作目前还没有AI化,需要人工来执行,说实话做这些工作还是有一些风险的,更希望AI来执行,各方面更不容易出错。摘选回复5:我一般是通过数据驱动分析法,结合工具链的可视化能力快速缩小问题范围。在这个过程中,我最大的痛点诉求是工具链太复杂,需同时使用Profiler、Insight、Advisor三种工具,数据格式转换与结果关联耗时较长。