万字长文带你深度了解大模型训练、推理与性能优化-华为JDC

万字长文带你深度了解大模型训练、推理与性能优化导读大模型的训练与推理性能优化涉及模型架构、硬件特性、并行策略、算子设计、数据处理等多个维度，优化过程复杂且需兼顾精度与效率。本文从大模型发展基础、训练流程优化、推理核心原理与优化策略、关键技术实践等方面进行梳理，为大家深入了解大模型技术落地提供理论支撑与实践指导。大模型发展基础与核心概念一、从语言模型到大语言模型自然语言处理（NLP）技术的发展历程可分为四个关键阶段：早期基于规则和知识的方法、统计方法崛起（如HMM、CRF）、深度学习革命（如RNN、LSTM）以及预训练模型兴起（如BERT、GPT、T5）。其中，Transformer架构的提出是大模型发展的里程碑，其自注意力机制打破了传统时序模型的序列依赖限制，为并行计算和模型规模化提供了可能。根据模型结构，主流大模型可分为三类：1.仅解码器模型（Decoder-Only）：以GPT系列、LLaMA系列、Qwen系列等为代表，采用自回归生成方式，擅长文本生成、对话交互等任务；2.仅编码器模型（Encoder-Only）：以BERT系列为代表，采用双向注意力机制，在文本理解、分类、问答等任务中表现突出；3.编码器-解码器模型（Encoder-Decoder）：以T5、GLM系列为代表，兼顾理解与生成能力，适用于机器翻译、文本摘要等任务。大规模语言模型（LLM）通常指参数量达到亿级以上的神经网络模型，其核心优势在于通过大规模预训练习得通用语言规律和世界知识，能够通过微调或提示工程适配多种下游任务。与传统语言模型相比，LLM具备更强的泛化能力、上下文理解能力和复杂任务处理能力，但也对计算资源、存储资源和优化技术提出了更高要求。二、核心概念1.Transformer架构核心组件Transformer架构的核心包括自注意力机制（Self-Attention）、多头注意力（Multi-Head Attention）、前馈网络（FFN）、层归一化（LayerNorm）和残差连接（Residual Connection）等组件：自注意力机制：通过计算Query（查询）、Key（键）、Value（值）三者的相关性，实现对输入序列中所有位置的自适应关注，计算复杂度为O(n²)（n为序列长度）；多头注意力MHA：将Q、K、V拆分为多个独立的注意力头，并行计算后拼接结果，能够捕捉不同维度的语义关联；多查询注意力MQA：所有查询头共享单一的键和值，旨在以牺牲少量模型质量为代价，大幅减少推理时的显存占用和计算量。分组查询注意力GQA：将查询头分成若干组，每组共享一个键和值，在保持与MHA相近的模型性能的同时，实现了接近MQA的推理加速效果，是MHA和MQA的折中方案。多头潜在注意力MLA：DeepSeek运用的注意力计算方法，通过双低秩压缩解耦技术，在极速降低 KV Cache 显存带宽压力的同时，通过矩阵吸收的方式保持了MHA的计算精度。前馈网络：由两层线性变换和激活函数（如GELU）组成，对注意力输出进行非线性转换，增强模型表达能力；层归一化：对每层输入进行归一化处理，稳定训练过程，加速收敛；残差连接：将输入直接添加到层输出中，缓解深层网络的梯度消失问题。2.关键训练与推理概念预训练（Pre-training）：在大规模无标注文本数据上训练模型，学习语言规律和通用知识，为下游任务提供基础能力；微调（Fine-tuning）：在预训练模型基础上，使用特定任务的标注数据调整参数，使模型适配具体任务，包括监督微调（SFT）、奖励模型微调（RM）和基于人类反馈的强化学习（RLHF）等；自回归生成（Autoregressive Generation）：逐一生成输出Token，每个Token的生成依赖于之前的Token序列，是Decoder-Only模型的核心生成方式；Prefill阶段：自回归模型推理的初始阶段，并行计算所有输入提示词（Prompt）的注意力，生成Key和Value向量并写入KV Cache，为后续生成做准备，该阶段计算密集、无Token间依赖；Decode阶段：在Prefill阶段之后，逐个生成输出Token的循环过程，直接读取并更新KV Cache，该阶段内存访问密集、计算量小、具有严格的序列依赖；KV Cache：缓存Prefill阶段生成的Key和Value向量，避免Decode阶段重复计算，是提升推理效率的关键技术，但会占用大量显存；四大资源：算力（计算能力，以TFLOPs为单位）、显存（GPU物理显存容量）、显存带宽（GPU显存读写速率）、通信带宽（跨卡/机间数据传输速率），是大模型优化的核心关注对象。TTFT (Time To First Token）：指从用户输入Prompt开始，到模型生成第一个输出token所需的时间，也即是Prefill阶段所需要的时间。TPOT (Time Per Output Token）指模型在Decode生成阶段，平均每个输出Token所花费的时间。衡量单Token生成的延迟情况。吞吐量（Tokens Per Second, TPS）：指模型在生成阶段单位时间能生成的token数，与TPOT成反比（TPS = 1 / TPOT）。3.生成过程随机性控制参数通过调整随机性控制参，可以控制生成文本的多样性。常见的随机性控制参数主要有如下：temperature（温度）：在文本生成中用于调节输出的随机性。提升温度设置会使得产生的文本更为随机和创新；降低温度生成的文本更加稳定和重复。通常设置在0.7到1之间。较低的温度（如0.7）可以使生成的文本更加连贯和准确，较高的温度（如1）则使文本更加多样和创造性。top_k（Top-K Sampling）：限定模型从最可能的前k个词里挑选预测词。随着k值增大，可选词的范围变宽，文本的多样性提升；减小k值则减少可选词的范围，使得生成文本更倾向于出现概率较高的词。一般设置在40到100之间。较小的k值可以提高文本的相关性和连贯性，而较大的k值则增加了文本的多样性。top_p（Nucleus Sampling）：限定从概率累积达到给定的p值时的一组词汇集合中选取下一个词。较低的top_p值使生成的文本更加可预测和相关；较高的值增加了文本的多样性和创造性。这种采样方式的可选词的数量是动态的，在不同的上下文中可能是不同的。通常设置在0.8到0.95之间。较低的top_p值（如0.8）使生成的文本更加可预测和相关，而较高的值（如0.95）增加了文本的多样性和创造性。4.幻觉概念在大模型生成过程中，最主要的问题即为幻觉问题，幻觉主要有两种类型：事实性幻觉（Factuality Hallucination）：主要表现为“与事实不一致”或者“捏造”，生成的内容与现实世界之间存在差异。忠实性幻觉（Faithfulness Hallucination）：主要表现为生成内容和用户的输入指令及上下文内容存在偏离。幻觉与训练数据、训练/推理过程都存在关系。质量差的训练数据不可避免会影响模型。由于大模型推理方式是通过前文预测下文的形式，因此不可避免会出现当遇到一些不佳的token组合时出现幻觉情况。训练过程也有缺陷，预训练阶段的架构缺陷、自注意力模块缺陷、暴露偏差等以及微调对齐阶段的能力错位、信念错位等都会造成幻觉问题。推理阶段固有的抽样随机性、不完美的解码表示等也是造成幻觉的关键缺陷。5.并行策略相关概念为应对大模型参数量和计算量的爆炸式增长，分布式并行技术成为关键支撑，主流并行策略包括：并行度：指某类并行策略下，参与该并行的 GPU 数量，是衡量并行规模的核心指标，比如TP8或者EP8。Rank：在分布式并行计算中，唯一标识一个处理单元（通常是GPU）的编号或索引。张量并行（TP, Tensor Parallelism）：将单层内的权重矩阵切分到多个GPU上，通过All-Reduce通信换取显存容量和单步计算速度；数据并行（DP, Data Parallelism）：将不同输入样本（Batch）分配到不同GPU上，主要用于扩大吞吐量；专家并行（EP, Expert Parallelism）：专为MoE（混合专家）架构设计，将不同专家分配到不同GPU上，Token根据路由结果在GPU间进行All-to-All交换；序列并行（SP, Sequence Parallelism）：将序列在输入序列维度上切开，常与TP结合使用，解决长输入带来的显存压力；上下文并行（CP, Context Parallelism）：在Attention计算层面做跨卡切分，是更高级的长文本并行方案；流水线并行（PP, Pipeline Parallelism）：按模型层进行横切，不同层运行在不同GPU上，像流水线一样传递中间结果；CPP：CP与PP的混合并行策略，适用于超大规模集群下的超长序列训练/推理。大模型训练优化一、训练数据构建与优化数据是大模型训练的基础。数据的质量、规模和多样性直接决定模型性能。训练数据的构建需遵循"高质量、大规模、多样性"原则，具体优化方向包括：1.数据集格式与统一处理大模型微调常用的数据集格式主要有两类：问答格式数据集：包含prompt（提示）和response（响应）字段，适用于对话生成、问答等任务；指令微调数据集：包含instruction（指令）、input（输入）和output（输出）字段，通过多样化指令示范，让模型学会遵循用户指令完成任务。为确保训练效果，需对数据集进行统一处理：字段统一：将不同来源数据集的核心字段映射为统一格式（如instruction、input、output），处理缺失字段和格式不一致问题；内容清洗：过滤语句不通顺、知识表达不充分、广告数据、答非所问等低质量数据，可通过困惑度（PPL）评估语句合理性，结合人工筛选提升数据质量；数据增强：通过prompt模板多样化（如将"中译英"拓展为"翻译中文为英文"）、多轮对话构造、Few-shot/COT（思维链）数据添加等方式，增强数据多样性，提升模型泛化能力。2.数据组合策略针对行业大模型训练，常用的数据组合方式包括：开源大模型+行业数据：在开源通用大模型基础上，加入行业问答数据、专业文档等，快速构建行业定制模型，资源需求较小；通用基座模型后训练+行业数据集微调：先在通用基座模型上进行行业语料预训练，扩充领域词表和语义理解能力，再通过行业指令数据集微调，提升任务执行能力。需注意避免单一领域数据过拟合，通常需混合通用领域数据与行业数据，平衡模型的通用能力与领域适配性。3.数据质量筛选采用Teacher-student架构进行数据质量筛选：基于生成式大模型构建判别器，过滤低质量数据；训练小模型（如BERT）作为语料质量分类模型，快速筛选大批量数据中的高质量样本，实现大模型语义能力向小模型的蒸馏。二、训练阶段优化大模型训练阶段的核心目标是在保证精度的前提下，提升训练速度、降低显存占用、提高资源利用率。主要优化技术包括：1.并行化训练策略并行化是解决大模型训练算力和显存瓶颈的核心手段，实际应用中通常结合多种并行策略：单节点内：采用TP分割模型权重，降低单卡显存占用，结合DP扩大Batch Size；跨节点：利用PP将模型层分布到不同节点，通过数据并行提升训练吞吐量；MoE架构：采用EP将专家分散到多个GPU/节点，解决MoE模型显存占用大的问题。负载均衡是并行训练的关键，例如在多模型Pipeline并行部署中，通过任务调度使不同GPU的负载趋于均衡，避免部分GPU闲置。2.显存优化技术梯度累积（Gradient Accumulation）：通过累积多个小批量样本的梯度再更新参数，在不增加单Batch显存占用的前提下，实现等效大Batch训练；梯度检查点（Gradient Checkpointing）：选择性保存前向传播中的激活值，反向传播时重新计算未保存的激活值，以少量计算开销换取显存占用降低，可将10倍大的神经网络放入显存；混合精度训练（Mixed Precision Training）：部分参数使用FP16等低精度浮点数计算，减少显存占用并加速训练，同时通过FP32保存权重副本和梯度，确保训练精度；ZeRO内存优化（Zero Redundancy Optimizer）：由DeepSpeed框架实现，通过优化器状态分区、梯度划分、参数划分等方式，减少每个GPU上的冗余数据存储，支持超大规模模型训练。3.训练框架与工具主流的大模型训练框架包括：DeepSpeed：微软开源框架，支持ZeRO内存优化、流水线并行、混合精度训练等，可大幅降低大模型训练的显存需求和计算成本；Megatron-LM：NVIDIA提出的基于PyTorch的框架，针对Transformer进行专门优化，支持多种并行策略，是超大规模语言模型预训练的常用选择；Hugging Face Transformers：提供丰富的预训练模型接口和训练工具，支持与DeepSpeed、Megatron-LM等框架集成，降低训练门槛。4.超参数调优关键超参数的合理调整对训练效果至关重要：Epochs：根据数据规模调整，小数据集可适当增加epoch促进收敛，但需避免过拟合；Batch Size：较大Batch Size加速训练但可能收敛于次优解，较小Batch Size有助于泛化但延长训练时间，需结合硬件资源平衡；学习率：控制参数更新步长，过高导致震荡，过低减慢训练，可采用指数衰减、余弦退火等动态调整策略；权重衰减（Weight Decay）：通过在损失函数中添加惩罚项防止过拟合，增强模型泛化能力；梯度裁剪（Gradient Clipping）：设置梯度阈值防止梯度爆炸，确保参数更新稳定。三、模型微调与价值对齐大模型微调是提升特定任务性能的关键步骤，通常包括三个阶段：1.监督微调（SFT）使用精选的标注数据对预训练模型进行监督训练，使模型学会在特定任务中生成符合预期的输出。SFT的核心价值在于：针对特定任务提升性能：弥补预训练模型在具体任务上的性能短板；提高领域适应性：让模型适应行业专业数据、表达习惯和语义；适配数据稀缺任务：在有限标注数据场景下，快速提升模型效果。2.奖励模型微调（RM）使用包含人类对同一问题多个答案打分的数据集，训练单独的奖励模型，用于评估生成结果的优劣。奖励模型的训练需注意：数据多样性：覆盖不同场景、不同质量等级的输出样本；标注一致性：确保人类打分的一致性，避免模糊标注影响模型学习；排序优化：采用基于排序的奖励建模（RBRM），通过对候选输出排序赋予相对优劣，指导模型生成更好的回答。3.基于人类反馈的强化学习（RLHF）利用强化学习算法，根据奖励模型的反馈进一步调优模型，使模型输出与人类偏好对齐。RLHF的核心是PPO（Proximal Policy Optimization）算法，其优势在于在保持稳定性的同时实现较高性能，避免模型更新幅度过大导致性能下降。让模型理解并遵循人类价值观、需求和期望，是大模型安全落地的关键：监督微调阶段：使用具有明确道德、法律规范的标注数据；奖励建模阶段：设计符合人类偏好的奖励函数，惩罚有害、误导性输出；强化学习阶段：根据实际反馈调整模型策略，确保模型输出安全、可靠、有用。