Q:您所在的业务系统,什么时候考虑扩存储算力,而非存储容量?摘选回复11、我们在做阿胶及相关食品、中成药等的研发、生产及销售等。在生产系统中,前几年部署了AI质检和工艺优化等系统,其中在质检的数据特征如质检图像分辨率会提高,从2K升级到4K,容量虽然增长了但更核心的是并行推理任务数限制,后续需要考虑存储算力卡的性能,同时处理的图像数能力;以及还有后续业务的升级,对于质检新增功能的模态检测模型,推理算力需求会提升。所以后续会优先扩容存储算力。2、还有全产业链质量追溯平台,基于某服务器+分布式存储组网,目前存储容量使用率仅40%多,但查询数据的读取、响应时间较之前新部署后增多,同时IOPS增多,所以也需要后续扩容算力。3、生产MES调度卡顿问题,生产制造执行系统MES的容器化集群运行在超融合存储上,容器启动时间从几十秒变为几分钟,而存储容量使用率60%左右,因为MES从之前的单体应用拆分为10个微服务容器,存储设备的容器编排算力不足,原有ARMCPU处理容器创建、网络插件配置的资源耗尽,因此需要扩容存储算力。4、综合来看,一般是因为业务瓶颈的计算逻辑复杂度提升导致,需优先扩存储算力。摘选回复21、对于核心交易系统,一般在建设之初就考虑了,算力、内存、存力、存储空间等基础架构的冗余配置,一般会高配50%以上,这类业务往往是可以预测的 OLTP 类的稳态业务,对算力、存力需求变化不明显,使用的多是集中式单体架构,基础架构一般会随着应用业务系统的升级、生命周期完结使用,而扩容、升级全新的硬件产品,随之存储算力就会更新为最新的算力芯片。2、对于经营分析系统,一般在规划设计阶段,高配15%的硬件资源,这类业务一般和经营数据、周边业务系统紧密关联,在系统整个生命周期过程中,资源需求变化不容易预测,属于OLAP类的半敏态业务,使用架构在寻求一定稳定性的同时看中技术的先进性、业务扩展性,所以像星环大数据平台这类业务系统就会使用存算分离的分布式架构,因为是通过服务器集群构建的节点,所以会在业务数据增长阶段、旧有服务器型号淘汰阶段、软件大版本升级阶段等等时间段完成 存储服务器替换升级进而完成存储算力升级扩容。摘选回复31、当业务负载以计算密集型任务为主时,例如大规模AI模型训练、复杂的数据分析或科学计算,计算资源会成为瓶颈。这种情况下,数据存储量并未显著增加,但计算任务需要更多的算力来缩短处理时间。例如,AI模型训练中,虽然数据量可能保持不变,但更复杂的模型或更大的训练批次需要更多计算资源,此时优先扩算力是合理的。2、对于需要低延迟响应的场景,如实时推荐系统、实时视频处理或高频交易,扩算力能确保数据快速处理和响应,而存储容量的增加可能无法直接改善性能。例如,实时视频流处理需要高吞吐量的计算能力,但数据存储需求可能有限。3、当任务数量增加,但每个任务所需的数据量有限时,比如同时运行的虚拟机数量或并行任务数增加,但每个任务处理的数据量不变,扩算力能够支持更多并发任务,而存储容量可能并不需要显著增加。4、如果存储性能(如IOPS或带宽)已经足够满足需求,但计算任务因为算力不足而无法高效完成,扩算力可以显著提升整体性能。例如,在多用户同时访问同一数据集的情况下,存储性能可能不是瓶颈,而算力不足会导致任务排队或延迟。摘选回复41、如果业务系统中需要频繁进行大量复杂的计算,如数据分析、机器学习模型训练、实时数据处理等,且现有算力已经难以满足这些任务的及时完成,计算任务的响应时间变长、处理速度明显变慢,那么就需要考虑扩存储算力。2、当业务系统的用户并发访问量大幅上升,比如我们公司自有电商平台在促销活动期间、在线教育平台在课程直播时等,服务器的计算压力剧增,现有算力无法高效处理众多用户的请求,出现卡顿、延迟等问题,此时应优先扩算力以保障系统的流畅运行。3、对于一些需要对大量数据进行实时或近实时处理的业务,如金融交易风险监控、物联网设备数据实时分析等,即使存储容量充足,但如果算力不足导致数据处理不及时,无法满足业务对数据时效性的要求,就需要扩算力。Q:您工作中业务系统在存储算力管理环节上有哪些诉求?摘选回复11、运营商业务系统(如计费、客服、网管、大数据平台等)的负载波动性很大。例如,月底计费高峰、大型促销活动、网络故障处理期间,对计算和存储资源的需求会激增;而在业务低谷期,需求又可能锐减。希望能够快速、灵活地申请和释放存储与计算资源,实现资源的弹性伸缩。2、不同业务系统对存储和计算性能的要求差异很大。需要为不同性能要求的业务分配不同级别的存储介质(如SSD、HDD)和计算资源,并确保性能承诺得到满足,实现资源隔离。3、运营商IT基础设施投入巨大,存储和计算资源是主要的成本构成之一。需要精细化的资源计量和计费能力,能够清晰了解每个业务系统、每个部门甚至每个项目的资源消耗情况,为成本分摊和优化提供依据。4、确保存储和计算资源的高可用性,具备故障自动切换、冗余备份等能力,最大限度减少单点故障风险。摘选回复21、业务系统需要快速处理大量数据,因此存储和算力资源应提供高吞吐量和低延迟的性能表现。例如,在金融交易系统中,需要快速读写数据以处理高频交易。2、对于需要实时数据处理的业务,如物联网设备的数据监控、在线视频流处理等,存储和算力资源需要能够支持实时数据的读取、处理和写入,确保数据的时效性。3、根据业务负载的动态变化,自动分配和调整存储和算力资源,以实现资源的高效利用。在业务高峰期自动增加资源,在低谷期则释放资源,节省成本。4、避免过度投资,采用按需扩展的方式,根据业务增长逐步增加存储和算力资源,以减少初始投资和运营风险。Q:业务系统对不同算力硬件单元的兼容性/集成有什么诉求?摘选回复1存储系统的IOPS和吞吐量应能满足计算设备的性能需求。例如,数据库服务器或AI训练节点通常需要高IOPS和低延迟的存储(如SSD、NVMe),而文件服务器可能对吞吐量要求更高。存储访问延迟应尽可能低,以避免成为计算密集型应用的瓶颈。摘选回复2不管是老掉牙的传统 CPU、加速用的 GPU/FPGA,还是新出的 AI 专用芯片,而且系统得能认这些硬件,别因为型号太新就罢工,而且接口得统一硬件插进去就能用,不想再因为接口问题去改架构,很麻烦,数据在硬件间传输要再快一些,别因为传输慢拖慢整体算力,CPU、GPU以及存储设备,都在一个界面可以完成查看状态和调整参数的操作,别各管各的,然后硬件升级能平滑一点,比如加几块GPU卡,或者换更强的服务器就行,升级的时候系统不用推倒重来,直接集成进去就能用就好摘选回复31、业务系统希望能支持多种不同架构的算力硬件,如CPU、GPU、FPGA、ASIC等。例如,在深度学习场景下,GPU是主流的算力硬件,但某些特定任务可能更适合用FPGA或ASIC来实现,因此需要系统能够兼容这些不同的硬件架构。2、随着硬件技术的不断更新换代,业务系统希望能够支持不同代次的硬件设备。这样企业可以在不完全替换现有硬件的情况下,逐步引入新的硬件以提升系统性能,充分利用已有投资。3、在一些复杂的业务场景中,可能需要同时使用多种不同类型的硬件来协同工作。比如,在自动驾驶系统中,可能需要将CPU用于通用计算,GPU用于图像处理,FPGA用于实时信号处理等,业务系统需要能够很好地协调这些异构硬件之间的数据传输和计算任务分配。4、希望使用统一的编程框架和接口来开发运行在不同算力硬件上的程序,减少因硬件差异带来的开发复杂性。例如,OpenCL提供了一种在多种硬件架构上进行通用计算的编程模型,使得开发者可以编写一次代码,在不同的硬件上运行。Q:结合您工作中的建设实践,您认为除了上面的问题外,企业为了建设好、管理好、使用好存储算力,提升性能或应用,还需要特别关注哪些问题?摘选回复11、在智能制造AI质检系统中,不仅要监控 GPU 算力使用率,还要关联产线良率、存储 IO 延迟,定位 “算力浪费但良率没提升” 等深层问题,形成优化闭环。做到覆盖 “数据采集 - 存储处理 - 算力输出 - 结果应用” 等全链路监控闭环。2、一定要培养懂 “存储架构 + 异构算力 + 业务场景” 这样的复合型人才,同时还引入智能运维工具。如利用AI工具可以预测存储算力瓶颈(基于历史质检数据、硬件损耗 ,做好提前规划扩缩容,避免因人力判断滞后影响产线等等造成的问题3、无论是在智能制造AI质检还是其他系统中,必须要评估“升级算力卡后,缺陷漏检率下降带来的收益”是否能覆盖成本,动态调整算力配置最佳,而非盲目追求高性能硬件,造成存储算力投入与业务价值相差过大的情况。摘选回复21、存储的使用便捷性,无论使用任何平台都可以快速的使用存储的全部功能,但是目前我们在使用平台挂载华为存储的时候,出现了各种各样的问题,按道理来说,都是大厂商,应该很好的解决此类问题,但是实际情况是,反复扯皮,解决问题的方案遥遥无期;2、存储的GPU计算能力、NPU网络能力应该可以快速通过增加板卡来提升,否则用户需要的能力和实际的能力相差太远。"摘选回复31. 安全合规的隐形成本2. 老旧系统(如FC SAN)与云原生存储的协议转换瓶颈3. 传统运维人员对分布式存储、RDMA等新技术的掌控不足