【干货分享】边缘侧的“最强计算”:昇腾开发板零成本部署大模型实战摘要这不是一篇单纯记录“跑了一个模型”的课程笔记,而是一篇围绕端侧 AI 工程闭环展开的技术复盘。结合公开课回放文字稿、项目归档脚本、PPT 预览图和现有输出产物,我把这次“华为大模型 + 昇腾开发板”的实战内容重新整理成了一篇更适合 CSDN / 掘金发布的分享稿。重点不在模型参数本身,而在于如何把图片识别、Prompt 生成、离线文案、海报渲染串成一条能复现、能讲解、能展示的端侧 AI 闭环。 一、项目背景:这次公开课真正想解决的,不是单点推理,而是完整闭环很多端侧 AI 演示最后只停留在“模型跑起来了”,但这次公开课的价值不只是展示某个模型在开发板上推理成功,而是把一条完整链路跑顺了:读取测试图片 -> 识别目标 -> 生成 Prompt -> 生成带货文案 -> 输出海报。从归档内容和回放文字稿来看,这次案例使用的是一张普通商品图,识别出的核心标签是 bottle,再映射成中文“矿泉水”,随后进入文案生成与海报输出流程。这个设计非常适合公开课,因为它让学生看到的不是一段抽象日志,而是一个从输入到输出都能解释清楚的端侧 AI 成果。这里也必须把边界说清楚:当前归档已经能证明“图片 -> 标签 -> Prompt/文案 -> 海报”的闭环和板端保底流程是成立的;但真实 YOLO .om 的 NPU 推理效果,仍然需要在 .om 转换完成并完成板端复测后再确认,不能把这一部分直接写成“已经完全跑通”。二、整体方案:一条主流程,两个检测后端,才是公开课稳定的关键从项目结构来看,这套 Demo 最值得借鉴的设计思路是:后端可以替换,但主流程不变。也就是说,无论你最终走的是 Ascend .om 路线、本地 YOLO 路线,还是课堂保底的启发式检测路线,后续的 Prompt、文案生成、海报输出逻辑都保持一致。这是一种非常适合教学和演示的工程拆法。因为一旦模型转换、依赖安装或者板端环境出现波动,整节课不至于直接中断,至少还能通过 fallback 路线把核心结果演示出来。与此同时,学生也能更容易理解“端侧 AI 闭环”到底是什么,而不是被某一个工具链细节绊住。从归档里的 YOLO.py、src/run_demo.py、src/detectors.py、src/llm_engines.py 和 src/poster_generator.py 可以看出来,这套工程已经具备比较清晰的模块边界:统一入口、检测后端、文本生成后端、海报生成后端各司其职,主流程负责把它们串起来。这正是一个好 Demo 和“临时拼起来的脚本集合”之间的差别。三、为什么一定要先本地跑通,再上开发板回放里老师反复强调一个很重要的工程判断:本地先跑通,不是为了替代开发板,而是为了先验证工程本身。本地预跑至少能先确认六件事:代码入口是否正常、图片路径是否正确、Prompt 模板是否合理、文案输出是否失控、输出路径是否正确、日志是否方便排错。只有这些问题都稳定了,板端调试才有意义。这一点在 src/run_demo.py 里也体现得很明显。程序会明确打印运行模式、输入图片、视觉识别结果、置信度、检测后端、Prompt 内容和最终海报路径。对公开课来说,这类“每一步都能解释”的日志设计非常重要,因为现场一旦出问题,最怕的不是报错,而是不知道报错属于哪一层。四、模型文件边界一定要讲清楚:.ckpt、.onnx、.om、.gguf 分别解决什么问题部署课里最容易被误解的,往往不是命令本身,而是文件格式。.ckpt 更偏训练检查点,不等于开发板可直接稳定复现的推理模型;.onnx 更偏通用导出格式,便于跨框架流转;.om 才是 Ascend 侧常见的离线推理模型形态;而 .gguf 更适合本地离线文本生成这条路线。这件事如果不提前讲清楚,后面的 ATC 转换、后端切换和 fallback 逻辑就很容易让人听乱。工程里最怕的不是没有模型,而是“手里有文件,却不知道这个文件到底该在哪个环节使用”。五、Ascend 路线的关键门槛:ATC 转换和环境检查从 docs/MODEL_PREPARE.md 可以看出,开发板 NPU 不能直接拿目录里的 .ckpt 去跑,需要准备真正可被 Ascend 加载的 .om 模型。典型路径是先准备 ONNX,再通过 atc 转换为 .om。示例命令如下:atc \ --model=models/yolov8n.onnx \ --framework=5 \ --output=models/yolov8n \ --input_shape="images:1,3,640,640" \ --soc_version=Ascend310B4这一步不是装饰步骤,而是真正决定你有没有进入 Ascend NPU 路线的关键门槛。没有成功生成 models/yolov8n.om,就不能说真实板端 YOLO 已完成。同时,环境检查也不是可有可无的前置动作。归档中的 scripts/check_env.py 已经覆盖了 Python、numpy、cv2、llama_cpp、ais_bench、npu-smi info、atc --version、样例图、标签文件、GGUF 模型和 .om 文件等关键项。很多“看起来像模型问题”的故障,最后往往只是版本不匹配、依赖没装全或者模型没放对路径。六、这套 Demo 最值得借鉴的三个工程设计第一,fallback 不是妥协,而是公开课稳定性的保障。scripts/run_ascend.sh 已经明确写了:如果 models/yolov8n.om 存在,就走真实 Ascend 路线;如果不存在,就回退到本地保底流程,仍然输出海报成果。第二,Prompt 被当成了模块协议,而不是一句附带说明。视觉侧输出的是标签,生成侧接收的是结构化后的文本意图。识别出 bottle 的价值,不是为了展示检测框,而是为了稳定地把下游文案任务描述清楚。第三,最终输出一定要是成果物。归档里的 src/poster_generator.py 和 poster-generation-dev 目录都说明了这一点:这个项目不满足于输出日志,而是要产出一张可以直观看懂的海报。这会直接决定它的课堂表现力和后续传播力。 七、成果页为什么重要:因为它决定这个项目有没有“发布感”很多技术项目做到最后,停在了一堆终端输出里,这会导致它很难传播,也很难让非技术同学第一眼理解价值。这次案例最大的优点之一,就是最后落到了海报产物,而且还延伸出了 3D 展示效果。从演示视角看,一张“输入普通图片,输出完整商品海报”的成果页,比一屏日志更能快速建立信任感。它把识别、文案生成、视觉合成这些中间能力收束成了一个最终结果。这其实就是一种非常典型的 Demo 产品化思路。 八、排错建议:不要盲目重跑,要按层级定位结合这次材料,我觉得现场最容易出现的误判主要有四类:把 .ckpt 当成目标推理模型、在 .om 没生成成功前就把 NPU 路线写成“已跑通”、忽略环境检查、只关注模型本身却忽略输出路径和成果物。真正专业的技术表达,不是把所有能力都说满,而是明确告诉别人:哪一部分已经验证,哪一部分还需要复测,哪一部分只是保底路径。公开课和项目交付都很忌讳“讲结果时跑得太快,讲边界时过于含糊”。我的建议是,排错时严格按三层走:1. 先看设备与环境层:npu-smi、Python、依赖、模型文件是否存在。2. 再看模型与后端层:到底走的是 .om、本地 YOLO,还是 heuristic fallback。3. 最后看业务输出层:Prompt、文案、海报路径和最终渲染结果。九、如果你也要复现,建议按这个顺序来python -m pip install -r requirements-local.txt python scripts/create_sample_image.py python scripts/check_env.py --mode local python YOLO.py --config configs/demo.local.json --mode local python3 -m pip install -r requirements-ascend.txt python3 scripts/check_env.py --mode ascend bash scripts/run_ascend.sh先本地闭环,再板端环境,再模型转换,最后再看真实 NPU 效果。这是最省时间、也最符合工程逻辑的路线。结语如果只把这次公开课理解成“在昇腾开发板上做了个海报 Demo”,那其实低估了它。它真正值得借鉴的,是一套适合教学、适合复现、也适合后续扩展的端侧 AI 工程方法:先让主链路稳定,再逐步替换真实后端;先把事实边界讲清楚,再去讲性能和能力;先交付一个看得见的成果页,再逐步优化底层实现。这套方法不只适用于这次昇腾开发板公开课,也适用于大多数 AI 项目落地。已结束——【课程预约】信息化赋能新院区高效管理JDC公开课来啦!这次我们请到了医疗行业信息化工程师——wyliudehua分享《信息化赋能新院区高效管理》6月23日(周二)18:30,JDC视频号线上直播,不容错过!JDC公开课,知识积累的宝库,思维的火花碰撞的地方!主讲人简介●JDC白银发言人●医疗行业信息化工程师●JDC有奖话题一等奖获得者参与有礼1、扫描下方海报上的二维码,预约直播2、提问有礼:在评论区加上自己想提问的问题,问题若在直播间被选中答复,将获得JDC独家定制礼品。3、邀请朋友预约有礼:识别下方推广二维码,生成自己的专属推广二维码图片,将图片转发至微信朋友圈,配文"扫描二维码预约JDC直播公开课,一起进步”,将发送的朋友圈截图发送至本帖的评论区,即可获得10智豆。😆邀请人数最多的TOP 5兔粉将分别额外获得800、600、400、200、100的智豆奖励,最低邀请人数需分别>20、>15、>10、>8、>5, JDC将会在活动结束后公示TOP 5邀请数据 🥰生成专属推广二维码流程如图🥰【干货分享】AI驱动下的建筑能源管理一、建筑楼宇面临的痛点 各位好。在开始今天的主题之前,我想请大家回想一个日常场景:当我们走进一座写字楼或商场时,是否曾突然感到一股强烈的冷风,或者觉得室内的闷热远超室外?又或者,当我们需要使用一个久未开启的会议室时,扑面而来的热浪是否让人瞬间感到不适?这些看似微小的体感问题,背后都指向一个核心——建筑的能源管理是否到位。传统的能源管理方式,往往依赖人工经验进行粗放式调节,例如师傅每隔几天去机房手动调整一次冷水机组的温度。这种方式不仅难以精准匹配实时的环境变化和人员需求,也造成了能源的巨大浪费和用户体验的下降。今天,我们将探讨如何利用AI技术,为建筑能源管理注入智慧,在节能与舒适之间找到最佳平衡点。 二、AI驱动的智慧楼宇能源管理框架 一个完整的AI驱动能源管理体系,并非空中楼阁,而是建立在一个清晰的技术架构之上。 1. 数据汇聚层:现代建筑内部署了海量的物联网设备,如照明、暖通、消防、安防等子系统。这些系统产生的数据通常是孤立的。我们的第一步,是通过建筑管理系统(BMS)将这些分散的数据进行统一汇聚和管理。 2. 智能分析层:汇聚到BMS的数据,会被送入数据中台或数据底座。在这里,AI算法开始发挥作用。通过对历史和实时数据的深度分析,系统能够学习建筑的用能规律,并预测未来的能源负荷。 3. 应用优化层:基于AI的分析结果,系统可以衍生出多种精细化应用,如能源预测、设备管理、故障诊断等。最终,这些优化指令会反向控制暖通空调等核心设备,实现动态、精准的调节。 三、核心技术:从负荷估算到AI优化 AI如何具体实现节能与舒适的平衡?其核心在于对“负荷”的精准计算与动态优化。 1. 冷/热负荷的精准估算 所谓“负荷”,简单来说,就是为维持室内舒适温度,需要从空间中移除(冷负荷)或补充(热负荷)的热量。其构成非常复杂,主要包括: (1)外部得热:太阳光透过玻璃的辐射热 (2)内部得热:人员的呼吸与体温、照明设备、办公设备等散发的热量 (3)建筑本身:墙体的保温性能、玻璃的材质等,都直接影响热量的流失与聚集。 过去,设计院通常依据20年前的国家标准和经验指标来估算负荷,为不同建筑类型(如酒店、办公楼、商场)设定一个宽泛的取值范围。细化到建筑、人体、照明等,把主要负荷指标做了量化。相对更精确。可以看出新风占比比较高,比如新风负荷27w每平米,总计114,占据了百分之二十几,有的会议室达到190w每平米,将近占据了50%的总负荷。因为会议室人流大, 1.5平米一个人,所以负荷也比较大. 在20年前,那时候可能建筑、门窗比较小,维护结构不是很好,随着现代建筑产业的发展,建筑维护结构性能不断提到,,外墙保温也越来越好。但窗户面积越来越大,通过窗子辐射的热量和窗户的导热也不短在增大,新风量也越来越大。原来新风量取值比较小,甚至没有做新风,现在的建筑基本都有新风,而且新风的量也越来越大 然而,随着建筑节能标准的提升和新型材料(如大面积落地窗)的普及,旧标准已难以满足当下精准化管理的需求。 负荷量和制冷量是一个动态平衡的过程,负荷量是不断在变化,是一个逐时的负荷变化,制冷量也是可以变化的,如果负荷量大于制冷量,那么温度就会升高,如果负荷量大制冷量小设备的运行维护费用低,比较节能,但是可能温度比较高不舒适,但是如果把制冷量加大就不节能了,能耗高但人体舒适,所以在负荷选型的时候,在暖通设计的时候,就是在找节能和舒适的平衡点,及要求让人体满足基本的舒适健康的要求,在基础上又要节能的效果。就是在负荷计算和设计时把握的一个原则。 2. AI优化: 在节能与舒适间寻找平衡点 AI的价值,就在于解决“既要节能,又要舒适”的难题。通过引入多维度的动态因子,对冷负荷进行实时预测和动态调整。 动态预测因子:AI模型会综合考虑星期几(工作日/周末)、节假日、实时人流量、室外天气(温度、湿度、光照)等多种因素,预测未来几小时甚至第二天的能源需求。 反向精准控制:基于预测结果,AI系统会自动计算出最优的设备运行参数,并反向控制冷水机组、水泵、冷却塔等设备的运行状态,如出水温度、水流量、风机频率等。 例如,通过大量测试发现,冷却水的供回水温差每降低1度,节能效率可提升约3%。AI模型正是通过精确控制电动阀门来调节流量,从而实现这一微小的温差优化,积少成多,达到显著的节能效果。 3. 算法实现: 以粒子群优化为例 在众多AI算法中,粒子群优化等算法被广泛应用于寻找设备运行的最优组合。系统会将冷水机组、冷冻泵、冷却泵等设备的各项参数(如温度、频率)作为变量,组合成成千上万种运行方案。通过模型快速演算,最终找出那个既能满足制冷需求(冷量),又能使耗电量最低的最优解。这个过程是持续迭代和不断优化的,AI模型会根据实际运行效果进行自我校准,使节能效果越来越精准。 四、原理科普:制冷循环与节能本质 为了更好地理解节能的本质,我们有必要了解建筑制冷的基本原理。其核心是冷水机组,整个循环过程如下: 1. 冷却侧(放热): 冷水机组产生的热量由冷却水(约35℃)带至室外的冷却塔。冷却塔通过风冷和喷淋,将水温降低(如降至30℃),再由冷却水泵送回冷水机组的冷凝器,将制冷剂的热量带走。 2. 冷冻侧(吸热): 在冷水机组内部,经过制冷的低温冷冻水(约6℃)被泵送至室内的风机盘管(AHU)。风机将空气吹过冰冷的盘管,产生冷风吹入室内。吸收室内热量后,水温升高(如升至12℃),再流回冷水机组的蒸发器,开始新一轮制冷循环。 我们家里的空调也是同样的原理。节能的本质,就是通过AI优化这个循环中各个环节的效率,最终体现在电量的节省上。冷水机组,高温水从冷水机组出来35度,到冷却塔进行散热,把热量排放到空气当中就变成了30度的低温的冷却水,到机组的冷凝器。吸收冷凝器中制冷剂的热量,这个冷却水是在我们的冷却塔和冷水机组之间循环的,跟左边的水是两个水系统。 我们再看左边的水循环,从左边的冷水机组蒸发器出来的低温冷水可以是6摄氏度低温冷水。到我们的空气机组给我们的室内的空气进行制冷。吸收空气当中的热量变成12度的冷冻水,再到机组内去吸热。再变成6度的低温冷水。 AI驱动的建筑能源管理,已经从理论走向实践,并带来了多重价值: • 经济效益:显著降低建筑能耗与运营成本,部分项目甚至可采用“合同能源管理”模式,由节能服务公司投资改造,业主从节省的电费中分享收益,实现零成本升级。 • 体验提升:提供恒温、舒适的室内环境,提升租户和访客的满意度,进而提高楼宇的溢价能力。 • 管理升级:自动生成ESG或碳排放报告,为管理者提供清晰的数据支撑,满足合规要求,并助力园区实现“零碳”目标。 • 技术融合:与鸿蒙等操作系统结合,探索“鸿蒙楼宇”等新方向,实现设备的统一管理和更深层次的智能化。 总而言之,AI正在让建筑变得更聪明、更绿色、更人性化。它不再是冰冷的钢筋水泥,而是能感知、会思考、有温度的生命体。【干货分享】AI大模型基础架构: 从入门到放弃?(第一讲)AI大模型基础架构: 从入门到放弃?(第一讲) 在人工智能技术飞速迭代的当下,AI 大模型已成为推动产业升级、技术创新的核心引擎。从自然语言处理到计算机视觉,从智能交互到工业决策,大模型的应用场景不断拓展,而支撑其高效运转的基础架构,则是决定模型性能、训练效率与部署成本的核心基石。本文将从 AI 大模型的本质原理出发,深入剖析 GPU 算力逻辑、训练与推理的核心差异、多机多卡分布式训练策略,以及专用网络架构设计,系统拆解 AI 大模型从底层硬件到上层部署的完整技术体系,为从业者构建大模型基础架构提供全面参考。 一、AI 大模型的本质:从 “预测 Token” 到底层运算逻辑很多人接触 AI 大模型时,常被 “Transformer 架构”“注意力机制”“千亿参数” 等专业术语裹挟,难以理解其核心本质。从底层逻辑来看,AI 大模型的本质是一个高效的 Token 预测器,通俗来说,就是通过海量数据训练,不断优化参数,精准预测文本序列中的下一个 Token(字符、词语或子词),这一过程常被形象地比喻为 “智能算命”。(一)Transformer 架构:大模型的技术基石AI 大模型的爆发式发展,始于 2017 年谷歌发表的《Attention Is All You Need》论文,论文提出的Transformer 架构彻底革新了自然语言处理技术,成为当前 ChatGPT、文心一言、LLaMA 等主流大模型的核心支撑。Transformer 架构的核心是自注意力机制与前馈神经网络,并通过多层堆叠(常达数十层甚至上百层)实现复杂语义的捕捉与建模。简单来说,Transformer 架构包含编码器(Encoder)和解码器(Decoder)两部分,主流大模型(如 GPT 系列)仅保留解码器,专注于文本生成任务。架构的核心运作逻辑是重复堆叠计算层,每一层都通过自注意力机制计算文本中不同 Token 的关联权重,再通过前馈神经网络完成特征变换,多层叠加后,模型便能从海量文本中学习到语言规律、逻辑关系甚至常识知识。(二)底层运算:所有复杂算法的核心都是 “乘加运算”拆解 AI 大模型的算法体系,从线性回归、逻辑回归、决策树到支持向量机、梯度提升算法,看似种类繁多、逻辑复杂,但其底层核心运算高度统一 —— 向量卷积运算,本质就是简单的乘加运算。以最基础的一元线性回归(Y=AX+B)为例,训练过程就是通过海量(X,Y)数据点,反复计算求解参数 A 和 B,而这一过程正是无数次乘法与加法的组合。AI 大模型的训练与推理,本质是将这一逻辑扩展到高维空间:模型通过海量文本数据训练,迭代优化千亿级参数;推理时则利用已优化的参数,通过乘加运算快速预测下一个 Token。正是因为底层依赖大规模乘加运算,GPU 才成为 AI 大模型的核心算力载体。CPU 擅长串行复杂逻辑运算,而 GPU 集成了成百上千个计算核心,可并行执行海量乘加运算,单次运算与万次运算的能耗、算力成本差异极小,完美匹配大模型的运算需求。 二、GPU 算力解析:通用与专用芯片的核心差异当前 AI 算力市场中,GPU、TPU、NPU、DPU 等各类芯片层出不穷,但其核心设计逻辑均围绕 “高效执行乘加运算” 展开。其中,英伟达通用 GPU凭借通用性强、生态成熟的优势,成为大模型训练与推理的主流选择;TPU、NPU 等专用芯片则聚焦特定场景,追求极致算力效率。(一)通用 GPU:SM 单元与双核心架构英伟达通用 GPU 的核心是流式多处理器(SM),单颗 GPU 集成数十至上百个 SM 单元,每个 SM 单元包含两类核心计算模块,分工明确、协同工作:1. Tensor Core(张量核心):专为矩阵运算(乘加运算)设计,是 AI 训练与推理的核心算力单元,可高效处理大模型中的高维向量计算,直接决定 GPU 的 AI 算力上限;2. CUDA Core(通用计算核心):负责通用逻辑运算、数据校验、复杂函数计算等辅助任务,保障 GPU 运算的灵活性,支撑模型训练中的损失计算、梯度更新等非矩阵运算场景。GPU 的迭代升级,本质是SM 单元数量增加、制程工艺优化、Tensor Core 性能提升的过程。每一代新 GPU 都会通过缩小制程、增加核心数量,提升并行计算能力,从而适配更大规模的大模型训练需求。(二)专用芯片:TPU、NPU 的极简高效逻辑与通用 GPU 不同,TPU、NPU 等专用 AI 芯片通过精简冗余模块、聚焦核心运算,实现特定场景下的算力效率最大化:1. TPU(张量处理单元):谷歌自研专用芯片,完全移除 CUDA Core,仅保留大规模矩阵运算单元,专注乘加运算;同时简化内存架构,取消寄存器缓存,数据直接流转至下一运算环节,大幅降低延迟。此外,TPU 采用低精度计算(INT8/FP16),在不影响模型效果的前提下,提升算力吞吐量,适合大规模模型训练。但 TPU 生态封闭,需定制化硬件与算法,通用性差;2. NPU(神经网络处理单元):介于 GPU 与 TPU 之间,属于轻量化专用芯片,兼顾通用性与算力效率,常用于边缘端、中端 AI 推理场景,适配中小规模模型。综上,通用 GPU 适合全场景大模型训练与推理,生态完善、灵活度高;专用芯片则聚焦特定场景,追求极致效率,企业需根据模型规模、应用场景、成本预算合理选型。三、训练与推理:大模型的两大核心场景及架构差异AI 大模型的应用全流程分为训练与推理两大核心环节,二者的运算逻辑、算力需求、并发特性差异显著,直接决定了基础架构在计算、存储、网络层面的设计方向。(一)训练:海量数据驱动的参数优化过程训练的核心目标是通过海量数据,迭代优化模型参数,让模型具备语义理解、知识储备、逻辑推理能力,类比人类 “读书学习、积累知识” 的过程。1. 核心流程:输入海量文本数据,通过前向传播计算预测结果,对比真实结果计算损失值,再通过反向传播将损失值反馈至模型各层,迭代更新参数;这一过程需重复数万至数百万轮,直至模型收敛,参数稳定;2. 算力特性:计算量极大、并发要求低、延迟敏感。训练需处理千亿级参数、海量数据批次,单轮计算涉及海量乘加运算;但训练为批量任务,无需同时响应大量请求,并发压力小;同时,训练过程依赖参数同步,网络延迟会直接导致训练效率下降,因此对网络延迟、稳定性要求极高;3. 资源需求:需大量高性能 GPU、大容量显存、高速存储(存储训练数据)、高带宽低延迟网络(支撑多卡参数同步),属于一次性高投入场景。(二)推理:参数复用的实时响应过程推理的核心目标是利用训练好的模型参数,快速响应用户请求,输出精准结果,类比人类 “运用知识解决问题” 的过程。1. 核心流程:输入用户文本(如提问、指令),模型通过前向传播,利用已优化参数快速计算,预测下一个 Token,逐一生成完整结果;无需反向传播与参数更新,仅需单次或少量计算;2. 算力特性:计算量小、并发要求高、成本敏感。单条请求的计算量仅为训练的数分之一,但需同时响应数万甚至数十万用户请求,并发压力极大;推理为持续性服务,需控制硬件成本、能耗成本,平衡性能与成本;3. 资源需求:可选用中低端 GPU 或专用推理芯片、中小容量显存、高吞吐存储、高并发网络,属于持续性低成本投入场景。(三)训练与推理的架构差异总结表格对比维度训练场景推理场景核心目标优化模型参数响应用户请求计算量极大(海量迭代)较小(单次计算)并发要求低(批量任务)极高(实时响应)延迟敏感度极高(影响训练效率)高(影响用户体验)成本特性一次性高投入持续性低成本投入硬件选型高性能 GPU、大容量显存中低端 GPU、专用推理芯片 四、多机多卡分布式训练:突破单卡瓶颈的核心策略随着大模型参数规模从数十亿级跃升至千亿、万亿级,单张 GPU 的显存已无法容纳完整模型参数,单卡算力也难以支撑海量数据训练,多机多卡分布式训练成为解决这一问题的核心方案。分布式训练的本质是 “拆分任务、并行计算、同步结果”,核心分为数据并行、模型并行(张量并行、流水线并行),以及三者结合的 3D 并行。(一)数据并行:拆分数据,共享模型数据并行是最简单、最易落地的分布式训练方案,核心逻辑是拆分训练数据,多卡共享完整模型副本。1. 实现方式:将海量训练数据拆分为多个批次,分配至不同 GPU;每张 GPU 持有完整模型,独立完成数据批次的前向传播、损失计算与反向传播;训练结束后,各 GPU 同步梯度,统一更新模型参数;2. 适用场景:模型规模较小(可放入单卡显存)、数据量极大的场景;3. 局限性:受单卡显存限制,无法训练超大模型;多卡梯度同步需频繁通信,通信开销随卡数增加而上升。(二)模型并行:拆分模型,协同计算当模型参数规模超过单卡显存时,需采用模型并行,核心逻辑是拆分模型结构,不同 GPU 负责模型的不同部分,协同完成训练。模型并行分为张量并行与流水线并行两类:1. 张量并行:按矩阵维度拆分模型层(按行或按列拆分高维矩阵),不同 GPU 负责矩阵的不同分片,协同完成乘加运算;例如,将一层高维矩阵拆分为 4 份,分配至 4 张 GPU,每张 GPU 负责 1/4 矩阵的计算,最后汇总结果;优势是并行度高、计算效率高,劣势是GPU 间通信量极大,依赖高带宽网络;2. 流水线并行:按模型层级拆分,将 Transformer 的多层堆叠分配至不同 GPU,每张 GPU 负责固定层数的计算;例如,100 层模型拆分为 5 份,每张 GPU 负责 20 层,数据依次流经各 GPU 完成前向与反向传播;优势是通信量较小,劣势是存在 “气泡问题”—— 上游 GPU 计算时,下游 GPU 空闲,资源利用率低。(三)3D 并行:数据 + 张量 + 流水线并行的融合方案实际生产中,单一并行策略难以兼顾效率、资源利用率与模型规模,**3D 并行(数据并行 + 张量并行 + 流水线并行)** 成为主流方案,融合三者优势,适配万亿级大模型训练:1. 数据并行:解决海量数据处理问题,提升数据吞吐效率;2. 张量并行:解决单卡显存不足问题,适配超大模型层计算;3. 流水线并行:降低 GPU 间通信开销,提升资源利用率。此外,针对分布式训练中的资源浪费、效率低下问题,行业提出了专家混合模型(MoE):将模型参数拆分为多个 “专家子网络”,每次训练仅激活部分专家网络参与计算,大幅降低显存占用与算力消耗,提升训练效率,已在 GPT-4、文心一言等大模型中应用。 五、AI 大模型专用网络:从 TCP/IP 到 RDMA 的无损架构分布式训练中,GPU 间参数同步、梯度传输、数据交互的通信效率,直接决定训练速度。传统 TCP/IP 网络基于 CPU 内核处理数据,延迟高、丢包率高、开销大,无法满足 AI 训练的低延迟、高带宽、无损传输需求,RDMA 技术与专用无损网络成为 AI 大模型基础架构的核心组成部分。(一)TCP/IP 网络的局限性TCP/IP 网络是通用互联网通信协议,其设计目标是 “可靠传输、兼容异构网络”,而非 “低延迟、高吞吐”,用于 AI 训练时存在三大致命缺陷:1. 内核开销大:数据传输需经过 CPU 内核协议栈,完成拷贝、校验、转发等操作,延迟高、占用 CPU 资源,影响训练效率;2. 数据拷贝频繁:数据需在 GPU 显存、CPU 内存、网卡缓存间多次拷贝,耗时久、带宽利用率低;3. 延迟不可控、易丢包:TCP/IP 为尽力而为传输,网络拥堵时易丢包、延迟波动大,而 AI 训练中丢包会导致参数同步失败,延迟波动会降低训练速度,严重影响训练稳定性。(二)RDMA 技术:远程直接内存访问RDMA(远程直接内存访问)是专为高性能计算设计的通信技术,核心逻辑是绕过 CPU 内核,让网卡直接访问远程服务器的内存,实现数据零拷贝、低延迟、高带宽传输,完美适配 AI 训练需求。1. 核心优势:• 零拷贝:数据无需经过 CPU 内存,直接在 GPU 显存与网卡间传输,减少拷贝开销,延迟降低至微秒级;• 内核旁路:无需 CPU 参与数据传输,释放 CPU 资源,专注于模型计算;• 无损传输:支持流量控制、拥塞避免,避免数据丢包,保障参数同步的稳定性;2. 主流实现方案:• IB(InfiniBand)网络:专用高速网络,天生支持无损传输,带宽高(最高可达 800Gbps)、延迟极低,是超大规模大模型训练的首选,但成本高、兼容性差;• RoCEv2 网络:基于以太网的 RDMA 方案,兼容现有以太网硬件,成本低、通用性强,平衡性能与成本,成为中小企业大模型训练的主流选择。(三)AI 网络架构:Spine-Leaf 与 Dragonfly基于 RDMA 技术,AI 大模型训练集群采用专用二层网络架构,摒弃传统三层核心 - 汇聚 - 接入架构,降低网络延迟、提升带宽利用率,主流架构分为 Spine-Leaf 与 Dragonfly 两类:1. Spine-Leaf(叶脊架构):中小企业主流方案,两层架构(Spine 交换机 + Leaf 交换机),所有 GPU 服务器接入 Leaf 交换机,Leaf 交换机全互联至 Spine 交换机,实现无阻塞通信;优势是架构简单、部署便捷、成本适中,适配中小型训练集群;2. Dragonfly(蜻蜓架构):大型 OTT 企业(如百度、字节跳动)专用方案,多层互联架构,交换机间全连接,网络直径小、延迟极低、扩展性强,适配超大规模训练集群(上万张 GPU);但技术难度高、配置复杂、成本昂贵,仅适用于顶级企业。(四)完整 AI 大模型网络体系一套完整的 AI 大模型基础架构,需构建三类独立网络,各司其职、互不干扰:1. 计算网络:GPU 间互联网络,采用 RDMA 技术(IB/RoCEv2)、Spine-Leaf 架构,负责参数同步、梯度传输,是核心高速网络;2. 存储网络:GPU 服务器与存储集群互联网络,采用高速以太网或 RDMA,负责训练数据读取、模型 checkpoint 存储;3. 业务网络:管理、推流、应用访问网络,采用普通 TCP/IP 以太网,负责集群管控、用户请求转发、模型部署运维。六、总结与展望AI 大模型的基础架构,是底层硬件、算力芯片、分布式策略、专用网络的有机融合,其核心逻辑始终围绕 “高效执行乘加运算、优化参数同步效率、平衡性能与成本” 展开。从本质上看,大模型并非神秘的 “黑箱”,而是基于 Transformer 架构、依赖海量乘加运算、通过分布式训练优化参数的智能系统;从架构上看,训练与推理的差异化需求,决定了 GPU 选型、分布式策略、网络架构的设计方向。未来,随着大模型参数规模持续扩大、应用场景不断下沉,基础架构将朝着算力极致化、成本轻量化、部署边缘化方向发展:专用 AI 芯片将进一步迭代,平衡通用性与算力效率;分布式训练策略将持续优化,降低通信开销、提升资源利用率;RDMA 技术将逐步普及,以太网与 IB 网络的界限将逐渐模糊;同时,边缘端大模型的发展,将推动轻量化基础架构的创新,适配低功耗、高实时性场景。对于从业者而言,深入理解 AI 大模型的底层原理、算力逻辑与架构差异,是构建高效、稳定、低成本基础架构的核心前提,也是推动 AI 技术落地应用、赋能产业升级的关键支撑。已结束——【课程预约】AI驱动下的建筑能源管理DC第56期公开课来啦!这次我们请到了政务行业解决方案资深专家——igc老师分享《AI驱动下的建筑能源管理》时间是2026年6月9日(周二) 18:30,JDC视频号线上直播,不容错过!JDC公开课,知识积累的宝库,思维的火花碰撞的地方!参与有礼1、扫描下方海报上的二维码,预约直播2、提问有礼:在评论区加上自己想提问的问题,问题若在直播间被选中答复,将获得JDC独家定制礼品。3、邀请朋友预约有礼:识别下方推广二维码,生成自己的专属推广二维码图片,将图片转发至微信朋友圈,配文"扫描二维码预约JDC直播公开课,一起进步”,将发送的朋友圈截图发送至本帖的评论区,即可获得10智豆。😆邀请人数最多的TOP 5兔粉将分别额外获得800、600、400、200、100的智豆奖励,最低邀请人数需分别>20、>15、>10、>8、>5, JDC将会在活动结束后公示TOP 5邀请数据🥰生成专属推广二维码流程如图🥰已结束——【课程预约】赋能课堂(第9期):AI正在重写程序员的工作方式——边缘侧的“最强计算”:昇腾开发板零成本部署大模型实战HUAWEI JDC 赋能课堂回归啦!我们请到了本期嘉宾——陈志康分享《边缘侧的“最强计算”:昇腾开发板零成本部署大模型实战》就在2026年6月4日(周四) 18:30,JDC视频号线上直播,不容错过!JDC公开课,知识积累的宝库,思维的火花碰撞的地方!主讲人简介● 专注于人工智能解决方案与云原生底层技术精通数据通信● 大模型本地部署及MindSpore全栈应用参与有礼1、扫描下方海报上的二维码,预约直播2、提问有礼:在评论区加上自己想提问的问题,问题若在直播间被选中答复,将获得JDC独家定制礼品。3、邀请朋友预约有礼:识别下方推广二维码,生成自己的专属推广二维码图片,将图片转发至微信朋友圈,配文"《CodeArts核心技术》分享,扫描二维码预约,一起进步”,将发送的朋友圈截图发送至本帖的评论区,即可获得10智豆。😆邀请人数最多的TOP 5兔粉将分别额外获得800、600、400、200、100的智豆奖励,最低邀请人数需分别>20、>15、>10、>8、>5, JDC将会在活动结束后公示TOP 5邀请数据。🥰生成专属推广二维码流程如图🥰已结束——【课程预约】实体数据空间行业实战分享JDC公开课来啦!这次我们请到了资深系统架构师——zhangjbn分享《实体数据空间行业实战分享 》时间是2026年5月26日(周二)18:30,JDC视频号线上直播,不容错过!JDC公开课,知识积累的宝库,思维的火花碰撞的地方!主讲人简介●JDC白银发言人●资深系统架构师●JDC有奖话题一等奖获得者参与有礼1、扫描下方海报上的二维码,预约直播2、提问有礼:在评论区加上自己想提问的问题,问题若在直播间被选中答复,将获得JDC独家定制礼品。3、邀请朋友预约有礼:识别下方推广二维码,生成自己的专属推广二维码图片,将图片转发至微信朋友圈,配文"扫描二维码预约JDC直播公开课,一起进步”,将发送的朋友圈截图发送至本帖的评论区,即可获得10智豆。😆邀请人数最多的TOP 5兔粉将分别额外获得800、600、400、200、100的智豆奖励,最低邀请人数需分别>20、>15、>10、>8、>5, JDC将会在活动结束后公示TOP 5邀请数据🥰生成专属推广二维码流程如图🥰【干货分享】 企业运维 AI Agent 落地实践企业运维 AI Agent 落地实践:从 MVP 演示到稳定可控运行的运维Agent系统一、运维的痛与 Agent 的价值运维人的日常痛点 做运维的同学应该都有共鸣:On-Call 的代价。无论故障大小,运维团队基本处于随时待命的状态。哪怕出去旅游,领导也会要求带上电脑。凌晨 3 点被告警叫醒,排查半小时发现只是个 VPN 连不上的问题——这种事每周都在发生。排查费时费力,现网中的服务问题通常不是单点问题。应用运维说可能是数据库,数据库那边查了说没问题,可能是系统或网络——各团队互相扯皮,排查链路漫长, 重复工单堆积,权限申请、服务器扩容、防火墙变更,大量重复性 Case 堆积如山。老员工的排障经验无法有效沉淀,新人接手断层严重。AI Agent 能带来什么?这三个痛点在没有 AI 之前也能解决——堆人力、招 SRE 专家。但 AI 的出现提供了第二种选择:用更低的成本实现同样的效果。释放重复劳动:让 Agent 处理标准化 Case,运维专注高价值工作;7×24 极速响应:全天候无休,减少 On-Call 对工程师的消耗;降低人为失误:标准化执行,减少疏漏;跨系统自动联动:一句话触发,Agent 自动跨多个系统完成操作。 实际场景举例 :场景一:零信任工单自动处理。传统方式需要登录 OA 看工单 → 切到零信任后台 → 查用户 → 建资源 → 配授权 → 回钉钉通知 → 回 OA 关工单,6 个系统 7 步操作。引入 Agent 后,工程师只需说一句"处理下 xx 的零信任工单",Agent 自动跑完全流程。场景二:内核级深度问题定位。传统排查到应用层就停了——Connection Reset,重启试试。但 Agent 会继续往下挖:查 dmesg、查 syslog,发现 nf_conntrack table full。借助 LLM 广阔的知识图谱,Agent 具备跨越应用层、系统层到内核层的深度诊断能力。场景三:开发测试自助排障。以前开发同事反馈"测试环境 user-service 启动失败",需要提工单等运维响应。现在直接问 Agent,Agent 自己去查日志、定位问题、给出建议。开发自助闭环,运维不用介入。 二、Agent 架构设计 ### 整体四层架。 我们的架构分为四层:1. 钉钉通道层:Agent 入口在钉钉,通过 Stream 长连接接收消息。包括消息回调、卡片交互、OAuth 认证、附件处理等。2. 消息路由层:身份认证、会话管理、Agent 路由。不同用户的消息会到达不同的 Agent——非技术员工走自助服务 Agent,运维人员走运维 Agent。3. Agent Harness 层:核心编排框架,包含 ReAct 推理引擎、上下文工程、多层记忆、工具调度、安全控制。4. 基础设施层:LLM 集群、Neo4j 图数据库、向量库、对象存储、JumpServer 等。Agent 不是一个模型,而是一个编排框架。模型只是其中的推理引擎,围绕它还有大量的工程设计。 三、工具能力封装演进- 共四个阶段。起步期:MCP 标准工具。按 MCP 标准封装每个运维原子能力。Schema 定义繁琐,大量适配代码,工具数量面临爆炸风险。觉醒期:脚本框架。发现命令执行通道是通用的——既然 Agent 能通过 JumpServer 执行命令,那各种运维脚本就是可以直接执行的能力。突破期:SOP 知识驱动。用"知识指引"替代"代码堆砌"。为 Agent 编写 SOP 文档,有效化解多云运维的庞大工作量。成熟期:Agent CLI 化。60+ 独立工具被压缩为单一 CLI 入口。工具元数据 Token 消耗从万级降至数百。 Agent CLI 工具全景CLI 化之后,Agent 只需要知道 `agent-cli --help` 就能自助查阅工具用法。上下文里只放一个能力速查表,详细参数按需获取。凭证托管:最关键的设计 Agent CLI 不只是工具封装,更重要的是**用户凭证的托管和权限控制。大模型不参与凭证处理,凭证在 CLI 层透明注入。不同用户、不同角色加载不同的凭证。 四、JumpServer 命令执行器这是运维场景最经典的工具——让 Agent 能登录数千台服务器和网络设备。 我们采用 SSH 自动化的方式,模拟人类登录 JumpServer 的过程。每轮给 Agent 一个随机结束符(cli_round_guard),确保复杂多行命令的准确提取。命令执行后的输出捕获是动态的:设置最大阈值,同时设置动态阈值(连续 2 秒无新输出则提前终止)。 五、SOP 知识体系SOP 是 Agent 的操作手册。Agent 不是靠 LLM 的通用知识做运维,而是先读 SOP 再执行——和人类工程师一样。 我们积累了 68 篇 SOP,覆盖各运维领域。新增一项运维能力,最低成本的方式就是写一篇 SOP 上传。Agent 下次遇到相关问题时会先读 SOP,然后按流程操作。不需要改任何代码。 六、多层记忆系统-四层记忆体系普通聊天机器人只有对话历史。但运维 Agent 面临不同的挑战:复杂排查需要 10+ 轮工具调用,早期发现会丢失;不同用户之间有协作关系;同一台服务器可能反复出问题。我们设计了四层记忆:短期记忆、事件记忆、协作记忆、长期记忆。 事件记忆:解决"马冬梅问题"Agent 在第一轮很清楚这是"马冬梅",但过了两轮之后就变成了"马东什么"或"马什么梅"。前几轮推理过程中发现的关键信息,在后续循环中丢失了。解决方案:给 Agent 配两个"秘书"。S1 管理消息入口(新 Case 还是老 Case),S2 记录每轮的"会议纪要"(关键事实实时提取)。 协作记忆:跨会话感知A 让 Agent 转达消息给 B。传统做法是单向的——B 收到消息但不知道来龙去脉。我们把所有用户 Session 全量归档到 Neo4j 图数据库,协作类消息事件作为锚点,在两个 Session 之间建立连线。B 再次对话时,Agent 就知道背景。 长期记忆(Mem0)基于开源 Mem0 框架,提供跨 Case、跨时间的永久记忆。坦率说,在运维场景中长期记忆并不是最重要的——运维 Case 处理更多依赖 SOP 和实时状态查询。但作为记忆体系的补充,我们还是引入了。记忆优先级 四层记忆有时会冲突。优先级:短期记忆 > 事件记忆 > 协作记忆 > 长期记忆。 七、安全基石:AI 审批与凭证隔离AI 审批:拒绝"先斩后奏"在 ReAct 循环的工具解析节点插入 AI 审批判断。引入 Flash 级别的小模型,2 秒内判断这个命令是否需要用户二次确认。高风险操作通过钉钉卡片让用户确认。AI 审批比硬规则更智能。Agent 第一次删除用户因没加 sudo 失败,第二次加了 sudo 重试。AI 审批能看到上下文——这是刚才已经审批过的同意图命令,不需要重复审批。 凭证隔离:千人千面全员可用的 Agent 服务,但每人只能操作权限范围内的资产。凭证在 CLI 层托管,不暴露给模型,也不暴露给用户。 八、实战表现:阿里云网络变更 一个真实案例:把一个 /16 的 VPC 拆成两个 /17 的 VPC,重新规划 CIDR。Agent 自动读 SOP、查询现有配置、逐个清理资源、重建 VPC 和交换机。最后一次经历了 30 轮循环,把整个变更做完了。OA 自动化与数据查询 财务同事看费控数据、运营同事看外呼数据,都能通过 Agent 自助查询并生成图表。OA 工单的查询、审批、提交也已全面覆盖。 九、未来方向1. 运维知识图谱:从扁平 SOP 文档升级为关系图谱,让 Agent 能做影响分析和根因推荐;2. Agent 间协作:用户的自助 Agent 向运维 Agent 发起求助,经人工审批后由运维 Agent 执行;3. 用户运行时沙箱:基于 K8S 为每个用户提供隔离容器,支持个人脚本和定时任务;4. Agent 安全:IM 入口让安全边界前置到钉钉消息层面,需要更完善的身份确认和攻击防护 。 Q&A 精选Q:用的是什么模型?A:主要用先进模型(Claude Opus 4.6 等)。运维 Agent 这种主动式任务处理,消耗的 Token 并不多,每月不到 200 美元。真正消耗大的是循环型任务和 AI Coding。 **Q:这个是基于 OpenClaw 做的吗?** A:不是,我们是从去年 9 月开始自研的,基于 LangGraph 框架。如果现在要快速落地,可以考虑拿 OpenClaw 或 Claude Code 二次开发。但如果追求深度定制,自研更灵活。Q:如何处理没有 API 的老旧系统?A:我们遇到过只有 Web 管理页面的语音 SBC 设备。通过逆向 HTTP 调用、提取 Cookie,甚至用图像理解模型识别验证码来实现自动化。做起来有点复杂,但可行。Q:Agent 的准确性如何保证?A:模型幻觉依然存在,这是事实。我们通过 SOP 约束、AI 审批二次确认、用户凭证隔离三层保障来兜底。即使 Agent 的指令遵循不是 100% 准确,用户二次确认可以帮它兜底。 欢迎更多小伙伴跟帖提问~【干货分享】智能会议室解决方案前言大家好,我是 JDC 的花花11。很高兴今天能和大家进行直播互动,本次我将为大家分享的主题是 —— 智能会议室解决方案。接下来我将从五大方面展开讲解:智能会议室行业发展趋势整体框架核心功能方案亮点成功案例在整个行业趋势里,我们还是要围绕用户痛点来谈。尤其在智能会议领域,痛点主要集中在会前、会中、会后三个环节:①会前:客户需要反复预定会议、准备大量资料,还要逐一检查会议室设备是否正常,准备工作繁琐。②会中:会议体验差,常见问题包括画面不清晰、声音断断续续、设备多且操作复杂。③会后:核心是统计与运维问题,一方面需要人工实时记录会议内容,效率低;另一方面多会议室、多设备难以统一管理。 针对会前、会中、会后三大痛点,我们不难发现智能会议室的发展路径十分清晰:从早期依靠遥控器简单解决问题,到如今通过中控平板实现设备集中控制,再到当下 AI 时代,我们更希望用 AI 为智能会议室注入新的灵魂。这也是未来会议室发展的核心趋势。结合前面的趋势,我们对未来智能会议室的发展,有三个核心理解:第一,提升全流程会议效率。围绕会前、会中、会后打造一体化会议体验,让整个系统更易用、易维护、更好用,真正实现会议全流程高效运转。第二,实现节能环保。在多会议室统一管理场景下,实现设备、用电及整体能耗的智能管控,做到绿色节能、降本增效。第三,助力企业数字化转型。从单一会议室的数据传输,升级为多会议室设备统一接入、集中管理,通过统一数据平台实现全局可视、统一管控。总而言之,我们理想中的智能会议室,就是高效便捷、节能环保、全面数字化的智慧协同空间。结合我们刚才对智能会议室的三大核心理解,接下来给大家介绍我们的整体解决方案。大家可以看下面的这张图,这就是我们智能会议室整体方案的总体框架。建议大家从下往上,逐层了解这个框架的构成。首先是最底层的硬件终端部分,我们核心采用的是专业级音视频设备,同时还会配套一系列辅助配件,包括中控设备、矩阵、麦克风、桌牌、门口屏、音箱、音柱、音频处理器等。这些不同类型的设备,能够灵活适配不同形态、不同大小的会议室场景——无论是小型、中型、大型会议室,还是报告厅、指挥中心这类特殊场景,都能通过设备的合理搭配,满足其核心使用需求。而不同会议室之间的互联互通、高效协同,离不开平台的支撑。在硬件终端之上,我们搭建了专属的管理平台,主要包含会议预定平台、设备运维平台等,以此实现会议全流程的衔接:会前可完成会议预定及各项准备工作;会中可开展本地视讯会议;会后则通过平台进行智能运维管理,为整个智能会议室系统的有序运行提供保障。以上就是我们智能会议室整体方案的全部总体框架。我们再来看下一张图。不同公司开会,本质都离部开网络,目前主要有三种会议模式:第一种是纯云会议,全部通过云端召开,比如 WeLink 这类云会议平台都属于这一类。第二种是入驻式部署,采用专业音视频设备,通过 MCU、SMC 等硬件架构实现本地会议。第三种是混合云模式,同时支持云端会议和入驻式部署,两者结合使用。我们这套整体方案,同时覆盖这三种网络拓扑。从图中可以看到,无论是指挥中心、报告厅,还是各类大小会议室,都能统一纳入这套架构。接下来,我们来看一下建成后的智能会议室实际效果。这是我们第一张效果图,展示的是指挥中心。我们可以根据不同的使用场景和预算,来配置不同的方案。在这次方案里,中间会使用 LED 大屏,大屏左右两侧布置音柱。前方设有大型长条会议桌,每个座位前都配备鹅颈麦克风。 现场每个人的发言,都可以通过麦克风清晰采集,再由音柱进行本地扩声,同时也能将声音传输到远端会场,实现本地和远程的正常沟通。这就是我们指挥中心的整体效果。接下来是多功能报告厅的解决方案。多功能报告厅通常空间较大,需要满足多场景、远距离观看的需求。和之前的方案相比,这里会增加多辅助显示屏幕,可以把 LED 大屏的信号同步分发到每一块辅助屏上,实现小屏、大屏和 LED 之间画面统一、多屏联动的效果。整体配置以满足扩声、显示、交互和视频功能为主。接下来我们看大会议室的解决方案。大会议室的方案功能最为齐全,配备了 LED 大屏、ideahub设备以及摄像头设备。每个参会者的座位前,都配有平板、桌牌和无纸化升降器。参会人员可以通过面前的麦克风拾音,通过无纸化升降器完成签到、查阅文件、传递文件、投票等操作,这就是大会议室的整体配置情况。中会议室的方案和大会议室比较类似,只是功能相对精简一些。屏幕数量会减少,桌面上配置的设备也会相应简化。最后是小会议室的方案。小会议室的需求比较简单,核心是方便快捷,一台ideahub就可以满足全部使用需求。以上就是我们根据不同场景,为大家介绍的不同形态的会议室方案。接下来,我们来看一下这些智能会议室究竟能实现哪些功能,先用一张图给大家做一个概括性的了解。首先,前期我们可以实现统一的会议室预定。预定成功后,会议室环境会自动准备就绪。环境准备好后,我们可以通过一台平板,轻松控制整个会议室的声、光、电设备。在会议进行中,借助各类音视频设备,我们可以完成发言、发言跟踪、批注、白板书写等各项操作。会议结束后,平台会自动释放会议资源,同时自动导出整个会议的纪要,全程便捷高效。下面我们把每个功能单独拆解说明。首先来看会前环节,核心是会议预约。在这套方案里,会议预约支持多产品、多终端使用,包括电脑端预约和手机端预约。手机端预约可以直观展示每间会议室的场景,用户直接选择对应的时间即可,操作简单。PC 端预约的功能更全面,可以填写会议主题、上传会议所需文件,同时选择会议时间,一站式完成所有预约操作。因此,会前的会议预约支持手机、电脑等多设备统一使用,满足不同场景下的预约需求。我们预定完会议室之后,会议室的设备会自动进行监测。在本次的方案中,配备了环境检测器,在会议开始前就会对会议室进行检测,包括二氧化碳浓度、甲醛等指标。如果检测到浓度过高,系统会自动联动中控,对新风进行调节。同时,最新方案还采用了 WiFi 7 的 AP 设备,不仅可以为用户提供稳定的网络环境,还能实现人来灯亮、人走灯灭的智能控制。只要完成指定会议室的预约,会议室的相关设备就会自动调节到最优状态,提前开启并准备好合适的会议环境。上面介绍的是会议室内部提前准备的相关功能。除此之外,每间会议室门外还配备了门口屏。完成会议室预约后,门口屏会实时显示会议主题、会议名称、会议室相关信息以及参会人员等内容。 同时,门口屏还支持门禁与签到功能。参会人员可以通过刷脸完成签到,刷脸成功后,会议室门会自动打开,实现签到与门禁一体化。 在细节设计上,门口屏还带有状态灯条。绿色代表会议室空闲,红色代表会议室正在使用,橙色代表设备故障。通过不同颜色,外部人员无需进入会议室,就能直观了解当前会议室的使用状态。这部分功能主要由会议室门外的门口屏来实现。在之前预定会议的界面右下角,我们还可以提前设置本次会议的参会人员。比如这次会议有王总、张三、丁一、李四、王五等人,在预定阶段就可以把这些人员信息录入,并直接编排好座位,比如张三坐三号位。 会议开始后,现场屏幕就会按照预定好的座位安排,把人员信息统一显示出来。这样就不用像以前一样,提前打印纸质桌牌再摆放。现在只需要在预定会议时批量导入和设置人员信息,系统就会自动同步显示,还能和平台对接,实现座位编排一键同步,使用起来非常方便。 另外,墨水屏门口屏的展示排版也支持定制化,可以添加 logo,调整显示版面。屏幕颜色也有多种选择,比如蓝色、绿色、黄色、红色、白色等,还有长条款样式,选型比较丰富,主要是帮助客户提前完成人员座位编排的工作。以上介绍的都是会前相关的功能,接下来我们看会中环节。以往开会时,往往需要用到多个遥控器,操作比较繁琐。在最新方案里,只需要一台中控平板,就能对整个会议室的声光电以及各类信号实现统一管控。从第一张图可以看到,系统预设了四种模式,分别是迎宾模式、本地模式、视频会议模式和离开模式,点击任意一种模式,就能快速切换会议室的整体状态。第二张图是中控平板的界面,整体设计简洁直观。上半部分用来控制灯光、空调、新风等设备,中间区域是显示屏,最下方是不同的信号源。使用者只需要将对应的信号源拖拽到显示屏区域,就能完成画面切换,操作十分简便,可实现一键切换。 除了选择场景模式、控制各类设备,还能在平板上查看环境检测器的实时数据。也就是说,每位进入会议室的人员,只需要通过这一台平板,就能控制会议室里的全部设备,使用起来非常方便。第二点,平板除了控制设备,还可以直接在这套系统上召开会议。从第二张图可以看到,系统里自带通讯录,点击通讯录后,可以直接对单个设备呼叫,也能同时呼叫多方设备,不需要多余繁琐的步骤,只要在通讯录里勾选需要参会的人员,把他们邀请进来就可以发起会议。同时,在会议过程中还可以自由切换信号。使用会议室开会时,可以任意选择远端参会人员看到的画面,无论是电脑画面、白板画面,还是现场发言人的画面,都可以通过平板统一进行调控。第三点,除了中控平板之外,我们的ideahub产品也具备很强的实用性。最新版本支持九分屏、镜像控制、智慧多窗等多种功能,可以支持九方同时投屏,还能随时进行批注和书写,主要满足用户日常投屏、白板书写等使用需求。接下来我们讲无纸化会议功能。整个会议室方案秉承节能环保的理念,具体实现方式之一,就是前面提到的电子桌牌,实现了人名信息的无纸化展示。除此之外,我们还配备了无纸化会议平板。以往开会需要打印大量纸质文件供参会人员查阅,现在每个人在开会时,只需要使用一台平板即可。在会议预定阶段,就可以把本次会议所需的文件提前上传到平板中。参会人员通过平板完成签到后,就能直接查阅和传阅会议文件,还可以实现多人同屏共享,在会上发起投票、申请会务服务等操作。同时,这套系统可以部署在内网环境中,有效避免外网带来的安全风险,保障会议文件安全。整体操作简单便捷,结合这两张图可以看到,我们提供两种无纸化方案。一种是移动式平板,方便灵活携带;另一种是固定式升降平板,安装在每个座位前,不可移动。客户可以根据实际需求,选择固定式或者移动式的无纸化方案。接下来是语音转写功能,我给大家说明一下它的具体作用。以前开会发言时,通常需要专门的人员做笔记、听录音,再手动整理成会议纪要,才能分享给其他同事,流程比较繁琐。针对这个问题,我们配套了专门的语音转写系统。点击前方的麦克风,系统会自动给到发言人特写画面,同时显示发言人姓名,他说的每一句话都会实时转写成文字,同步呈现在后台。在后台可以直接对转写的文字进行修改和编辑。以这张图为例,虽然图片清晰度不高,但可以看到,会议进行中点击进入后,会按发言人分别显示内容,比如标注 “花花11”:后面跟着对应的讲话内容,以及这句话对应的时间点,文字里的错别字也都可以逐一核对和修改。会议结束后,我们可以在平台上选择导出音频、文本,或者同时导出音频和文本,再分发给每位参会人员进行传阅。最新的方案还支持 AI 功能,只需要给 AI 发送指令,让它帮忙总结本次会议纪要,AI 就会自动根据语音转写内容,整理出完整的会议纪要,不再依赖人工整理。到这里,会中的功能就全部讲完了。会中主要实现中控集中控制、语音转写、电子桌牌显示,以及中控平板的各类交互操作。接下来是会后环节。第一点就是刚才提到的,会议纪要可以导出并分享,方便所有同事查看。第二点是后台感知与资源自动释放。我们前面提到,最新方案支持 WiFi 7 的 AP 设备,可以实现人来灯亮、人走灯灭。当会议室在三到五分钟内检测到无人时,系统会自动释放所有设备资源,关闭灯光、空调等设备,不需要人工手动操作。这样可以避免会议结束后忘记关闭设备造成浪费,让整个空间更加智能,真正做到无人时自动关停,更加节能省心。最后是统一运维功能。前面这套会议室方案会用到音频、视频、摄像头等多种设备,对管理员来说,统一管控非常重要。首先,在管理平台上可以查看每间会议室每天的使用时长,直观了解使用情况。其次,进入系统后能看到所有设备的在线与连接状态,如果摄像头等设备没有正常接入,平台会自动发出故障告警;连接正常则会显示正常状态,方便管理员提前排查问题。通过这个统一平台,一位管理员就可以管理多间会议室、多类设备,在会议开始前就能提前检查设备是否正常联网,实现提前预判、提前处理。同时平台还具备数据管理功能,方便向领导汇报使用效果。可以清晰看到总共有多少间会议室、每间会议室有多少设备、告警次数有多少,通过一个平台就能完成所有数据汇总,直观了解会议室的使用率、故障率等关键信息。以上就是会前、会中会后三个环节的功能演示,我们来看一下方案的亮点。第一个亮点是在成本上有大幅降低。我们之前做过很多项目,都有上百间会议室,以往需要大量人员进行维护。现在只需要一到两个人,通过运维平台就可以完成远程监控和管理。第二个亮点是节省费用,降低会议成本,提升会议效率。以前开会需要用到大量纸张,比如打印桌牌、会议文件等,经常会出现打印数量不够,或者信息需要临时更改的情况,使用起来很不方便。现在通过电子化的方式,提前上传文件即可,如果桌牌上的名字有误,也可以通过手机快速修改。所以整体来看,方案的核心优势就是节约成本,同时提高会议和管理的效率。第二个亮点是集中化控制管理能力很强。整个会议室只需要一台中控平板,就可以控制所有的声光电设备。可以通过平板实现远程操作、一键开会、信号源拖拽切换等功能。在后续更新的方案里,我们还会加入 AI 语音唤醒功能,比如通过小艺帮我打开灯光这类语音指令,直接控制会议室设备。第三个优势是和视频会议产品深度联动。我们搭配使用 4K 摄像头和 4K 会议终端,保证远端参会人员能够看得清晰、听得清楚。同时借助这些设备,网络抗丢包能力更强,会议过程更加稳定流畅。接下来是成功案例部分,这里我只讲两个,其中部分内容涉及涉密环节,就不展开细说了。这张图大家看上去和我们前面的效果图很像,但这张是我们客户现场实际落地后的真实效果。我们一般会在项目前期,到客户现场进行实地勘测,然后为客户制作 3D 渲染图,提前告诉客户,项目建成之后最终呈现的效果是什么样的。这张就是我们当时做的其中一个指挥大厅项目。可以看到,这间会议室不仅用到了我们的统一运维平台管理,还部署了 LED 大屏用于画面显示,每个座位前都配备了电子桌牌。整套系统可以实现中控平板统一控制、运维平台集中管理,同时支持正常会议沟通,整体运行都很稳定。第二个案例会更加直观,这是我们近期完成的一个集团项目。大家可以重点看这两张图。下面这张图里,可以看到我们为客户配置了有线麦克风、音箱,右侧还配备了显示屏。这个客户之前有很多间会议室,但会议预约和管理都不清晰,比较混乱。所以在这次方案里,我们上线了预约管理平台和整套音频设备,帮客户实现规范化管理。再看上面这张图,桌面上有白色的区域,这就是我们前面提到的升降式无纸化设备。参会人员开会时不需要携带任何纸质文件,开会时这个位置会自动升起屏幕,上面显示人名,还可以直接完成签到、查看文件、批注内容等操作。通过我们这套整体解决方案,帮助客户实现了更流畅的会议流程,会前预约、会中管控、会后运维都非常方便。以上就是我今天介绍的智能会议室解决方案。后续这套方案还会持续升级,未来我们会加入 AI 功能,为参会人员提供任务管理。比如开完会议后,系统会自动生成待办任务,AI 会提醒相关人员在会后需要完成哪些工作,让整个会议流程更加智能高效。以上是我的全部分享,感谢各位聆听。 答疑部分(1)批量刷入文字时,如何保证所有桌牌显示内容一致?如果出现个别桌牌刷新失败有什么容错机制?答:在批量刷入文字时,后台会有预览的界面可以进行查看,可以通过这种方式去查看内容是否一致。一般批量的刷入,后台是采用固定的模版,固定桌牌的两面显示一样的界面,出现与显示内容不一致的概率很低。如果个别出现刷新失败,后台会收到对应的提醒,会告知哪个桌牌刷新失败,需进行查看。 (2)请问,多人通过一个会议窗口讲话,如何区分不同人的发言内容。答:在我们本次的方案中,每个发言人面前是有一个固定的麦克风,由发言人触摸麦克风,才可以开启转录的功能。例如,A点击了自己面前的麦克风,那么就会显示A:............,接下来,B点击了自己面前的麦克风,就会显示B:.............转录的逻辑,是以发言人点击自己面前的麦克风作为触发点,通过不同发言人,点击各自的麦克风,从而去区别不同人的发言内容。 (3)这个功能对于固定人员名单比较好,但如果人员有变动还可以修改吗?答:可以的。在预定会议的时候,可以把人员编排好,一次性刷新好。如果在正式开会时,发现人员变动,可以通过手机/平板,进行快速的刷新修改。只需要手机安装个APP,打开手机的蓝牙功能,检测到对应的桌牌,就可以进行临时快速的修改刷新。 (4)部署这套方案对会议室硬件有什么要求?答:这个要看具体的情况。我们很多的项目也有改造的情况,如果原先的会议室硬件可以利旧,加入到我们的系统,那就可以不改动。但如果说,部分的硬件存在我们对接不了的接口,就可能需要增加其他的设备,然后去实现联动。这个需要具体看不同的硬件和硬件的接口协议等,按以前的经验来说,大部分硬件我们都是可以兼容的。 (5)多角色最多支持区分多少种角色?语音文件保存期限多久?答:如果本次会议,有10个参会者,每个参会者面前都有自己对应的麦克风,就可以区别这10个参会者的角色。如果有20个参会者,但只有其中15个参会者面前有麦克风,就只能区别这15个参会者。一般我们是以会议室的麦克风数量作为角色区别的。语音文件保存期限这个不限制,当时也可以设置为半年清理一次语音文件,这个可以根据需求设置。【干货分享】AI 大模型基础架构:从入门到放弃?(第二讲)AI 大模型基础架构:从入门到放弃?(第二讲) AI 大模型的训练与推理,早已不是单一算力的比拼,而是算力、网络、存储三大核心底座的协同博弈。如果说 GPU 是 AI 大模型的 “心脏”,提供核心算力支撑,那么高性能网络就是串联算力的 “血管”,保障数据高速无损流转;高效存储则是承载数据的 “粮仓”,满足海量数据的存取需求。本期公开课中,我将深度拆解了 AI 大模型底座的核心逻辑,重点剖析了 IB 网络、以太网两大主流网络技术的底层原理、架构设计与场景适配,同时梳理了 AI 时代存储的核心需求与解决方案,为国产化 AI 基础设施建设提供了关键参考。本文将从网络、存储两大维度,结合技术细节、架构设计、性能对比与场景选择,全面解析 AI 大模型高性能底座的构建逻辑。 一、AI 大模型底座核心逻辑:算力之外,网络与存储定成败AI 大模型的本质是预测下一个 token 的概率,核心运算为向量卷积,简化而言就是大规模的乘法与加法运算。而支撑这一运算的底层,是n 层注意力机制(Transformer) 带来的海量计算需求 —— 无论是 OpenAI 的 32 层、64 层模型,还是更复杂的超百层模型,多层叠加的训练逻辑,直接催生了多机多卡并行的必然选择。多机多卡并行的核心痛点,不在于算力堆叠,而在于数据通信瓶颈。数据并行、流水线并行、专家并行等主流并行策略,均需将算子、token 分割后在多 GPU、多服务器间流转,集合通信效率直接决定训练速度。同时,AI 大模型训练、推理、 checkpoint 保存、模型加载等全流程,涉及 TB 级甚至 PB 级数据的读写,存储的带宽、延迟、并发能力成为制约底座性能的另一关键。正如行业共识所言:短期缺芯片,长期缺能源,永远缺存储。AI 时代,算力可通过 GPU 堆叠补齐,但网络的 “无损传输”、存储的 “高效存取”,无法通过简单硬件叠加实现,必须依托一体化、全栈式的底层架构设计。英伟达、华为等厂商的技术布局,均围绕这一核心逻辑展开,而 IB 网络与以太网的技术博弈,本质是高性能与低成本、专用化与通用化的路线之争。 二、AI 网络 “血管” 深度解析:IB 网络 —— 高性能无损的贵族方案IB(InfiniBand)网络是面向 HPC(高性能计算)与 AI 场景的专用高速网络,由英伟达收购的 Mellanox 主导研发,凭借低延迟、高带宽、无损传输三大核心优势,成为万卡级大规模集群的首选方案,堪称 AI 网络领域的 “贵族方案”。其核心价值在于从网卡、线缆、交换机到软件算子、调度控制的全栈优化,彻底解决了分布式 AI 训练中的集合通信瓶颈。(一)核心软件:NCCL—— 集合通信的效率基石多机多卡并行的核心是集合通信(如 all-gather、all-reduce、broadcast),即数据在多 GPU 间的同步、聚合与分发。英伟达自研的NCCL(NVIDIA Collective Communications Library) 是 IB 网络的核心软件算子库,专为 GPU 集群集合通信优化。NCCL 可依托 PCIe、NVLink、IB 网络实现高速互联,大幅提升 GPU 间通信效率,避免传统通信方式的延迟损耗。华为对应的 HCCL 算子库,逻辑与 NCCL 高度相似,开发者无需关注底层细节,仅需在代码中指定通信算子为 NCCL/HCCL,即可实现高效集合通信。NCCL 的核心价值,是将集合通信从 CPU 卸载到硬件层面,让 GPU 算力聚焦于模型训练,而非数据传输。(二)硬件核心:NVLink 与 ConnectX 网卡 —— 高速互联的硬件支撑1. NVLink:GPU 直连的高速通道 传统 PCIe 总线存在带宽低、延迟高的瓶颈,无法满足多 GPU 全互联需求。NVLink是英伟达自研的高速通用互联技术,专为 GPU-GPU、GPU-CPU 通信设计,当前速率已达900GB/s,延迟远低于 PCIe 5.0。NVLink 的核心优势是全互联(all-to-all),可实现多 GPU 间无阻塞数据传输,完美适配 all-reduce、all-to-all 等流量模型。搭配 NVSwitch 交换机,可将多节点 GPU 集群构建为超大规模全互联网络,彻底规避总线瓶颈,是 IB 网络实现万卡集群性能的关键硬件支撑。1. ConnectX 网卡:卸载计算的智能终端 英伟达收购 Mellanox 后,其ConnectX 系列网卡成为 IB 网络的标配,最新第八代 SmartNIC 速率达 800GB/s,黄教主多次强调 800GB 网卡是未来 AI 集群的核心配置。ConnectX 网卡的核心设计思路是能力卸载(Offload)—— 将部分网络计算、数据处理能力从 GPU、CPU 转移到网卡,实现三大核心价值:一是带宽翻倍、CPU 占用率骤降;二是支持DPU 级简单计算,可完成数据预处理、压缩等操作,减少网络传输量;三是适配端云协同场景,实现低延迟数据交互。这种 “去中心化” 的硬件设计,打破了传统 “算力集中、网络被动适配” 的模式,是 IB 网络性能领先的关键。 (三)组网架构:交换机、线缆与 UFM 控制器 —— 全栈可控的无损网络1. 交换机与线缆:专用硬件保障无损传输 IB 网络交换机分为带网管(QM9700)与不带网管(QF9790) 两类,主流采用Spine-Leaf(胖树)架构:Spine 层(核心层)用 QM9700,Leaf 层(接入层)用 QF9790,实现全互联组网,支持 3 万 + 交换机规模,满足万卡集群需求。线缆分为DAC(铜缆,短距机架内,低能耗) 与AOC(有源光缆,长距跨机架),专用线缆配合网卡、交换机,从物理层面保障数据无损传输。但 IB 硬件价格高昂,光模块、线缆容错率低,稍有灰尘或震动就可能故障,这也是其 “贵族方案” 的重要特征。2. UFM 控制器:SDN 级全局管控 IB 网络与以太网的核心差异,是拥有原生 UFM(Unified Fabric Manager)控制器,类似 SDN 流表控制,实现全网统一管控。UFM 为双机主备部署,接入 IB 网络后自动生成拓扑,为每个网口分配唯一LID(本地 ID),替代 IP 地址进行数据寻址。UFM 的核心价值是网内计算与自愈能力:一是实时监控全网流量,自动优化路径,解决 one-to-one、all-to-all 流量拥堵;二是链路故障时秒级自动选路,无需人工干预,避免训练中断;三是支持集群全生命周期管理,适配超算、AI 集群的复杂运维需求。这种 “硬件专用 + 软件全局管控” 的模式,是 IB 网络实现微秒级延迟、零丢包的核心原因。(四)直通技术:GPU、存储直连,消除数据搬运损耗IB 网络配套的GPU Direct 直通技术,从数据流转全链路优化,消除 CPU 中转带来的延迟,分为三类:1. GPU Direct P2P:同一节点内 GPU 直接访问彼此显存,无需 CPU 内存中转,是多卡并行的基础;2. GPU Direct RDMA:跨服务器 GPU 通过网卡直连,绕过 CPU 实现数据传输,解决分布式集群跨节点通信瓶颈;3. GPU Direct Storage(GDS):GPU 直接访问存储设备,无需 CPU 内存缓冲,减少数据拷贝损耗,适配海量数据训练场景。 三、AI 网络 “血管” 备选方案:以太网 —— 性价比优先的平民路线以太网是通用网络技术,凭借成本低、生态开放、硬件通用三大优势,成为千卡级集群、混合云场景的主流选择,堪称 AI 网络领域的 “平民路线”。其核心逻辑是在通用硬件基础上,通过软件优化实现类 IB 的无损传输,本质是 “用技术弥补硬件差距”。(一)核心技术:三大拥塞控制协议 —— 实现无损传输的关键以太网天生为 “尽力而为” 设计,存在丢包、延迟不稳定问题,无法直接适配 AI 训练场景。为此,行业推出PFC、ECN、DCQCN三大核心协议,构建RoCEv2(RDMA over Converged Ethernet) 无损以太网:1. PFC(优先流量控制):将链路分为 8 个优先级通道,高优先级流量(如训练数据)优先传输,避免低优先级流量抢占带宽;2. ECN(显式拥塞通知):链路拥塞时,交换机提前通知发送端降速,避免缓冲区溢出导致丢包;3. DCQCN(数据中心量化拥塞通知):结合 PFC 与 ECN,实现端到端流量控制,精准调节发送速率,平衡吞吐量与延迟。三大协议的组合,让以太网实现微秒级延迟、低丢包率,勉强适配 AI 训练场景,但配置复杂、技术门槛高—— 以太网 AI 网络的调优成本,往往占设备总成本的 30% 以上,需要专业团队长期维护。(二)性能对比:IB 网络 vs 以太网 —— 鱼与熊掌不可兼得表格对比维度IB 网络以太网(RoCEv2)延迟1μs 左右(极低)5μs 左右(中等)带宽最高 900GB/s最高 400GB/s(逐步向 800GB/s 升级)成本极高(硬件、光模块、运维)中等(硬件通用,调优成本高)运维难度极低(即插即用,自动自愈)极高(协议配置复杂,需持续调优)生态专用生态,工具链封闭开放生态,硬件兼容、软件灵活适用场景万卡级大规模集群、高并发训练千卡级集群、混合云、成本敏感场景简单而言:IB 网络 “除了贵,没缺点”,以太网 “除了便宜,全是缺点”。大规模、高稳定性需求选 IB,成本敏感、技术团队强选以太网,二者无绝对优劣,仅适配不同场景。四、AI 存储 “粮仓”:适配多场景,构建分层存储体系AI 大模型全流程(训练、推理、checkpoint、模型加载、检索)的 IO 特征差异极大,单一存储无法满足需求,需构建分层存储体系,覆盖热存储、分布式并行存储、冷存储三大层级。(一)热存储:内存级低延迟,适配实时推理热存储以内存、高速缓存为核心,适配推理阶段 KV Cache、模型加载等突发随机小 IO、秒级响应场景,核心需求是低延迟、高并发。当前主流方案为内存计算,无需数据库支撑,直接在内存中完成数据交互,是推理性能的关键保障。(二)分布式并行存储:高带宽高并发,支撑大规模训练大规模训练需TB 级数据、高带宽、多客户端并发读写,传统 HDFS 难以适配小文件、高并发场景,并行文件系统成为核心方案:1. Lustre(莲花 FS):AI 训练主流并行存储,支持万级客户端并发,高带宽低延迟,适配超大规模数据读写,英伟达深度推荐;2. DDN 并行存储:国外厂商自研并行文件系统,专为 AI 场景优化,支持统一命名空间、无限扩容,双主架构保障高可用,是 IB 网络集群的标配存储方案。(三)冷存储:低成本大容量,存储非结构化数据AI 模型、训练样本多为非结构化数据,需低成本、大容量存储,主流采用对象存储(S3、文本存储),适配冷数据归档、模型备份、历史样本存储等场景,核心需求是低成本、高可靠性。五、国产化趋势与异构训练:未来底座的核心方向(一)国产化替代:灵衢 vs MRC,国产技术崛起华为自研灵衢技术,融合 NVLink、NVSwitch、RDMA 三大技术,构建国产化高速互联方案,已开源生态,适配国产 GPU 集群。英伟达推出的MRC 技术,本质是对标灵衢,二者均面向超节点计算,是未来大规模集群的核心技术方向,国产化替代正从硬件、软件全栈推进。(二)异构训练:GPU 虚拟化 + 调度编排,降本增效异构 GPU(国产卡 + 英伟达卡、新卡 + 旧卡)训练是行业刚需,核心解决方案分为两步:1. GPU 虚拟化:通过微 GPU 技术,将单卡算力拆分,或整合多卡异构算力,构建统一 GPU 池;2. 调度编排:通过训练调度技术,将模型算子分配到异构 GPU 上,平衡算力差异,实现高效并行。六、总结AI 大模型高性能底座的构建,核心是算力、网络、存储的全栈协同。IB 网络凭借全栈优化、无损传输,成为大规模集群的首选;以太网以性价比优势,适配成本敏感场景;分层存储体系则覆盖 AI 全流程 IO 需求,保障数据高效存取。国产化趋势下,华为灵衢、国产并行存储、异构训练技术持续突破,逐步打破国外技术垄断。未来,AI 底座的竞争,将从单一技术比拼,转向全栈架构、生态协同、成本控制的综合博弈,而理解网络 “血管” 与存储 “粮仓” 的底层逻辑,是构建高性能 AI 底座的核心前提。【干货分享】实体数据空间—— 医疗健康与养老行业数字化转型的新范式随着医疗健康与养老行业数字化进程的加速,数据孤岛、标准不统一、语义不一致等问题日益突出,严重制约了数据价值的释放和智能化应用的发展。本文提出了一种基于本体论的实体数据空间构建方法,通过以实体为中心重构数据组织方式,建立统一的语义框架和数据模型,实现多源异构数据的融合与互通。文章详细阐述了实体数据空间的核心概念、理论基础、技术架构和关键特性,并结合医疗健康与养老领域的实战案例,展示了实体数据空间在临床科研、患者招募、慢病管理、养老服务等场景中的应用价值。实践表明,实体数据空间能够显著提升数据治理效率,降低数据应用门槛,为医疗健康与养老行业的智能化转型提供强有力的数据支撑。关键词: 实体数据空间;本体论;医疗健康;智慧养老;数据治理;数字孪生一、引言在数字经济时代,数据已成为核心生产要素。医疗健康与养老行业作为数据密集型行业,积累了海量的结构化、非结构化和半结构化数据。然而,这些数据分散在不同的业务系统中,存在标准不统一、语义不一致、互操作性差等问题,形成了一个个 "数据孤岛"国家数据局。传统的数据仓库和大数据平台虽然能够实现数据的集中存储,但在处理跨领域、跨系统的数据融合和语义理解方面仍存在明显不足,难以满足医疗智能化对高质量、高时效性数据的需求。近年来,欧洲率先提出了健康数据空间的概念,并在德国、法国、卢森堡等国家开展了实践探索国家数据局。我国也在《可信数据空间发展行动计划(2024—2028 年)》中明确提出,要加快建设行业、城市和企业三类可信数据空间,推动数据要素安全有序流通和价值释放国家数据局。在此背景下,我们基于本体论思想,结合医疗健康与养老行业的业务特点,研发了数象实体数据智能平台,并在多个城市和医疗机构开展了落地实践,取得了显著成效。二、实体数据空间的概念与理论基础2.1 实体的定义在数据空间中,实体是指物理世界中真实存在的服务提供者、服务使用者、服务监管者等对象在数据空间中的动态数字孪生。例如,患者、医疗机构、老人、养老机构等都可以被定义为实体。实体具有以下特征:唯一性:每个实体都有唯一的标识符动态性:实体的属性和状态会随时间变化关联性:实体之间存在各种复杂的关系完整性:实体包含了其所有相关的数据信息2.2 本体论与实体数据空间的关系本体论是实体数据空间的 "语义骨架",为数据空间提供了统一的语义基础和概念框架,确保了不同数据源之间语义的一致性和可理解性。数据空间则是本体论的 "血肉载体",承载着具体的、多样化的数据实例,将本体论定义的抽象概念和关系具体化、实例化。二者结合实现了 "语义统一、数据互通、智能可及"。本体论的核心构成包括五元组:类 (Classes)、属性 (Attributes)、关系 (Relations)、实例 (Individuals) 和公理 / 规则 (Axioms/Rules)。其中,实例与我们定义的实体概念最为接近,类和属性则为实体提供了分类和描述的标准。2.3 领域实体数据空间的定义领域实体数据空间是一个面向特定业务领域(如健康医疗、养老)的数据价值化逻辑数据空间。它通过通用数据模型、标准、治理机制和数据处理智能平台,整合公共数据资源,构建以实体为中心的领域数据集,为科研、创新、政策制定和监管活动提供可信、易用的数据再利用环境。领域实体数据空间的核心价值在于建立了信任管控流、数据资源流和服务价值流,为上层应用活动提供了一个更高效率的支撑环境。三、医疗健康领域实体数据空间的构建3.1 构建的必要性医疗健康领域构建实体数据空间主要基于以下两个方面的需求:业务需求方面:医疗健康业务涉及医院、民政、公卫、人社等多个行业,数据来源复杂缺乏权威统一的数据标准,跨行业术语差异与编码冲突严重个人无法有效掌握和授权自己的健康数据应用需要以实体为核心的高质量数据集技术需求方面:以实体为中心重构数据组织,为个人数据授权提供必要条件统一语义和标识,解决数据标准和术语差异问题实时预处理和加工特征数据,为数据价值化产品提供工具提供行业预定义数据产品,实现应用快速落地3.2 欧洲健康数据空间的经验借鉴欧洲健康数据空间计划由德国和法国牵头,SAP、西门子等 22 家创始企业参与运营。其核心目标是把来源各异、编码不一的观察性健康数据转换成同一张大表,实现:用同一套分析代码跑所有数据支持跨国、跨库的真实世界研究、药物警戒和疗效比较让监管、科研、产业共享结果而无需交换原始敏感数据目前,德国的 HEALTH-X dataLOFT 项目和卢森堡的 Dataspace4Health 国家级项目已经取得了良好的应用效果。3.3 我国医疗健康数据空间的实践框架我国医疗健康数据空间的数据来源主要包括:个人:患者、居民的健康数据健康服务方:医疗机构、养老机构、体检机构等监管方:卫健、医保、民政、药监等政府部门创新企业:生命科技、药械、AI 创新企业、商业保险等通过构建医疗健康实体数据空间,我们可以将这些分散的数据整合起来,形成一个统一的数据价值化生态链,支撑临床试验患者招募、不良事件监测、AI 模型训练、商业健康险快赔等多种应用场景。四、养老领域实体数据空间的实践4.1 养老数据空间的构成养老实体数据空间的数据来源更加广泛,除了传统的医疗数据外,还包括:养老数据:养老机构信息、服务记录、补贴发放等人口数据:老年人基本信息、家庭结构等养老保险数据:参保信息、待遇领取等服务设施数据:养老床位、社区服务中心等政策法规数据:养老政策、财政补助等4.2 养老数据空间的核心能力养老实体数据空间通过构建实体关联模型、标签体系和全息档案,实现了以下核心能力:个性化服务:根据老年人的标签及全息档案,提供定制化的健康管理和生活照料服务精准监管:对养老服务机构进行监管和评估,精准识别符合补贴条件的老年人资源优化:利用标签数据分析预测老年人未来服务需求,优化养老资源配置风险预警:建立风险预警模型,实时监测老年人健康状况和生活安全五、实体数据智能平台的技术架构与特性5.1 平台总体架构实体数据智能平台是一个跨领域实体数据分析与服务平台,它包括五大核心模块:实体数据服务:提供数据检索、查询、统计等基础服务实体数据产品开发:支持标签、画像、全息档案等数据产品的开发多域融合统一实体数据模型:构建跨领域的统一数据模型安全可信合规可控体系:保障数据安全和隐私保护数智大脑:提供 AI 驱动的智能分析和决策支持5.2 关键技术特性5.2.1 以实体为中心的跨域数据模型平台结合 OMOP-CDM 国际标准和我国实际业务情况,构建了以实体为中心的健康医疗和养老行业跨域数据模型。通过固定表结构和统一词汇表,将碎片化的数据变成统一数据,实现了跨系统、跨领域的数据互通。5.2.2 多源数据融合的行业标签体系平台将分散、庞杂、难懂的原始数据转变为易获得、易理解、易分析的标签信息。在医疗健康领域,构建了包括基本信息、过敏测试、病史、疾病诊断等多个维度的标签体系;在养老领域,依据国家标准设计了 224 个预定义标签,覆盖了老年人能力评估、健康档案管理等多个方面。5.2.3 实体画像与全息档案平台基于标签体系构建了多维度的实体画像,从多个数据维度展现实体状态。同时,通过融合来自不同数据源的多源异构数据,形成了实体的全息档案,实现了 "一人一档一码"。5.2.4 多种分群方式平台支持多种实体分群方式,包括特征创建、患者特征创建、规则创建、智能创建和群体间复合计算创建,能够适配不同精细度的实体数据查询需求,为服务撮合提供数据支撑。六、典型应用案例与成效6.1 高端医院医疗数据价值化解决方案案例背景:某国家儿童区域医疗中心建设高质量数据集项目,入选 "国家数据基础设施建设第二批先行先试" 项目。解决方案:构建全量数据中心 + 智算服务平台 + 专病数据库 + 高质量数据集 + 科研合作 + 成果转化的全栈解决方案。应用成效:已建成 10 个左右专病数据库,计划到 2027 年完成 70 个支撑了脑疾病、情感障碍、乳腺癌等多个领域的科研合作实现了临床、科研、运营管理和患者服务能力的全面提升6.2 "互联网 + 重点疾病全周期管理"案例背景:某医科大学第一医院构建线上线下一体化、专病全周期管理新模式。解决方案:以患者为中心,以疾病为链条,构建 24 个专病数据库,覆盖 34 个病种。应用成效:实现了筛查入组、精准分群、诊疗路径、动态评估、患者服务和个案管理全流程智能化成为区域标杆示范项目,得到了省卫健委的高度认可有效降低了医疗费用支出,提高了患者健康水平6.3 三甲医院智算服务平台案例背景:某三甲医院面临数据集成治理难、数据加工处理难、数据分析建模门槛高等问题。解决方案:围绕 "探索多模态医学人工智能平台 + 飞标医学影像标注平台" 双核心,构建覆盖 "数据管理 - 加工处理 - 建模分析 - 标注赋能 - 成果管理" 的全链路闭环。应用成效:医师科研时间有效释放,将更多精力投入到医学问题研究零代码建模降低了 AI 应用门槛,实现了 AI 能力普惠全流程可视化操作,提升了科研效率和结果可靠性6.4 健康医疗智能体应用案例背景:南京某区希望提升基层医生诊疗能力,支撑分级诊疗。解决方案:部署 HAIAs 健康医疗智能体,提供辅助决策、病历生成和内涵质控等功能。应用成效:模型支持 10,549 个 ICD 病种,Top5 诊断推荐精度达 91.5%医生主动使用频率达 2 次 / 天有效提升了基层医疗服务的一致性和质量6.5 6.5临床试验患者招募案例背景:传统临床试验患者招募周期长、成本高、效率低。解决方案:基于实体数据空间,结合标签和大模型技术,实现精准人员筛选。应用成效:为拜耳、恒瑞、北肿等多家知名药企和医疗机构提供服务将患者筛查时间从几个月缩短到几天显著降低了新药研发成本,加速了新药上市进程七、挑战与未来展望7.1 面临的主要挑战尽管实体数据空间在医疗健康与养老领域取得了显著成效,但在实践过程中仍面临一些挑战:数据质量和治理:前期数据治理工作量大,数据质量参差不齐行业业务理解:需要深入理解行业业务知识,才能构建出有价值的数据模型统一标识和语义:跨领域、跨系统的统一标识和语义定义仍然存在困难数据价值变现:如何通过实体数据空间构建出创新的应用场景和商业模式7.2 未来发展方向未来,实体数据空间将朝着以下几个方向发展:多模态数据融合:进一步加强文本、影像、语音等多模态数据的融合处理能力AI 深度赋能:利用大模型技术提升数据标注、语义理解和智能分析的自动化水平跨区域数据流通:推动城市间、区域间的数据空间互联互通,实现更大范围的数据价值共享隐私计算技术应用:结合联邦学习、差分隐私等技术,在保护数据隐私的前提下实现数据价值释放标准化建设:加快制定行业数据标准和技术规范,促进实体数据空间的健康发展八、结论实体数据空间作为一种新型的数据组织和管理范式,为解决医疗健康与养老行业的数据孤岛问题、释放数据价值提供了一条有效途径。通过以实体为中心重构数据组织方式,建立统一的语义框架和数据模型,我们能够实现多源异构数据的融合与互通,为临床科研、医疗服务、养老服务和政府监管提供高质量的数据支撑。实体数据智能平台在多个城市和医疗机构的成功实践表明,实体数据空间能够显著提升数据治理效率,降低数据应用门槛,加速医疗健康与养老行业的智能化转型进程。未来,随着技术的不断进步和标准的逐步完善,实体数据空间必将在数字经济发展中发挥更加重要的作用。参考文献[1] 国家数据局。可信数据空间发展行动计划(2024—2028 年)[EB/OL]. 2024.[2] 全国数据标准化技术委员会。可信数据空间 技术架构 [EB/OL]. 2025.[3] European Commission. European Health Data Space [EB/OL]. 2022.[4] OMOP Common Data Model. Observational Medical Outcomes Partnership [EB/OL]. 2026.[5] 东软集团。城市级智慧养老综合服务平台白皮书 [R]. 2025.[6] 清华大学。中国城市养老服务需求报告 [R]. 2025.【错过直播的速来补课】大咖公开课回放可以兑换啦一大批干货正在袭来,错过大咖直播的小伙伴看过来公开课回放可以智豆兑换啦快来看看是不是有你关注的话题!点击对应的课程跳转链接就能兑换!公开课分享人:TTTT11,金融行业解决方案架构师JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换。本期为虚拟商品兑换,💡点此兑换。公开课分享人:Capybara,金融行业资深架构师JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换。公开课分享人:黄雪橙,金融科技高级运维工程师JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换。公开课分享人:高林,智能发电部副主任,JDC有奖探讨一等奖获得者本期为虚拟商品兑换,💡点此兑换。公开课分享人:小子wjyao;高级算法工程师JDC勋章:黄金发言人、VIP专属勋章JDC大V认证:技术大牛本期为虚拟商品兑换,💡点此兑换。公开课分享人:Kevin_jun;金融行业核心系统架构师JDC勋章:黄金发言人JDC大V认证:知识达人本期为虚拟商品兑换,💡点此兑换。公开课分享人:魔鬼教父,酒店行业数字化解决方案架构师JDC勋章:知识达人本期为虚拟商品兑换,💡点此兑换公开课分享人:凛冬将至,金融行业解决方案架构师JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:海涛2,智慧医疗软件工程师JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:liujiayou_for,大企业-数据通信领域-行业解决方案销售JDC勋章:黄金发言人、产品建议大师本期为虚拟商品兑换,💡点此兑换公开课分享人:q1uguohaou,能源行业高级销售工程师JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:情倾摩天轮,解决方案专家JDC勋章:黄金发言人,知识达人本期为虚拟商品兑换,💡点此兑换公开课分享人:雪橙子(前昵称黄雪橙),金融科技高级运维工程师JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:FIEforever,资深开发工程师JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:Catherine800522,能源企业高级主管JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:情倾摩天轮,解决方案专家JDC勋章:黄金发言人,知识达人本期为虚拟商品兑换,💡点此兑换公开课分享人:大道至简,能源行业高级销售工程师JDC勋章:技术大牛、黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:曾维,高速公路运营调度中心副主任JDC勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:q1uguohao,能源行业高级销售工程师大V勋章:黄金发言人本期为虚拟商品兑换,💡点此兑换公开课分享人:陈志康,高级讲师,专注于人工智能解决方案与云原生底层技术,精通数据通信、大模型本地部署及MindSpore全栈应用。本期为虚拟商品兑换,💡点此兑换【干货分享】星河AI高品质中小医院网络解决方案1. 行业趋势及需求当前医院已有多种业务系统,根据医院业务部门的划分,以及各系统对硬件支持平台等IT基础设施的不同要求,主要可划分为门诊系统(HIS)、住院系统(HIS)、影像系统(PACS)、体检系统(LIS)等核心应用系统,以及医院运营管理系统、智能楼宇系统等。在这些业务中,硬件平台资源必须优先保障医疗业务的正常开展,分析医疗类业务特点,主要包括:HIS与LIS系统要求实时性高、可靠性高,带宽要求相对较低,数据的传输,必须安全可靠;而PACS影像具有单张数据量大、数量多的特点,为保障良好的业务体验,从医生点击阅片到完成影像展示时间应在3~5秒以内,因此需要网络保障在3秒内完成数据传输,不能丢包;网络建设的好坏直接影响医院信息化建设的成败,如何建设一个稳定,可靠,安全,应用集中的综合业务网络平台,是医院信息化建设需求的根本出发点。目前,很多医院的计算机都是放置在各部门或科室的固定位置,甚至是在病房中,通过综合布线连网组成医院管理系统网络。这种固定部署计算机的方式存在终端设备移动不方便、信息点固定等局限性,让信息系统和病房的管理模式并没有实现信息衔接,等于从医生、护士办公室到病人床前这一段“路程”没有实现数字化。如何利用计算机网络更有效的提高管理人员、医生、护士及相关部门的协调运作,满足无线查房、无线医嘱执行、无线医疗设备管理、无线输液、无线导医等需求,是当前中小医院需要考虑的问题。2. 网络运维需求随着信息化整体水平不断提升,中小医院也都采购了越来越多的硬件设备、以及关键业务系统例如HIS、LIS、PACS等等,随之而来,网络系统越来越庞大,管理的复杂度也越来越高,给医院的运维工作造成了越来越大的难度和压力;中小医院IT部门(信息科)的人员数量相对来说一直比较少,而当硬件和软件系统出现了故障之后,因为网络规模大情况复杂,故障排查难度大处理起来非常被动,医院IT人员需要经常面对查找问题也很难准确定位到底根源在哪里的情况。除了日常的管理维护外,医院IT人员需要考虑如何实现业务系统运行健康度的监测评估,保障7x24小时关键业务系统的不间断运行,通过有效的网络流量和网络故障安防,及时有效的发现网络中存在的各种故障和隐患,以便能够通过及时的故障处理,有效的排除网络故障,降低网络使用风险,确保各种业务的正常开展。上述这些要求,都是医院需要考虑的,也是大部分中小医院IT人员的普遍关注点。医院网络作为搭建整个医院信息系统的基础平台,在与医院各项业务相融合的前提下,不仅应具备高速、安全、稳定、标准、可扩展等特征,还应拥有一定的技术超前性和较高性价比。华为中小医院网络解决方案,以“稳定、安全、可靠”作为网络建设目标。3. 网络组网设计医疗内外网为了满足医院安全等保要求,采用物理隔离,分别部署网络,内外网相关互访通过网闸控制;网络采用双核心设计,双万兆互联,汇聚到核心双千兆链路上联,提高网络稳定性;核心、汇聚光纤互联,房间数量较少的楼栋可采用两层组网(院区核心+楼栋汇聚),房间数量较多的楼栋可采用三层组网(院区核心+楼栋汇聚+楼层接入)。光进铜退,光纤入室,保护投资,支撑带宽平滑升级: 小行星交换机入室部署,在门诊室,病房等区域可采用本地供电,在本地供电不方便的区域也可采用光电复合缆为小行星远距供电。无线AP选择Wi-Fi7款型,可融合IOT共址部署,为医疗以及物联无线终端提供入网服务。AP上行选择2.5GE、5GE或者10GE接入交换机,可充分发挥Wi-Fi7大带宽、低延时、高并发的优势,提升用户体验在医院核心机房/数据中心等区域可部署部署网络管理控制器、认证服务器,满足集中管理运维的诉求。在病房区域,采用分布式零漫游AP实现Wi-Fi信号覆盖,医护人员携带如PDA设备查房时可实现零漫游、不掉线,提高工作效率。同时支持内网、外网、物联网三网物理隔离、融合部署。医疗物联&医院网络融合,进行医疗数据的采集、传输、处理,以满足医疗智慧化的发展需要在医疗无线网络应用中普遍存在以下场景:移动医护:医院病房普遍开展的基本业务,护士通过PDA等设备或移动推车(带平板),开展例行查房,记录病人基本信息,省去了手工记录,往返护士站录入的麻烦。手持PDA要在移动过程中保持和上层应用系统的数据连接,包括维持在线登录状态、PACS影像数据下载等,该过程对丢包敏感,AP漫游过程中的丢包,卡顿,会导致设备连接中断,需要重新登录的问题,因此医院普遍要求漫游过程中终端应用采用无感知漫游。内外网隔离:无线内网主要提供移动医护、辅助医疗物联、临床医疗物联等医疗办公业务。无线外网主要为患者提供Internet访问服务。无线物联:当前辅助医疗物联在医院已经大量开展,物联协议大部分以蓝牙、RFID、Zigbee等协议为主,在医院环境中使用一套WLAN网络满足物联接入的诉求,能够降低多张网络的运维成本分布式零漫游方案很好的解决了上述问题,通过“中心AP+光射频单元+天线单元”组合部署,可以同时实现病区内无线网络零漫游、内/外网隔离以及物联覆盖。其中,中心AP和外网AP、物联基站可部署在楼层弱电间。中心AP通过光纤馈线收集整个病区的无线信号,其中内网业务流通过中心AP处理后上行连接内网转发;外网无线信号通过连接外网AP的馈线发送到外网AP处理,并通过外网AP连接的外网设备转发;IoT业务流通过馈线连接到IoT基站处理,从而实现一套网络同时支持内网、外网和物联网。4. 网络基础运维对于医院网络运维人员而言,日常维护工作不仅繁杂,而且工作量大,涉及的工作内容包括查看拓扑对象、查看网元、配置网元、查看业务、诊断故障、查看性能、查看资源、报表生成等。通过iMaster NCE-Campus网络管理系统,可以准确、快捷的提供运维人员所需要的信息,大大减轻运维人员的工作量园区网络发生问题时,使用传统运维工具进行分钟级指标采集显示各项指标均正常,分钟级别的故障采集有可能错过故障发生时间,在问题发生时刻数据却无法准确的获取。园区网络发生问题时,会采集设备大量数据,靠人工去排查日志是相当费时费力的,缺乏一个大数据平台,能对数据进行统一采集、存储和分析,具有高效的大数据处理能力。网络和用户的故障识别,缺乏准确故障识别算法,对故障发生的原因能做出正确的定界和定位。无法随时随地感知WiFi网络用户的体验是WiFi网络运营的最大挑战,每时每刻的用户体验感知需要基于大数据分析进行用户旅程回放,基于时间、空间维度,准确识别用户问题。传统基于静态阈值的方式无法准确识别网络异常,无法适应动态变化的网络情况。网络需要具备动态学习能力,能基于历史数据,分析数据特征,持续学习优化。而iMaster NCE-CampusInsight网络智能分析平台将人工智能应用于运维领域,通过Telemetry技术采集网络设备的性能指标和日志数据,通过大数据、人工智能算法及更多高级分析技术,通过场景化的持续学习和专家经验,将运维人员从复杂的告警和噪声解放出来,使得用户网络体验可视化、运维变得自动化和智能化。【干货分享】2026太空光伏市场空间、技术路线及布局企业分析报告2026 太空光伏市场空间、技术路线及布局企业分析报告各位来宾,大家好!古人云:读书而无友,则孤陋而寡闻。今天我将围绕太空光伏这一商业航天领域的万亿级蓝海,从市场空间、技术路线、全球布局企业三个核心维度,为大家展开全面分析。第一部分 市场空间:从千亿到万亿的星辰大海太空光伏的爆发,核心源于全球商业航天的飞速发展,当前市场正从千亿级规模向万亿级跨越。一、全球低轨卫星星座进入 “万颗” 时代轨道资源具备稀缺性,且遵循 “先到先得” 原则,这直接驱动全球主要航天力量加速布局,卫星数量呈现指数级增长。·全球卫星规划总量已突破10 万颗,太空竞赛进入白热化阶段;·中国轨道申请数量达20.3 万颗,位居全球前列;·SpaceX 星链在轨卫星超 9300 颗,第二代星座获批 1.5 万颗,是当前太空光伏最大的应用载体。二、太空光伏市场规模预测随着商业航天规模化与技术成熟,太空光伏市场将迎来爆发式增长,远期(2050 年)市场空间有望达到万亿级别,成为能源与航天交叉领域的核心增长点。三、核心应用场景:从卫星到太空基建太空光伏的应用场景持续拓宽,三大核心场景需求明确:1.低轨卫星星座:卫星数量激增 + 单星功耗提升,是当前最确定的需求驱动力,市场空间近2000 亿元;2.太空数据中心:AI 算力需求爆发推动算力中心向太空迁移,带来吉瓦级能源需求,年市场规模超100 亿美元;3.深空探测与月球基地:极端环境下的长期能源供给刚需,市场年复合增长率达15%。四、核心优势与关键挑战核心优势:无限的能源潜力1.全天候高效发电:无大气衰减与昼夜交替,24 小时稳定供电,转换效率远超地面光伏;2.无地理环境限制:不占用陆地资源,不受气候、纬度影响,是解决全球能源危机的终极方案之一;3.全球能量无线传输:通过微波 / 激光实现电能直达地球任意角落,推动全球能源互联;4.支撑深空探索:为空间站、月球 / 火星基地提供可靠能源,奠定深空探索基石。关键挑战:现实的技术壁垒1.建设与发射成本极高:运载火箭费用是制约商业化的核心经济因素;2.空间环境严苛:强辐射、极端温差、微陨石撞击,对材料可靠性与寿命要求极高;3.在轨组装与维护复杂:微重力下大型电站组装依赖高级机器人技术,运维难度大;4.能量传输存短板:需解决低损耗传输问题,同时兼顾安全与环境影响。第二部分 技术路线:三阶段演进的光伏革命太空光伏技术并非一蹴而就,而是按照短期→中期→长期分阶段演进,不同技术路线各有侧重。一、主流技术路线性能对比目前行业聚焦砷化镓、HJT、钙钛矿三大路线,在转换效率、比功率、成本、抗辐射能力等维度差异显著。二、技术演进三阶段1.短期:三结砷化镓(当前主流)·技术特点:成熟度高、抗辐射能力强、转换效率领先;·核心优势:太空光伏 “主力军”,高价值场景不可或缺;·应用场景:同步轨道卫星、深空探测、空间站;·市场格局:乾照光电等企业市占率领先。2.中期:超薄 P 型 HJT(渗透期)·技术特点:可超薄化、轻量化,成本优势明显,抗辐射性能接近砷化镓;·核心优势:性价比最优,是低轨卫星大规模部署的理想选择;·商业化进展:国晟科技、东方日升已实现技术突破与落地。3.长期:钙钛矿叠层(突破期)·技术特点:理论效率极高、比功率惊人、成本潜力巨大;·核心优势:颠覆性技术,有望支撑 GW 级太空能源需求;·关键挑战:稳定性与抗辐射能力待提升,目前处于实验室与中试阶段。三、2025-2026 年关键技术突破近一年行业迎来多项核心突破,为商业化提速:1.超薄化工艺:HJT 电池厚度降至 50μm,比功率达 400W/kg;2.抗辐射增强:HJT 抗辐射能力提升至砷化镓的 80%;3.钙钛矿稳定性:二维 / 三维复合结构解决高温、紫外线衰减问题;4.柔性封装:聚酰亚胺基板减重 50%,使用寿命达 15 年。四、工程施工与在轨组装1.关键施工流程地面预制与测试→分段运输入轨→在轨精确对接→机械臂辅助安装→系统调试与并网。2.核心工程挑战微重力环境、数百摄氏度极端温差、强辐射防护,是在轨施工的三大难题。3.两种在轨组装模式·机械臂精确作业:毫米级对接、标准化模块化、全天候无人化,降低宇航员风险;·宇航员漂浮式安装:人机协同,处理精细操作与突发状况,未来人类将转向监督角色。4.月球基地光伏安装系统需适配月球 300℃温差、1/6 低重力、14 天长夜等极端环境,依赖特殊材料、低重力锚定、长周期储能与自主机器人运维。五、太空光伏电力系统与能量传输1.电力系统框图核心分为能量产生、管理、存储、分配、负载、传输、地面接收七大单元,协同完成供电闭环。2.两大能量传输技术·微波无线能量传输(MWPT):传输距离远、不受天气影响、技术成熟,是太空电站向地面供电的首选;·激光无线能量传输(LWPT):能量密度高、方向性强,适合短距离高功率场景(如卫星间供能)。第三部分 布局企业:全球玩家的竞逐与卡位太空光伏赛道已形成国际航天巨头 + 中国光伏 / 航天企业的双强竞争格局。一、国际龙头:航天巨头主导1.SpaceX:星链是太空光伏最大单一用户,依托 Starship 与机器人实现在轨组装;2.Boeing:化合物半导体电池效率领先,为国际空间站提供核心电源;3.Northrop Grumman:适配月球、火星极端环境,为 NASA 阿尔忒弥斯计划供能。二、中国力量:光伏企业跨界渗透中国光伏企业凭借技术优势,快速切入太空赛道:1.国晟科技:HJT + 钙钛矿叠层,已实现商业化落地;2.东方日升:P 型 HJT 超薄电池,已供货 SpaceX;3.隆基绿能:成立太空实验室,布局叠层电池;4.钧达股份:参股公司开发钙钛矿叠层,已完成送样。三、中国力量:航天企业核心配套1.中国卫星:GW 星座核心供应商,直接拉动光伏组件需求;2.云南锗业:全球锗衬底龙头,砷化镓路线核心材料供应商。四、太空光伏产业链梳理表格:产业链环节核心技术代表企业电池芯片三结砷化镓、超薄 HJT、钙钛矿叠层乾照光电、国晟科技、东方日升封装材料抗辐射封装、柔性基板瑞华泰、云南锗业设备制造HJT / 钙钛矿整线设备迈为股份、捷佳伟创系统集成光伏系统设计 + 在轨部署SpaceX、中国空间技术研究院能量传输微波 / 激光传输技术波音、中国电子科技集团第四部分 投资机会与风险提示一、投资机会1.技术迭代:HJT 超薄化、钙钛矿叠层技术突破带来增量;2.场景落地:低轨卫星星座加速部署,需求持续释放;3.产业链延伸:设备商、材料商同步分享行业红利。二、风险提示1.技术风险:钙钛矿稳定性问题尚未完全解决;2.市场风险:低轨卫星发射计划存在调整可能;3.竞争风险:国际巨头带来技术与成本双重压力。第五部分 总结与展望一、核心总结1.太空光伏已从 “卫星配套” 升级为万亿级增长蓝海;2.技术路线三阶段演进清晰,不同阶段投资机会明确;3.中国企业已实现核心技术突破,具备全球竞争力。二、未来展望1.2026 年:HJT 完成在轨验证,钙钛矿中试线投产;2.2030 年:HJT 渗透率达 40%,钙钛矿开启商业化应用;3.2035 年:GW 级太空光伏系统完成验证,向地球大规模供电成为现实。太空能源时代,正加速向我们走来!我的分享到此结束,感谢大家的聆听【干货分享】医学智能影像标注一体机实战分享一、分享主题今天借助JDC平台分享我们在医学影像、智能标注方面的一些产品研发及场景推广实战经验,及与华为合作的智能标注一体机产品,并对未来软硬协同的一体机产品合作做一些展望。二、产业背景介绍2019年以来数据驱动医疗行业科研发展已经成为一种明显的趋势,相关的论文、研发实战都充分证明了这一点。其中以数据驱动、科学研究和影像标注,这已经是一个行业的一个发展的一个趋势,也是解决医疗行业基于影像数据做行业科研的必要基础技术支撑底座。而我们国家的在医疗数据应用场景化实战方向也走在了世界前列,尤其是很多医学和数字化技术的结合方面,其同质化服务的能力和效率,也适合我们国家面向公众服务的普适医疗的理念。通过提供最佳的一些临床实践的一些场景,来帮助我们用数字化的技术、工程化的技术来驱动医学的精准高效和同质化的公共医疗服务,服务”健康中国“的宏大目标。人工智能技术有大量的行业落地需求,推动AI算力向边缘侧迁移。同时,边缘AI技术已经从边缘的机器视觉逐步进展到大语言模型、生成式AI、多模态大模型等新一代的AI技术方向。另外大家可以看到,我们国家现在的医学的智能化重点发展方向,区别于美国的集中化的医疗服务模式(如facebook或谷歌大平台模式),更多应用场景在边缘测的诊疗服务。因为大部分医疗专业数据是在医院端的私域数据,做专业病种医疗科研,采用以20%的互联网和公开的数据做大厂基础模型平台为底座,以专有高质量数据集做专病模型知识库或微调,这种训练出来的模型才能更精准的、更准确的医疗专业病种诊疗服务实战,服务于我们的广大的患者。所以在医疗行。行业边缘的智能市场是一个很大的市场。大家可以看到下图的一些数据,我国的边缘智能设备增长很高,医疗行业是其中的关键产业热点方向。中国人工智能边缘计算在政策与技术融合驱动下快速发展,医疗领域成核心场景。医疗边缘智能一体机凭低延迟、隐私保护优势,支撑实时诊断、远程监测等应用。全球 AI 医疗边缘系统 2031 年将达 46.2 亿美元,年增 12.1%,中国因基层需求与老龄化,市场空间广阔,前景向好。数据驱动临床医学科研也面临诸多挑战,医生日常诊疗任务繁重,科研任务数据管理主要困难有:全量全周期数据集成治理难:跨系统、跨业务、多模态、 多学科长周期、连续性、院内外 完整性、标准化、一致性、 整合对齐数据检索纳排难:非结构化数据检索匹配难复杂检索和时间约束还依赖 SQL 语句编写查询后结果实验验证效果不佳, 且需反复调整数据加工处理难:影像标注、文本标注费时费力 数据预处理工作繁琐特征提取和选择需要技术、经 验和大量实验数据分析建模门槛高:学算法、学编程、搭环境碎片化工具使学习成本倍增、 科研效率倍减技术门槛高、人才稀缺、跨学 科合作难因此行业需要一个一体化的医疗科研解决方案,融合医学和数字科技,实现医疗数据要素价值化,赋能数据驱动的科研创新,规模化实现成果转化。平台需要提供医疗科研多模态数据采集、治理、智能化标注、团队协作科研管理、专病库建设、医疗知识服务、医疗科研成果输出(论文、数据集、应用等)及产业功能服务平台等全面功能组件。在国家大力推动数字经济与人工智能发展的时代背景下,数据标注产业正经历着迅猛发展。2023 年我国数据标注产业规模达800亿元左右 ,到 2027 年,其产业规模将大幅跃升,年均复合增长率超过 20%。数据标注正在向自动驾驶、医疗影像、 语音识别和自然语言处理等全领域扩展,占比分别达到 35%、 25%、20%和 15%。各项国家地方相关政策为数据标注发展创造条件,为医疗AI发展提供机遇。2025年1月:国家发展改革委、国家数据局等多部委发布《关于促进数据标注产业高质量发展的实施意见》发展目标:到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模年均复合增长率超过20%。推动公共数据标注需求,编制公共数据标注目录,深化人工智能在政务服务、城市治理等领域的应用。2024年5月: 《国家数据标注基地试点建设相关文件》公布7个试点城市(成都、沈阳、合肥、长沙、海口、保定、大同等),推动数据标注基地先行先试。基地需结合地方优势,优化能源与算力资源配置,融入“东数西算”工程布局。2024 年,国家数据局等部门印发《“数据要素×”三年行动计划(2024—2026 年)》、国家发改委等部门印发《国家数据标准体系建设指南》和《关于促进数据产业高质量发展的指导意见》强调数据标注在低空经济、自动驾驶、智慧医疗等领域的应用潜力。提出通过数据标注驱动场景创新。医学影像数据标注作为产业重点发展方向,面临的更大问题与挑战:专业性:医学影像数据标注专业性要求极高,标注量极大,迫切需求智能化标注平台。卡脖子:由于技术封锁,国内医学影像标注严重依赖于国外单机版标注产品。三、医学影像智能标注产品设计--飞标医学影像标注一体机核心价值:解决多模态医学影像标注效率、质量问题并保证数据安全产品概述:通过医学影像分割大模型及多种AI技术,提供150余种可扩展的预标注算法,灵活支撑不同规模的数据标注团队高效完成医学影像协同标注工作,支持自动标注、半自动标注、手工标注、三维标注、形态学测量,提高放射学影像的标注效率和质量;基于Web云原生的服务模式,通过医疗数据集中管理,满足医疗数据不出院的要求。关键功能:1、基于大模型、AI智能辅助标注,复杂标注只需一键就完成基于 AI 智能辅助标注技术,医学影像分割大模型支持一键完成复杂组织的精准标注,高效处理海量数据,显著提升标注效率与精准度。2、150种医学影像预标注算法,降低标注门槛提高准确性飞标平台的预标注算法库已经内置了150种医学影像预标注算法,用于解剖结构和病灶的自动化标注3、多模态医学影像支持,一个工具全搞定,相同的操作方式,学习成本更低,效率更高。模态类型: CT、MR、DR、PAT、DSA、超声、钼靶、内窥镜、眼底、皮肤镜、病理数据格式:DCM、ZIP、JPEG、PNG、GIF、BMP、WBMP、TIFF、MHA、MHD、NIA、NII、NRRD、MP4、MOV、FLV4、多人、多团队、多中心协同医学影像标注支持单人标注、多人协同标注、专家审核流程等多种协作标注流程。提供多人、多团队、多中心协同工作的组织、分配和管理,通过及时收集反馈意见,进行标注结果审核和优化,不断提升标注质量。5、电影级高级可视化赋能,让细节展现更清晰通过流畅顺滑的实时渲染,清晰展示医学影像的细节和结构,准确理解图像内容并正确定位感兴趣的结构或病变区域,有助于更清晰地了解病灶与周围组织的空间关系,拓宽医学影像数据的应用场景。6、数据脱敏与匿名化,实现隐私与价值的平衡数据脱敏与匿名化运用替换、加密等技术处理敏感信息,切断数据与个人身份联系,保障患者隐私。经脱敏和匿名化处理的数据可用于科研、医疗服务优化等,实现了隐私保护与数据价值释放的平衡。隐私合规:满足法规要求。数据可用性:保持数据价值,支持分析与共享。安全平衡:权衡隐私强度与业务需求提供技术。飞标平台特点与特色1、AI智能辅助标注大模型交互标注更高效这一特性,显著提升了标注的速度和质量。涵盖广泛的分割模型,并且可以在新的医学影像上即开即用,无需额外的训练,做到零样本迁移2、智能预标注技术通过自动病灶检测、自动预标注结果加载等自动化预处理方式,降低IT技术与人工智能应用门槛,提高了标注效率和质量。3、协作标注支持多人在线协作标注标注,标注人员可以在不同的地点通过网络进行实时协作。提供任务分配、进度跟踪等功能,方便团队协作管理。4、高级可视化丰富的高级可视化功能能够将标注结果以更加直观、清晰的方式呈现给用户。通过不同的颜色、透明度、三维模型展示等手段,标注人员和其他医学专业人员可以更清晰地分辨不同的标注区域及其特征。5、多租户与数据安全飞标平台能够服务于多个不同的组织、团队或用户群体,每个租户可以在平台上独立管理自己的标注项目、数据和用户权限。保证数据的隔离和安全,提高了平台资源的利用率。四、应用场景与案例产品主要客户群是医院\医疗科研机构\大专院校,针对科研管理,科研团队和科研工作者、医疗教育工作者,分别提供不同层级的功能组件,满足不同应用场景的精致化需求定制。典型应用场景有:应用场景1:医学影像标注支持多人、多团队、多中心协同工作的医学影像标注平台,解决医学影像标注的关键需求:标得准、标得快、隐私安全等应用场景2:手术规划支持手术评估、策划、方案尝试、术中参考、术后康复等全流程持续改进的服务功能。应用场景3:医学影像教学通过精确的图像分析和可视化工具,帮助医学生和专业人员更好地理解复杂的解剖结构和病灶变化,从而提高诊断能力和临床决策的准确性实战案例分享:智能标注,提高标注效率2-30倍五、东软-华为”添翼“医疗健康智能化一体机合作实战在2025年2月的DeepSeek热潮中,医疗行业成为部署行业DeepSeek应用的急先锋,全国已经陆续部署超过余个医疗行业DeepSeek应用场景,也给软硬结合的智能化一体机产品提供了高速发展的契机。在8月浪潮之后的行业冷静期,客户逐渐理性,价值驱动占领高地,节奏放缓,市场仍存在大量算力缺口,有特定应用场景价值的智能化医疗行业一体机市场依旧在高速增长。东软添翼医疗健康智能化解决方案2.0,以业务与数据为基石,依托东软医疗数据价值化与“融智”智能化双框架,构建覆盖数据治理、知识萃取到模型构建的全链路医疗数智体系。添翼2.0聚焦于智慧医疗、智慧服务、智慧管理、智慧基层、智慧卫健及城市级健康医疗数据空间六大核心场景,实现医疗赋能体集群(“N”个赋能体)。东软添翼2.0是融合AI、数据、流程、组织于一体的医疗智能化方案,实现数据基座、赋能平台、价值扩展“三维”突破,全面满足用户对数据深度治理、科学能力转化、海量知识萃取、场景模型构建、全场景赋能的迫切需求,为医疗体系的智能化升级提供核心动力。东软和华为在这个过程中紧密配合,发挥各自优势,讲国产化尖端智能计算平台和医疗行业场景成熟智能化应用相结合,高效率适配国产化软硬件环境,推出了系列东软-华为”添翼“医疗健康智能化一体机合作产品。产品名称功能简介适用销售客户推荐硬件配置医事服务一体机智能写作、智能问答、智能通讯、智能结果速查、病情讨论等。电子病历客户,5.0以上版本NPU:8张Ascend910(昇腾Atlas推理卡,64GB缓存)病历质控一体机病历辅助生成、病历内涵质控、智能病历点评。电子病历客户,6.0以上版本NPU:8张Ascend910(昇腾Atlas推理卡,64GB缓存)患者服务一体机智能客服、智能导诊、智能预问诊、智能病历解读。互联网医院客户NPU:8张Ascend910(昇腾Atlas推理卡,64GB缓存)卫健管理服务一体机数据采集、数据治理、管理服务、基层辅诊、居民健康管理。卫健管理客户NPU:8张Ascend910(昇腾Atlas推理卡,32GB缓存)医疗影像标注一体机多模态数据管理、智能标注、隐私保护、团队科研、可视化展现医疗科研机构、医院专业科室NPU:8张Ascend910(昇腾Atlas推理卡,32GB缓存)六、软硬件一体机合作展望在软硬件之呢个一体机合作过程中,也对未来更深入的合作有了更多的期待和展望:1.期待更全面合作场景在医疗科研、患者服务、辅助诊断、病理核查、医保服务等众多方向,扩展医疗智能一体机应用合作场景。2.期待更符合行业应用特点更丰富定制化一体机在功能、性能、制冷方式、样式、空间、噪声控制等方面灵活配置,更能适应医院科室前端工作环境,支持灵活配置软硬件基础能力。尤其医疗行业前端部署的低噪音、液冷、医疗设备眼样式一体机需求迫切。3.原厂商更深入服务支持从基础硬件支持,到软件框架配置、多基础模型支持、智能运维服务、人才培养、托管服务等多场景提供更深入服务能力。张静波(JDC@zhangjbn)2025年10月14日【干货分享】部署Hub&Spoke场景的MPLS VPN好的,我们来说这个部署HUB-Spoke的MPLS这个场景。这个场景也是我们在广域网里面使用的MPLS VPN一个典型的案例,也是我们现在大家未来考过IE,甚至现在备考IE,我们锻炼的内容中,有第三部分,就是我们的MPLS广域网部分,用的也是这个场景。然后我们今天主要会去介绍一下MPLS VPN这个技术,它典型使用了哪些技术,然后我们还会去做一个实操,把理论和实操相结合,带大家把MPLS VPN的HUB-Spoke这个技术完整过一遍。然后我们首先来看一下前言,我们的前言说的是VPN,对吧?VPN它叫虚拟专用网络,是指在一个公共网络中实现虚拟的专用网络。然后我们今天说的这个MPLS VPN,主要是指三层的VPN技术。然后我们今天这节课主要会介绍什么是MPLS VPN的基本概念,以及它的工作过程,还有典型的配置方式。然后我们来看一下MPLS的定义。我们的MPLS IP VPN一般是由运营商搭建,然后我们去购买运营商的VPN服务,它可以实现我们这些用户之间的路由传递,我们可以实现不同站点之间通过MPLS VPN的骨干网进行通信。然后我们今天第一个要学习的就是MPLS VPN的网络架构。我们首先需要知道MPLS VPN这个网络架构中,这些设备的命名,一般就是我们的CE设备,也就是客户端设备,就是你的站点的边缘设备,连接着运营商MPLS VPN的边缘设备。这个边缘设备,一个是CE,就是站点的边缘设备;还有PE设备,就是MPLS VPN骨干网中连接CE的设备,我们叫它PE。然后还有P设备,这个P设备就是MPLS骨干网里面的设备。其中这个P设备和PE设备一般都是由运营商搭建的,而CE设备就是你自己,也就是客户这边自己的设备。然后我们这个MPLS VPN的一个优点就是,大家做实验的时候也能体会到,就是不同站点之间,想通过骨干网进行通信的情况下,基本上是感知不到MPLS VPN的存在的,因为它只需要将路由信息传递给MPLS VPN的骨干区域就可以了,然后由MPLS VPN将这个路由进一步传递。这一点我们做实验的时候还会给大家详细说。然后我们这个MPLS VPN的技术架构,主要会使用到哪些技术来实现呢?第一个就是,MPLS VPN不是单一的VPN技术,它是多种技术的融合,通过多种技术的结合,实现MPLS VPN。第一个就是我们学习的MP-BGP,对吧?MP-BGP在这里主要负责什么呢?就是负责不同站点之间路由信息的交换。比如说,我们这边有一个站点,你这边站点发送路由过来之后,这个路由如何传递给远端的站点呢?我们这里就可以使用MP-BGP。 因为MP-BGP的扩展性比较强,它可以传递非常多的路由信息,所以说使用MP-BGP是比较合适的。第二个就是LDP,这个LDP负责什么呢?它负责MPLS VPN中P设备之间隧道的建立,这个隧道就是基于LDP的,数据转发的时候,通过LDP隧道,实现站点之间的互访。第三个是VRF,我们的VRF负责PE设备上VPN用户的管理,也就是PE和CE之间,我们可以启用不同的VRF,这个VRF大家学习过的应该也知道,我们又把它简称为VPN实例。VPN实例,你也可以理解为,在PE设备这个路由器上,虚拟出了多个小路由器,每个小路由器对接不同的站点,并且不同的VPN实例之间,它们的路由表等都是完全独立的,所以不会相互影响。然后我们还需要使用哪些技术呢?还有静态路由,你可以使用静态路由、IGP和BGP,它们负责什么呢?就是负责CE站点,也就是客户站点和骨干网PE之间的路由传递。所以说,我们主要的部署重点还是在MPLS骨干网的搭建上,我们需要使用MP-BGP、VRF还有LDP来建立MPLS骨干网。然后是站点部分,你的用户站点和骨干网边缘的PE设备之间,只需要运行静态路由,或者IGP、BGP就可以了。所以说,对于我们运维人员来说,要求也是比较低的,无论是配置OSPF做对接,还是用静态路由做对接,都可以实现。然后我们今天主要会做整个HUB-Spoke的实验,我们会从CE设备到PE设备之间的路由传递,以及PE设备到远端PE设备的路由传递,再到路由传递到远端相同VPN的站点,最后实现整个网络的互通,一步步操作。然后我们MPLS常见的组网,不仅有HUB-Spoke组网,还有Intranet和Extranet这三种典型的组网,其中我们今天主要说的就是HUB-Spoke组网。第一个是Intranet组网,它的要求是,相同VPN内的用户站点之间,可以相互访问,不同VPN的站点之间不能相互访问。比如说,我们这里的CE1,它是用户X的站点A,上面的CE3也属于用户X,是站点B(分支站点),如果你使用的是Intranet组网方式,那么相同VPN的站点之间是可以直接互访的。但如果你CE1(用户X的站点A)想去访问CE4(用户Y的站点),因为属于不同VPN,就不能直接互访,也不能通过P设备直接访问,这就是Intranet组网,同一VPN用户站点可互访,不同VPN用户之间不能互访。第二个是Extranet组网,这个Extranet组网的特点是,我希望我这个站点里的部分资源,可以分配给其他VPN的用户访问。 比如说,我们这个站点C(CE4)是用户Y的站点D,这个站点内部有些资源,需要用户X的站点A访问,那么即使我们不属于同一个VPN,也可以通过Extranet组网,让部分资源实现跨VPN访问。第三个就是HUB-Spoke组网,我们HUB-Spoke组网的场景是,我们希望分支站点之间的通信,不直接进行,而是必须经过总部站点(HUB CE)。比如说,你有两个分支站点,都属于同一个VPN,我不希望这两个分支站点直接互访,它们的所有流量必须经过总部站点(HUB CE)转发一遍,这样做的好处是可以监控所有站点之间的流量,实现分支站点通过总部站点进行交互。这就是我们的HUB-Spoke组网。我们刚才说的这三种模型,它们的主要区别,等会儿我们会通过介绍路由的RT值来讲解,通过RT值来实现不同组网的需求。第一个,我们来学习一下MPLS VPN的路由发布。我们刚才简单介绍了三种模型,接下来要说的MPLS VPN路由发布,就是我们站点之间要实现通信,必须要有路由传递,所以我们现在需要将站点A里面的路由传递到远端的站点B,中间就是通过MPLS VPN里面的MP-BGP来实现传递的。我们这个路由的传递主要分为三个部分:第一个是本地CE设备到入口PE设备,将本地路由传递给入口PE;第二个阶段是入口PE到远端的出口PE的路由传递;然后第三个阶段是从出口PE到远端的CE设备。整个过程,我们的实操都会全部涵盖到。然后我们这里先说说本地CE到PE,以及远端PE到CE的路由交互,这里的路由交互是比较简单的,你使用BGP、IGP(比如OSPF)或者静态路由都可以,只需要将 路由能够传递给PE设备就可以了。所以说这里比较简单,我们的重点还是在MPLS VPN骨干网内部,路由信息是如何传递的。第一个问题就是,你通过OSPF将路由传递给PE1之后,可能会出现一种情况,就是地址重叠的情况。什么是地址重叠呢?就是用户X的站点和用户Y的站点,使用了相同的IP地址段,那么如果我在PE1上只使用一个路由表,是不是就会学习到两个相同的路由?如果你使用OSPF,它会进行优选比较,根据优先级、开销等,如果优先级和开销一样,就会做等价负载分担。然后,为了实现不同站点之间路由的隔离,解决地址重叠的问题,我们就会使用到VRF。我们的VRF可以实现什么呢?就是在PE1设备上,虚拟出两个VPN实例,一个VPN实例对接G0/0接口,一个对接G0/1接口,然后使用这个VPN实例与对应的站点之间运行OSPF、IGP、BGP或者静态路由都可以。我们的VRF,叫虚拟路由转发,又称为VPN实例,这是我们MPLS架构当中的一个关键技术,它可以实现路由的隔离,每一个VPN实例都有独立的路由转发表,所以可以实现PE设备上不同VPN实例的路由表独立,与公网的路由表也隔离开,并且互不影响。这样就可以解决地址重叠的问题,就好比在PE设备上虚拟出两台小路由器,分别对接不同的站点,各自管理自己的路由。这个应该是比较好理解的。然后我们也说了,通过VRF实例隔离路由表,就可以区分地址重叠的问题了。接下来我们还需要学习一个,就是RD值。这个RD值,是为了解决什么问题呢?就是路由在传递的过程中,比如传递给PE2的时候,我们主要使用MP-BGP来传递路由,如果你通过MP-BGP传递了两个相同的IP路由,那么PE2设备,大家学习过BGP的都知道,BGP会根据选路原则,选取更优的路由。为了在MP-BGP传递路由的时候,区分这两个相同的IP路由,我们就需要使用RD值,就是给这个路由打上一个RD值。这个RD值,我们叫它路由标识符,主要作用就是区分路由,用于区分不同VPN的相同IP路由。 然后它做了哪些扩展呢?就是MP-BGP在传统BGP-4的基础上,做了两个路径属性的扩展。第一个是MP_REACH_NLRI属性,它主要用于传递可达的VPNv4路由信息,发布下一跳可达的路由;第二个是MP_UNREACH_NLRI属性,它用于撤销不可达的VPNv4路由信息。这两个扩展属性,大家如果学习过MP-BGP,应该是非常熟悉的。然后我们刚才说了,我们可以通过VPN实例,实现CE设备到PE设备的路由区分,然后通过MP-BGP,将VPNv4路由从本地PE传递到远端PE。但远端PE也有不同的VPN实例,那么我如何将从远端PE学习到的VPNv4路由,正确导入到对应的VPN实例里面呢?是导入到上面的VPN实例,还是下面的VPN实例?为了解决这个问题,我们又引出来一个RT值。这个RT值主要用于什么呢?主要用于将路由正确引入到不同的VPN实例中。就是在MP-BGP传递VPNv4路由的时候,远端PE需要将收到的VPNv4路由,正确导出到对应的VPN实例,所以我们需要使用一个叫VPN标签(也简称路由标签,即RT值),来控制路由信息的发布和接收。也就是说,在本地PE发布路由的时候,给这个路由携带一个RT值,这个RT值需要和远端PE上对应的VPN实例所配置的RT值一致,这样远端PE才能将这个路由正确接收,并导入到对应的VPN实例中。【干货分享】畅游超融合-实施篇前言感谢大家抽出时间参加我的这次公开课,我是蓝色空间,本职工作是售后工程师。平时对于超融合的实施还是比较多的,所以这次公开课我就重点讲一下我们超融合实施的过程,分享一些个人的经验。我之前曾经分享过个人的经历,就是在20年的工作经历中,对于工程师这个行业的一些观点和看法。这一次讲的超融合实施过程,就会把我之前的几十年的经验,融合到我们的实施过程中。大家来看一下,我们在正常实施超融合的过程中,不仅是需要设备搭起来,把环境建起来,而且还要把它用好。从规划、实施、运维、使用、售后保障、故障处理等等全流程,为客户提供一个更流程好用的系统,来增强客户的满意度。好,接下来我们就看一下PPT。具体讲一下我们整体的流程。首先,本次针对华为超融合为例进行讲解。因为我本人做华为的产品比较多,所以实施场景里面就以华为的产品为主来作为例子。首先呢华为的超融合产品,如果我们去官网看,可以发现它从具体型号上分,可以分成Fusioncube 1000H、Fusioncube 1000D、Fusioncube 1000C还有Fusioncube 500系列。那么这几个系列是什么含义呢?Fusioncube 1000H是我们经典的传统的超融合系统,也就是从虚拟化演进而来的,它相当于结合了传统的虚拟化及分布式存储,同时去掉了传统的磁盘阵列,就做到了我们现有的这种集成度更高的超融合的系统环境,这也是最经典的一个系统。各个友商几乎也都是按这个思路来做超融合产品的。那么Fusioncube 1000D就是数据库的适配型号,它可以适配一些传统的经典的数据库,并且以超融合的架构来对外提供服务。企业分支场景:Fusioncube 1000C呢是更多的是整柜交付,就是将一个机柜变成一个小型的分支机构的小型数据中心,直接交付给客户,开箱即用。Fusioncube 500系列,它就更多的面向规模更小一些的企业,它的作用是让用户使用起来更加的方便。所有的这4个系列里面,1000H系列是最经典的型号,所以我们也以它为例,来进行后续的讲解。接下来是我们在华为的support网站上,咱们看到的产品有很多,刚才的具体分类已经讲过了,那么就以1000H为例。而具体实施场景方面,它又分数据库场景和FusionCompute场景,也就是虚拟化场景。这里主要以虚拟化为例,也就是说以华为的FusionCompute为虚拟化组件的情况下,讲一下超融合的整个实施过程,并且要把我们日常的维护的经验、实施的经验全部都融合进去。接下来就看一下实施过程。首先,由于我工作的时间比较长,那么在之前的公开课里也曾经讲到了,希望大家能够参与到整个全生命周期的规划中。我这里这个图就是按照整个的项目管理流程,从启动、规划、执行、监控、收尾这些流程。大家可以看到在这个流程里面,客户从预算新建这种规划开始,一直到具体软硬件配置规划和系统架构,再到具体执行招投标的硬件实施,然后到日常的维护维保,再到最后的老系统下线、新系统上线,逐步替代的全生命周期流程,如果我们参加过这种全生命周期流程的体系建设,在我们做超融合后续的规划和实施过程中,一旦把这些经验全都融合进去,具有丰富经验的工程师交付的项目就会和哪些只能新建,或者说只会交付给用户一个纯新建的版本来使用的工程师,感受是完全不一样的。因为一旦我们把我们的经验融合进去,就会为客户考虑更多,而且会进一步优化我们厂商提供的最佳实践。那么这个最佳实践实施下去,它可以有效的规避日常的常见问题,而且能大幅度的缩减用户的日常维护工作量,能够提升用户的使用效率,进而让用户聚焦于他自己的业务,就不至于为了这个系统本身的问题而去过多的操心。那么这样给用户带来的体验是完全不同的。接下来我们具体看一下讲解内容。首先我们先做一下超融合系统的简介,对于我们经常实施的工程师或者是经常使用的用户来讲,可能大家觉得我都很熟悉产品了,为什么还要做这个讲解?实际上对于超融合的深度理解,是有助于我们后续的规划、实施、及运维全流程的。首先最重要的就是逻辑架构,传统的虚拟化架构,它是以服务器、存储、交换机三大块为主,相当于说三个类型的设备,我们把它用各种线缆组装到一起,形成一套虚拟化的架构。那么超融合架构,是在这个基础上把独立的存储设备去掉了,以服务器为载体,利用硬盘做分布式存储,这样就以分布式存储作为共享存储,省略掉了传统的存储设备例如磁盘阵列,也省掉了这种集中存储固有的成本过高、线性扩容困难、以及它本身的机头的IO瓶颈等问题,把这些问题给过滤掉了。然后还有一些新的超融合的型号,甚至把交换机也去掉了。等于说直接在机箱内部就集成了交换功能,对于一些小型的企业就比较好用,因为它又少了一个需要经常维护的故障点。但是企业级应用的需求更加广泛,那么我们经典的型号还是以这种分布式存储叠加服务器和物理交换机这种形式来进行后续的实施。接下来就是介绍一下它的部署形态。我们可以看到它的部署形态,就是它的节点类型,典型的是这三种:MCNA也就是带管理虚拟机的节点,上面有一些管理节点和管理的进程,他主要负责进行整个系统的管理。 SCNA节点是存储节点,它本身是分布式存储的一部分,它的故障率就决定了我们分布式存储的可靠性和冗余度。 CNA节点是纯计算节点,纯计算节点主要提供计算能力,运行虚拟机,它的存储方面就不受超融合的分布式存储故障冗余度的限制了,在它上面一般不配分布式存储使用的硬盘。我们首先重点来看,在每一个节点上面,它的操作系统都是放在一个RAID1的逻辑硬盘上的。用RAID1做硬盘组,好处就是两个硬盘互为镜像,避免单盘故障造成系统损坏。这种情况下,就能让我们的系统可靠性进一步提升。因为在这种具备融合存储节点的情况下,存储节点它的故障率,对于分布式存储的可靠性是有很大影响的。所以我们不能把它当做传统的虚拟化来处理。传统虚拟化哪怕只有一台服务器,也可以启动一部分虚拟机,但是超融合它有分布式存储组件,因此它是有一个冗余度的,超出冗余度就会造成存储集群故障,导致数据无法访问。所以说一定要注意,在日常运维过程中,我们要时刻关注它的融合节点的健康度,一旦有问题要及时处理。那么在FusionCube 8.1.2版本以后,华为的超融合已经支持两节点的集群。有些友商的超融合环境默认的必须是三节点,两节点集群能够实现还是比较困难的。不过日常使用其实还是建议三节点以上,两节点这种环境呢一般不太建议日常长期使用,因为数据一旦故障还是有一些风险,需要采用更合理的方案来提升可靠性。接下来继续讲超融合的部署形态。我们可以看到,MCNA节点的这一块也是我们很多用户经常会忽略到的一点,就是两个MCNA节点上分别各有两个虚拟机。这两个虚拟机当中,两台VRM虚拟机是负责我们虚拟化管理、提供虚拟化管理界面的虚拟机;两个FCV虚拟机是Fusioncube的管理界面,同时也提供分布式存储的管理界面。所以这些虚拟机它的磁盘文件全是存在物理机上的存储空间中,并不是放在共享存储上。这样可以避免共享存储出现问题时导致管理虚拟机死机,对虚拟机的管理界面造成影响。同时它们这两个虚拟机是互为冗余的。一旦某个管理虚拟机出现问题,应该及时修复,避免两个节点同时故障造成我们没有界面可以管理。当然两个节点同时故障了,我们的虚拟机也是可以通过其他机制自动进行切换和HA的,这一点不必担心。但是还有一点,就是 FCV虚拟机,尤其在早期版本里面,它的FCV虚拟机是没有限制关机、重启和迁移等操作的。那么在这种情况下,如果人工关闭虚拟机,它是不会随主机自动启动的。有些人在关闭整个系统,执行下电流程的过程中,把FCV虚拟机人工关机了,关机之后,由于它默认的机制不会自动随着物理机重启,就造成了在重启硬件的时候,物理节点启动了, FCV虚拟机没启动,就容易造成 FCV虚拟机无法提供Fusioncube的管理界面,造成管理上的困难,这方面一定要注意。接下来具体讲一下超融合整体的从规划到实施的全流程。在我们超融合规划的过程,厂商提供了LLDesigner这个工具,它可以做整体的网段IP规划,还可以导入导出实施所需的LLD文件,还可以提供对应的拓扑图,这个是我们很好用的工具。首先我们看它的演示界面,这些IP是它自动生成的,就是我利用他的工具默认自动生成了一版。这些IP地址都是直接配好的,我们也可以进行手工的修改。它和我们最终的产品初始化配置界面是非常类似的。所以,在这如果我们提前规划好了,后续就可以把它导出成为LLD文件,最终直接导入到我们的初始化界面上去,直接进行初始化,就不必反复的手工输入相关信息了,以免输入出错。接下来我们再看它的第二个界面。这个界面是我们根据它的规划自动生成的网络拓扑图,展示了所有设备之间的连接。而且我们看右面,当我们选定设备的时候也可以直接去调整它的网络规划,它的节点后部板卡的位置规划,以及它的连线规划,这些东西做好之后,它可以全自动的输出所有的相关规划和拓扑图,还有网络连线图等等。这些工具在我们给客户交付相关文档的过程中会提供很大的帮助。接下来就是实施过程中很重要的一步,就是上架位置的规划。上架位置的规划在多时候容易受限于客户的现场空间环境限制,我们难以去自己从头到尾的规划,我这边实施的情况下,一般优先推荐客户直接采用一套完整的机柜,进行超融合系统的实施。为什么这么做?因为这套环境往往上架之后,是逐渐替换原有物理机的,一旦上线之后,它就有可能逐渐扩容,将所有的物理机逐渐迁移到虚拟化里面,未来很容易就变成整套IT架构的核心组件。而这种情况下,他的规划一定要合理,方便未来的运维,方便日常的检修。那么这里面我给出两个例子,以三节点的ARM架构的taishan 2280节点为例,系统版本是Fusioncube 8.2.1然后交换机有两种情况,最常见的是右边的两光交的配置,两个6857同时作为业务管理和存储交换机,做双冗余连接或者是堆叠连接, BMC交换机采用一台S5731,有些情况下可能会采用两台5731的纯电口交换机作为BMC交换机,另外再采用两个万兆的防火墙,这个防火墙一般选万兆的,那么它主要的作用就是过滤东西和南北的出入整个超融合环境的所有流量,因为一般超融合里面就相当于一个小型的数据中心,它的出入一定要有防火墙的才能更好的实现我们的安全策略,实现隔离的作用。左侧的这个是一个理想架构,就是存储和业务交换机分开,这种架构在节点数量从几个一直扩容到几十个这种情况下,它是更有效的,而且能接更多的设备。所以根据不同的规模,我们可以来决定接下来上架的总体思路,这些思路就体现了我们日常在实施过程中,我们到底应该以什么样的路径来做,才能更好的满足客户的需求,能更好的去满足日常运维的要求。首先上架的总体思路就是上轻下重,避免头重脚轻,否则机柜很容易倒掉。超融合节点,一般建议是从下至上进行上架,这种情况下,从下至上,后续扩容就可以向上不断的扩容,如果从上至下呢就很难做到下重上轻,机柜固定不牢固就容易不稳定。然后在这种下重上轻的情况下,网络设备之间,如果现场是上走线,很自然的就可以按照这个图,将我们与物理节点连接最常用的设备都放在下面,也就是连线最短的放在下面,连线最长的或者对外连接的放在上面,哪怕我们下走线也可以采用这种方式。因为我们的防火墙一般来说放在上面它动的比较少,而业务/管理交换机,还有BMC交换机是我们日常运维经常用到的,它的位置最好是在眼睛到胸口之间,方便我们日常处理。防火墙处理的比较少,就放在这上面。然后设备间隔至少1U,方便日常的维护。电源线的连接,建议插口位置和设备上架位置就一一对应,同时做双冗余链接。为什么这么强调?有些用户会说我的机柜供电本身就只有一路电,我没必要做那么细致,怎么连接电源线都一样。其实这里的规划都不是多余的。实际上从运维角度来讲,只有一路市电对于超融合的运维其实是不够的。为了提升冗余度,一般是希望两路电,很多用户都是最终从一路电改到两路电。那么我们实施过程中就按照这个规划提前做好,日后改造的时候就只需要让用户改一根PDU的总电源线就可以了。我们的原有的这个电源连线,因为都是双冗余,电源连线完全不用动。另外就是如果我们的PDU是竖向的话,那么竖向的电源线的连接位置就可以和设备位置一一对应,同时也要打好电源线标签。在这种情况下,即使标签损坏了,我们的连线位置一一对应,也方便日常的维护。如果是左右的那种横向的PDU也可以做好规划,比如说从左到右对应从上至下,或者从右到左对应都可以。那有这种对应关系了,就可以做到交叉的确认。就是我的连线位置定了之后,哪怕标签损坏,哪怕我的这个设备两个口插错了,利用标签或者连线表也能把这个位置扭转回来。日常运维过程中一旦发现有差错了,尽量把他们都改回正确的状态,时刻保持所有的双冗余连接维持在正常状态,时刻保证所有的线缆都是正确的,这个是很重要的一点。足够的冗余度才能带来更高的可靠性。在我的规划中,我一般建议是双向交叉验证,比如说我的连线都是有规律的,是有连线表的,这是第一重。第二重就是我的标签。线缆标签是同时打上两边的端口信息的,那么在任何一面都可以看到本端和对端的信息。比如说设备端也能看到本端和对端连到交换机的哪个口,那么交换机端也是一样的,就是每一端都是两端的连线情况,在标签上同时全都打好。而在这种情况下,任何一边的线连错了,都可以通过对端线的这个标签还原,同时还有连线表做交叉验证,所有的东西只有具有交叉验证,才能保障日常不错或者出错能改,否则的话一旦出错,只有一种方式来确认,那就很难去做修正。那就会对未来的运维造成一些不利的影响。这种影响甚至会造成我们的冗余度失效,甚至是我们本来以为能正常插拔的线缆,结果拔错了,变成一个节点故障,又拔错一个节点又变两个节点故障,这个影响就会逐渐的扩大,那这个问题就会越来越大,客户满意度就可想而知了。然后线缆标签,设备标签,所有的标签,尽量与规划里边系统里面看到的名字全部都是一致的。这样的话呢我们看到标签就知道是哪个设备,看到设备在系统里的名称,也就可以按照标签找到设备的位置,就比较方便一些。避免我们上架之后找这个设备,必须得看它在哪个机架多少U然后一个个拿表去对,这样就太麻烦了。接下来是拓扑图,这里面所有的规划目前没有用LLD做规划。这个是取自于我最近实施的一些真实项目,客户要求的一些拓扑图,画的可能更复杂一些。那么首先我们看到这个拓扑图里面,两个交换机是做堆叠的,之后和防火墙之间如果是简化连接,其实交换机对应一个防火墙,各出一根线也是可以的。上面也是一样的。但是呢我们这个项目讨论了一下这个所有的冗余度的问题,如果是一边一根线这么连接的话,会造成一个什么问题?是单点故障,它会扩大。比如防火墙一旦故障了,就会造成这一条线上所有的设备同时故障。如果全部是双冗余连接,则连线的数量加倍,但是任何一个点故障都不会扩大。例如我们的这个一边链路全段的情况,尤其是如果我一号防火墙和二号核心单线连接,就处理不了这种情况。多连几条线,增加冗余度,增加可靠性。那么增加的可靠性,它带来的收益远远大于这几根线的成本。所以建议大家连线的时候尽量按照高可靠性的方式来进行连接,来进行规划。因为我们在实施过程中,如果只是要把系统搭起来,怎么做都可以。在不管冗余度的情况,可以用很多种方法来实现。但是如果我们考虑到用户使用过程中的可靠性的要求,那就一定要把冗余度做高一些。这就是我说的,如何在厂商推荐的最佳实践的情况下,进一步优化,给客户一个更好的体验,总结出我们自己的最佳实践。下一步就是设备类型,这个设备类型更多是给用户看的,告诉用户我们哪一个设备的型号有几台,它的作用是什么?同时也给我们自己看,也是为了让我们能清晰的确认某一些节点具体是做什么的,哪一些流量走哪些交换机。在我们实施过程中了解到我们的哪些流量走哪些网段,走哪些设备,它的具体流向如何,对我们日后的运维是有很大帮助的。但是在这里设备的具体型号就是只是一个举例,这个是编造的了,公开出来的信息和实际客户的实际实施参数是没有关系的。因为我们这个讲的是公开课,所以也要遵循一个信息安全的原则,是不会暴露客户具体的相关信息的。后续有些实施截图会利用一些现场实施过程中的截图,但是具体的客户信息已经全部隐藏了。接下来是IP和未来的规划,一般我们做的时候建议客户会独立给我们3-4个独立的VLAN,对应3-4个至少是 C类的独立IP地址段,而具体的节点的IP地址由我们自行分配。为什么要这么做?我们在很多现场实施过程中,客户有可能说我只有一个网段给你,这种客户往往是不了解虚拟化或者超融合它的四大网络平面这种规划的,那一般都需要我们跟客户去反复沟通,解释好各个网络平面的用途,让用户配合我们。那如果配合不了的情况下,或者说这个难以处理的情况,就是没有那么多网段可用怎么办?那么我们在这个最佳实践里面, BMC和管理平面它们可以合并到一起,业务平面是最重要的,存储平面可以用一个C类的私有的地址段就可以了。那么也就是说客户最少提供两个网段就可以。也有极端情况下,客户说我只有一个网段行不行?这个我是强烈不建议大家做的。因为在某些客户现场我们做过这种一个平面的情况,这么做完了之后没有任何安全性,你的业务平面也就是任何业务虚拟机的IP和其他平面都在一起。防火墙如果不做专门设置,基本不会拦截同一个网段内的流量。那在这种情况下,你的虚拟机一旦中毒,它会迅速攻击到你的管理和BMC平面,甚至可能有人远程通过黑客攻击进来直接关机,造成的损失就太大了。那么首先我们要看好,给客户解释好每一个平面是干什么的,也要理解每一个平面的用途。服务器的重启,硬件的故障的排除,走BMC平面。虚拟化的管理,尤其是热迁移的流量,都走管理平面。业务平面就是我们虚拟机的IP地址所用的网络平面。存储平面就是分布式存储内部通讯流量,及分布式存储对外服务的网络平面。对这种信息的了解是非常重要的,因为对它的了解越深刻,后续我们在实施过程中才能有条不紊的把后续规划做好。接下来我们继续看分配交换机IP的时候,我一般用到BMC网段的IP地址,当然这个现场实施中可以有各种各样的规划,但是一般推荐所有设备硬件管理都走BMC网段,所有的设备呢也都配上BMC网段的管理IP,方便我们必要的时候,在这个超融合的网段里面,可以直接远程到我们的交换机上去调整网络。因为环境建立好了以后,很难说未来会不会进行网络的变更,一旦要进行网络的变更,没有一个好用的手段就会比较麻烦。当然这个要跟客户现场的管理的规范进行匹配。有些客户的管理是非常严格的,是不允许任何远程的。他们有独立的管理规范,这个就没有办法了。但是如果客户是传统的企业,他对这种管理要求没有那么严格的情况下,建议给所有的设备还是配好远程管理,防火墙也都是配好的。接下来就是重点也就是我们规划的IP地址段,这里面呢给出大家一个我的经验,我只是推荐这么做,它这个并不是说强制的或者是必须这么做的。首先呢在给节点做编号的时候,每一个IP都对应好唯一的设备。因为我们有些客户的网关IP地址的尾号习惯从1开始编号,那么我的节点编号就不能从1开始进行规划了。如果从1规划,客户又正好是网关是从1开始就会比较麻烦。所以我一般是从11开始,那么1号节点,也就是MCNA01就是11,2号节点,也就是MCNA02,IP地址就是12,3号节点也就是SCNA01,IP地址就是13。在这种情况下,不同的BMC网段、管理网段和存储网段只是我们的前面的前缀不同,后面的IP尾号都是一样的,也就是11永远对应着1号节点,12永远对应2号节点。在这种情况下,你只需要看到 IP尾号就知道是哪个节点,你知道哪个节点就知道它的IP尾号是多少。然后如果你知道它的哪一个管理平面,它的网段是多少,就可以直接知道这几个节点对应网段的IP。那么如果我们的规划做得比较顺畅,在运维过程中也会非常顺畅。这也是我所说的交叉验证,也就是我的节点名称和IP尾号都有对应关系,跟网段也都有对应关系。在这种情况下,客户运维不一定非要去查IP地址表,如果客户做什么都必须拿一个地址表查来查去,也是非常麻烦的。然后这个浮动IP,VRM举个例,IP尾号用8,9,10,那么FCV我就用5,6,7,如果形成习惯之后,那基本上实施的项目,如果客户没有特殊要求,我们就按这个习惯来,那我的 FCV浮动IP就默认是5。 VRM就是8。那我记住了之后,我到这个客户现场做运维时,就可以迅速的通过这些常用IP地址,直接连到对应的管理界面上去,甚至都不用去查那个具体的IP地址了。另外我们这些节点的名称在初始化的时候,根据我实施的经验,它是按照这个产品的序列号,也就是每一个节点的序列号,从小到大,那么来编号的。当然这个大家实施过程中可以具体自己看情况,但是它的预装和现场安装过程中,编号规则可能有不一样的情况。预装版的这个名称是命名好的。但如果我们是自己安装的话,一般建议按照序列号的顺序,如果我们做好了序列号的顺序的规划,后续的命名它就会自动给出,而且给出的命名基本就是符合我们规划的。所以完整的顺利的规划,对于我们的实施会极大的提升效率,对于客户的运维大幅度的降低运维复杂度。接下来就是连线表,连接表首先是确认端口和线缆的标签,我的原则都是一一对应的。SL1-1就表示slot1槽位的1号端口。我们在节点的后面板就可以看到它是属于哪一个槽位的。因为这个槽位都标在这个机箱外面了,1号端口和2号端口也是在网卡挡板上标注好的。所以这边的端口信息就直接使用这个可以看到的端口编号。在这种情况下,我们去做连线表,同时把这个连线表的信息做成线缆标签,那就能实现我们这个外部的标签和内部的规划都是一致的,而且这种一致性还可以通过我们的数据来交叉验证。如果我们做到这一点,任何一个标签出错,我们可以迅速发现。如果是线缆连错标签没错的情况下,我们仍然很快就可以发现,可以迅速的把它更正,否则就会对超融合的使用及运维造成很大的影响。因为我们的超融合的架构是一个很精密的体系,它虽然有一定冗余度,但是如果我们连线不准确,或者我们规划不合理,那就会造成一些问题。比如说我们现在看6855交换机,假如我有1号和2号两个交换机,在这个例子里是只有两台光纤交换机,存储/管理/业务全都共享这两台交换机。那么在这种情况下,有一种场景,如果我们连线规划没做好,比如说连线,前面所有的管理/业务口是交叉绑定了1号口,SLOT1槽位的1号口对应SLOT2槽位的2号口。他们两个端口绑定。下面SLOT2槽位的1号口对应SLOT1槽位的2口。那么有些人会问,为什么这个下边是先有SLOT2槽位,再有SLOT1槽位,难道不能是将它俩对调,这样是不是看都顺畅点?都是先SLOT1槽位后SLOT2槽位,这么做会造成什么问题吗?大家仔细看,这会把SLOT1槽位的所有的口全部接到6855的01交换机,如果是另一个槽位,则是所有的SLOT2槽位都接到6855的02交换机上,就会造成问题扩大。也就是说任何一个交换机坏了,就相当于一个网卡独立坏掉,那么任何一个网卡独立坏掉了,也相当于一个交换机全部坏掉了。这种交叉连接,无论是一个网卡坏,还是一个交换机坏,都不会造成问题扩大,都始终有一半链路是可以正常工作的,也避免了两个卡之间的这种流量频繁的切换,这个大家有时间可以详细的去考虑一下。一旦了解清楚这种原则,在日后的实施过程中,就会给我们带来很大的帮助。另一个常见问题是,不同型号的交换机,网口编号顺序可能不一样,比如光交换机,通常下边是1口,上边是2口,而有些型号上边1口下边2口。那么电口交换机可能是相反的,我见过有些工程师习惯了,所有的交换机端口都是认为上边是1口,下边是2口,他的标签全是这么打的,但是跟现场的这个物理端口号就完全对不上。这里看交换机侧的端口如果是10G 1/0/1,这其实就是在系统里面,在管理界面里面看到的交换机的端口编号,它跟外界的网口编号一定是要一一对应的,这种交叉对应才能让我们日后运维的过程中不出错。如果我们用了一个很简单的方式去连接,不管未来怎么样,只看眼前工作简单,那我们可以想象在我们运维过程中会不会连错线?会不会找错端口?一旦找错端口甚至找错了设备,这个问题就扩大了。那接下来往下看,首先呢我们实施过程中,到这里就是我们具体的实施步骤。第一件事就是要确认所有的固件版本。固件版本是很重要的,我这边举的例子是用的预装版,也就是原厂定制的,发到现场的都是已经装好系统,而且固件是匹配好的。所以这个一般没有什么问题。但是不保证所有到现场的节点全是这种情况,即使是预装好的,也有些固件可能版本不匹配需要升级,那么固件版本一定要确认好,提前把固件升级好,否则安装到后面就有可能留下一些隐患。固件通常不影响安装,但也造成了很多人可能会跳过这一个升级过程。为了给客户带来一个更可靠的体验,我推荐还是尽量去把这种固件进行升级。接下来是配置IP地址,这个就根据之前的规划去配置就可以了。但是有些情况下,子网掩码和网关如果设置错误了,就会造成网络不通,在进行初始化的时候就没法正常初始化,所以一定要注意,即使是简单的IP配置也不能出错。接下来是检查RAID的配置。首先这种RAID1就是我们装操作系统的RAID组。这个RAID组同时它必须是启动设备。如果它不是启动设备,装完了系统也不能启动,初始化也会出问题。接下来是确认fc2mgmt这个用户。在我当前实施的Fusioncube 8.2.1之前的这些版本里,主要的版本里面,第一次用这个用户登录的时候,在当前的这个 BMC固件版本下,它都会提示你是不是要修改密码,如果在这里不做任何选择,而且也没登录过,有些时候就因为没有选择,部署过程中和Fusioncube Builder这个账号对接的情况下,后台脚本执行到这里,它也会提示你要不要修改,那就可能会卡在这个流程,没法正常初始化。所以这是我为什么加这个注意事项。然后时区也要提前配好。时区也是一个很容易被忽略的点,因为不做配置也能很顺利的实施过去。但是实施完了以后,这个时区的错误,会给未来带来更大的一些不可控的影响。比如说一组集群里面有时间不一致,而且它相差超过8小时以上,那这种情况下热迁移可能做不了,很多日常操作都做不了,告警信息也不能及时消除,因为要等待系统时间到了预定时间才能消除。然后还会影响业务系统,一旦你的业务系统同步的主机时间,而时区又不对,那带来的影响就更大了。为了业务的可靠,时区一定要提前设置。然后就是初始化步骤,首先要更改这个默认的IP地址,一定要确认超融合默认的IP地址是多少。如何能顺利访问这个IP地址呢?这个对于我们的这种网络配置是有要求的。如果我们有网络工程师,可以让网络工程师帮我们做好网络设置,最好是做到把我们的这个管理口和我们的这个 PC机全都连到一个VLAN里,这个VLAN直接按照我们的目标VLAN进行规划是最简洁的。因为这样就可以直接在VLAN中修改IP地址,改完了之后,可以直接把IP地址改成我们的最终目标地址,就能继续连接,就不必修改交换机配置了。还有一种情况就是如果不这么配置的,可能需要额外配其他网段,让各网段联通,然后再去改交换机的配置,这样也可以,但是会更加复杂一些。所以这里的配置如果有网络工程师,就需要向网络工程师求助,如果没有的话,我们自己超融合工程师也要了解一下这块的网络是怎么设置才可以把它顺利的改过来,否则可能会遇到一些问题。那么时区改好了,接下来IP也改好了, IP改好之后,接下来就是修改一下初始化的密码。在这个界面上点初始化,修改密码之后,我们会重新再登录一次,再选初始化,就真正的进到了初始化界面。这个初始化的公共密码就是这个fc2mgmt这个账号的密码。那么我们在数字证书验证的时候,如果我的版本是预装版本,一般建议是在这先取消证书验证。因为它的这个证书验证过程在往下做的时候是短期内是不可用的,必须初始化以后再重新开启验证证书,再上传证书才可以。如果是我们现场手工安装的话,在这就可以直接上传证书进行验证。这一步就可以提前上传证书,使用证书进行验证。这可以更好的提升系统的安全性和可靠性。以便能满足用户的需求,主要也是因为我们面对的很多客户是国企,对于安全度的要求是非常高的。定期要做网络攻防,如果发现严重的漏洞,如果我们的系统安全度不够的话,很容易让人扫出来各种的漏洞,这样会给客户带来很多不必要的麻烦。而且日常使用情况下,不用数字证书这种场景下网络安全的可靠性也不高,在现在这种环境下还是建议尽量提升可靠性。接下来就是配置网络,这儿的网络平面配置就跟我们在 LLD里配置的是一样的,都是提前规划好VLAN、IP网段和所有的节点IP,在这只要输入就可以了,或者直接导入我们的配置文件。这里还有一个很重要的节点,就是我们的物理网口绑定情况,也就是我刚才说到的网口建议要跨网卡绑定,这样能避免单网卡故障造成整个网络平面故障。另一个重要的问题就是在这种情况下怎么正确的确定网口编号?大家看,我这里编号是eth6和eth7,这是我这个例子里的情况。那么我在规划里都是SLOT1-1及SLOT2-2这种编号,怎么样来确认端口对应关系呢?第一个方法一般是通过他的MAC地址,结合BMC里边的这个网口位置,交叉来验证,验证了之后,在这个界面再做绑定。如果是验证错了绑定出错,那在我们初始化过程中,网络平面就不对了,也会造成各种错误。接下来就是我们每一个节点,具体的管理IP地址, BMC IP还有存储IP地址,这也是为什么我建议在初始化的过程中,在做IP地址规划的过程中,就根据节点名称,把每个节点的IP地址的尾号和网段全都固定好。大家看在这个界面上,我们默认的IP目前唯一能定的就是BMC IP,都会在这里默认显示出来。在这种情况下,节点的管理IP地址和存储IP地址,只要知道网段,我就可以根据BMC IP的尾号,直接把每一个IP填上,根本就不需要再去查表。反复的查表再去执行是非常容易出错的。但是一旦我们有这种交叉验证的思路,提前做好规划,它就不容易出错。在整体实施的过程中也会非常顺利。接下来就是分布式存储的配置和规划,都要和具体的规划保持一致。因为分布式存储有很重要的一点,储存缓存比,如果我们的节点做了改配的话,缓存比要确认,那么主存的数量也要确认,因为这与我们建存储池都是有相关联系的。这一点在产品文章里有详细说明。建议大家要增加对理论方面的理解深度,理解深入到了一定程度之后,你就会明白系统为什么这么配,也就能更好的去确认我们对应的配置数据到底有没有问题,一旦遇到问题就能及时处理。最后是数据分片,我们的数据分片规划,如果是三个节点的,那一般不用说,默认选择就可以了,它也没有别的参数可选。但是如果现场是6个节点以上,甚至十几个节点,我们这个分片就是有选择的。根据它的公式和算法,来选择数据分片,就类似于RAID组,这个参数就决定了系统最多允许坏几个节点。我们在现场实施中一般和用户沟通之后,我们选择合适的分片数据,例如让系统能从最多坏一个节点,增加到了最多允许坏两个节点,也就是说舍弃了一部分它的存储容量来换更高的冗余度和可靠性。反过来讲,如果客户的预算很紧张,也可以舍弃一定的冗余度来换更高的存储容量。但是这种情况下一定要明确的告知用户,你的分布式存储最多允许坏几个节点,坏几个硬盘,让用户能明确的知道在什么情况下应该及时介入进行处理。否则即使超融合有一定的冗余度,它在几年都没人处理的情况下,累积的错误就可以耗尽所有冗余度,最后使用过程中就会出现各种问题,给客户带来的体验也是相当不好的。如果想让客户体验比较好,还是希望大家能深刻的理解每一个配置,把后面的算法和具体原理掌握了。在我们配置好所有参数以后,我们现在用的主存盘是HDD盘,不需要配重删压缩。最后系统会进行校验,校验如果出错的话,我们可以回过头去再对相关的问题做对应的处理。处理之后就会自动的进行构建,自动进行初始化。一般根据我们的经验也是1~2个小时左右也就差不多了。 那么接下来是修改密码的步骤,它可以把原有的公共密码直接改成新的,那么在这里一般来说为了方便都是用同一个密码,因为如果这么多密码都不一致的话,在我们不了解这些账号具体用途,还有随意修改密码的风险的情况下,日常的运维就非常难处理,随便改对接密码容易出问题。后续我们的这种故障处理都离不开这些账号。这里有一个重点的注意事项,就是说不同账号对于密码长度和复杂度的要求是多少。我在早期的项目里曾经尝试过,比如说我规划的是8位密码,但是有些密码要求必须10位以上的,所以那些要求10位以上的密码都是不成功的,那就造成了有一半密码允许8位是修改成功的,另一半是修改不成功的,我又得重新改一遍密码,那就造成有两个公共密码,具体哪一个账号是哪一个?如果没有人为全部都介入的话,那就非常难处理。在日后运维的时候就需要到处去试验这个公共密码。所以还是建议大家一次性的把这个密码提前规划足够的复杂度,一次性设置成功,这样比较好。构建了系统以后,最后就进入了Fusioncube的主界面。大家可以看到我这个初始化界面的截图,当前告警有20多个,为什么呢?这个是因为系统刚刚进入主界面的截图,再等待一会以后这20个告警,包含的几个物理节点,它的这些告警就会逐渐的消掉。因为它各个网络就逐渐开始对接上了,消掉之后,就只剩几个日常常见的告警,比如说未加载Licnese,还有NTP服务器的配置,我们配置好了以后就可以把这些告警消掉了。接下来就应该继续上载license,然后完成后续设置。那这些步骤按照我们产品文档的步骤实施就可以了。跟我们规划跟我们实施相关的重点基本上是这些。接下来我们交付给用户之后,那就涉及到日常使用。根据我的经验,日常使用时的运维一般有三个层次,用户级别,更多的可以关注虚拟机的日常使用,硬件的巡检,有问题得及时通知工程师吧?告警的监控,常见故障,能处理的用户运维人员要处理一下。接下来就是我们这种实施工程师,我们往往作为售后服务工程师,也有时是集成商的角色,有时候是服务商的角色。那在这种情况下要处理的工作包含系统变更,系统层面的一些故障处理,比如说虚拟机有问题了,卡死了,应该怎么处理?深度的运维,比如说有些磁盘故障了,或者说新增硬盘,或者扩容硬盘,这些都要调整。还包括一些高危操作的处理和定期巡检的服务等。厂商级别主要就是做软硬件故障的处理,故障部件更换,还有一些版本升级或者一些bug的处理。如果是我们按照这三个层次来做,那么用户级别要做的其实主要是围绕虚拟机和日常硬件这两大点。那么他做的工作就不需要特别多,压力也不会特别大,每一个级别做好自己级别的事情,通过体系化的服务去保障用户的系统,维持在一个常态化、高冗余度的这种状态,就能让用户的系统使用比较稳定,而且基本不用担心系统经常出故障。因为各个层次只要能做好自己的本职工作,几乎就能把80%的常见问题消灭在我们这个层级,甚至都不用去动用厂商,400也可以很少呼叫了。剩下20%比较难的才需要去动用厂商的资源。也就是说我们作为服务商,作为实施工程师,我们的作用其实还是很大的。如果把所有东西都扔给咱们厂商的400,那最后的结果就是400电话一天都不断,天天在处理一些很低级的故障。但等到高级故障来了以后又没人接电话,那整体的这种客户的满意度,那肯定高不了。日常操作一般这也是我给客户交付做培训的时候会列出来的。这是直接利用厂商官方PPT上给出的相关信息,就是日常检查项目,我们一般都会要求客户把这个日常检查要做好,各个资源天天看一下是否充足,然后各个指示灯,按照每天、每周、每月的频率,一定要做好记录,有问题及时反馈,我们来协助用户处理。然后温湿度、空气质量,这些大家看可能是一些老生常谈,但实际上我们就在很多生产企业,看到机房里面全都是灰,或者冬天下雨下雪,都飘到屋里来了,整个机柜都落的一层灰。所以说日常的一些常规情况的监控都是很重要的,都是要提前告诉客户。那么管理系统账号,根据我们的实施经验,一般建议给用户主要的两个界面, 一个是FCV界面,还有这个 FusionCompute的Web界面的管理账号密码,以及交换机远程管理的账号和密码,其余的后台对接账号,还有公共密码,这些日常不需要改的,千万不要随便给用户让他自己改。因为已经发现过很多用户在自己不熟悉的情况下,把后台账号当成前台账号一样,反复修改,频繁修改之后,最后的结果是密码忘记了,我们想再去找前台密码,后台密码都没有了,这就非常麻烦。接下来就是高危操作,日常我们认为一些下电,还有上电,甚至比如说更改时间、更改时区,其实都是高危操作,这一点都一定要跟用户做好交代,千万不要让最终用户随便处理。我们作为工程师自己应该了解这些高危操作,应该怎么做才能减少风险,避免日常出现问题,这样才能维护系统的稳定性。好,讲到这里,基本上全套的实施流程,基本上就讲了一遍了。所有的应该注意的重点也基本上覆盖到了。那接下来就是答疑时间。问1:超融合逻辑架构,应对高并发场景时表现怎么样?答1:这种高并发场景还是主要看我们具体的使用环境,这个不能一概而论。首先就是我们是利用CPU、内存还是硬盘?如果是CPU和内存的话,那就参照传统虚拟化的这种测试方法,如果是硬盘的话,如果有高并发,必要的时候还是可以上全闪存场景的。这个在我们现场实施过程中,都是实施过的。全闪场景,它的磁盘IO确实好一些,但是具体也是看使用过程中的具体场景怎么样。一般涉及到2点,第1点就是我们的一些测试数据,比如说CPU、内存和硬盘,我们都有一些性能测试的方法,利用这些方法测试后的的数据来说话,并发也可以测,实际并发的时候怎么样?因为他具体的并发要看具体的环境,还有你的应用类型,还是比较复杂的,甚至有些时候一些配置都会影响到并发测试数据,所以不止是硬件决定的,这种还是要综合考虑的。问2:华为超融合的虚拟化组件可以替换VMware吗?答2:这里我可以给大家一个答复。华为超融合它的虚拟化的这个组件有两个选择,第一就是华为自己的FusionCompute虚拟化,第二就是VMware,也就是说它是可以在虚拟化组件上用VMware的,但是具体的匹配一定要看好,它的版本配套表,还有产品文档。根据Fusioncube配套的版本来进行实施。问3:想了解三节点场景实际使用中一般多久可以上架,部署完可以使用?答3:这个实际上还是要看具体情,上架比较快的话,如果有三节点,一般实际过程中,由熟练的工程师来实施,全流程大概应该在5天左右,也就5个工作日左右,应该差不多。但是前提是所有条件都具备。如果你到现场线缆不全,接口不全,客户的这个网络调整还需要等待,等几天你才能上架,那就5天绝对完不了。5天的前提是我们所有东西都处理,这个前提包括什么呢?就是包含我们上架部署完成,再加上培训,以及路上消耗的时间,满打满算5天的话应该差不多。问4:下面又问一个能直接把分区迁移过来?这个呢不确定。答4:这个就是看你具体这个分区是指你做存储热迁移,还是说迁移的是整个的这个虚拟化环境?要是存储热迁移的话,迁移分区是没问题的,你要是说这个虚拟化环境,也就是不同虚拟化环境之间的应用迁移。这个就在后面说。问5:宣传里边是不是2-3天?答5:2-3天是指从上架到初始化完成。宣传中确实是这样的。当然我们现实在实施过程中还要等布线,绑线、理线、打标签,再加上培训,这额外至少又是两天的工作量。如果从到现场开始上架算起,到系统部署完成,不管其他的时间消耗,一般2-3天就差不多了(如果现场安装就要多一天,如果是预装系统就节约了一天)。问6:部署了超融合,想和老旧设备一起用,有哪些可以利旧和异构的设备?答6:超融合的分布式存储节点,也就是融合节点,它对于硬盘的要求是比较高的。那在这种情况下,还是没办法和你老设备直接做利旧的。但是它的虚拟化组件要求就没有那么高,你可以把老设备变成虚拟化组件,做成CNA节点,也就是说只做计算不做存储。在这种情况下还是没有问题的。它仍然可以利用分布式存储作为共享存储,然后利用你原有的设备作为这个计算节点,就可以利旧了。凡是说PPT看不清楚的,过后我们会有这个图文的回放,这个大家可以再看。问7:其他厂商的虚拟化分区怎么更好的迁移到华为超融合上?答7:这个不叫虚拟化分区,它应该叫其他厂商的虚拟机,怎么迁到华为超融合上?如果是虚拟机本身的话,这个华为是有迁移服务,还有迁移工具的,利用这些方式可以进行一部分迁移。能新建的情况下,建议应用还是完全新建比较好。迁移呢一般是说不适合新建或者新建特别困难的情况下,迫不得已的选择,因为它的成功率并不是100%,各种迁移工具基本都是这类情况。问8:他们要这么多IP是否容易管理?答8:这些IP并不是说我要的多,而是说它就需要这么多。无论是我们在什么情况下,他都需要这些比如说管理IP、BMC IP,存储IP等,每一个口都需要自己独立的IP地址,它才能完成超融合的这些自动化的管理,也就是说IP是必须的。那怎么分配呢?我直接要一个独立的IP段,自己进行分配,就可以实现我说的那些思路。这个规划比较顺畅,一眼就能交叉确认相关IP地址及节点对应关系。那么这种情况下就给未来的运维造成了一些加分项,也就是更可靠。但是它确实是会浪费一些IP。不过如果客户的IP段不是那么紧张的情况,这种浪费是可以接受的。因为我们得到的收益远远大于这几个IP的浪费。【干货分享】智能极简遇见未来双力数据中心一、分享主题由我给大家分享一下华为在数据中心的解决方案。分享的主题的是“智能极简遇见未来双力数据中心”。二、项目介绍云计算、大数据、物联网、人工智能等新一代信息技术快速发展,数据呈现爆炸式增长,IDC建设成为大势所趋。世界主要国家和企业纷纷开启数字化转型之路,全球数据中心IT投资呈现快速增长趋势。在未来几年,IDC产业将迎来其新一轮的发展机遇。此外,以资源外包的网络服务方式逐渐受到企业重视,并取得长足的发展。在控制不超总投资估算的前提下,建设成“三机房、两靶场、两中心”的智慧城市大数据和算力中心,具备智慧城市数据汇聚、智慧城市应用调度、提供云资源、算力资源、网络安全防护能力及人才培训服务等多项功能。以满足XX市智慧城市各项政务及民生应用云资源运营,助力产学研转化、大数据算力、存储资源的可持续性升级,推动XX市乃至XX地区数字化的高速发展。三、关键技术分析本期项目建设规模含一层机房及二层机房两部分。本项目机房建设对标《数据中心设计规范》GB50174-2017中B级机房要求。湖南省XXX市的政府大数据中心的建设要求,XX市政府整体建设一个智慧政府数据中心,其他单位以及市直部门不在单独进行数据中心建设。既要数据中心机房项目作为承载XXX市算力中心的基础设施,在数字化转型中扮演着关键角色。该机房将承载算力中心的网络核心和汇聚功能区,也提供数据中心和云计算中心的空间和基础环境保障,为未来计算扩容等需求提供基础环境。推动整个市以及整个湘北地区的一个数字化的高速发展。它建设满足“数据中心设计规范GB50174-2017”- B级机房的标准。项目建设符合近些年来国家以及湖南省政府对于建设高效节能的新型数据中心的相关政策要求,PUE值小于1.3。整体建设方案是采用新一代的节能技术建设冷热隔离的封闭冷通道。相比于传统机房地板下送风,封闭冷通道更符合现有国策。虽说本次机房采用B级标准建设,但实际上我们在供配电上采用A级机房的架构模式。就是其中任何一路市电的中断或者是ups的故障,都不会造成机房断电风险,提高了机房的供电可靠性。在已经建设完成的大楼内改造为数据中心,关于经济效益方面:有效促进国有资产保值增值;提高工作效率,减少行政经费支出;本次机柜建设五百多个机柜。我们预计运行使用15年,租金总收益大概是五个多亿。节能设计在供配电采用智能融合电力模块技术每年节约电费约为52万元;暖通空调采用氟泵风冷精密空调技术每年节约电费为55万元。按数据中心运行15年的计算,总计可以节约1605万元。关于社会效益方面:助力国资监管转型,促进监管方式和手段的创新;提高国有资产监督管理能力和水平;加快推进国有企业“数智化”转型;促进信息化建设税收贡献,建设所产生的投资费用,可为该市的创造更多的税收,拉动就业;促进湘北地区的云计算、大数据、区块链等方向高新技术的发展。目前XX市各区县政府的机房均未统筹建设,整体规模偏小,设施陈旧,无法满足数智政府建设需求。同时,XX市政务云目前租用运营商机房,容量使用率已经接近警戒值,但因受到场地及配电等客观因素的影响,导致政务云无法就地扩容。XX市缺少一个大型自用集中的数据中心机房(目前周边地市如长沙市、常德市、益阳市、株洲市、永州市等均有自建的大型数据中心机房),现有机房建设处于零散式分布状态,自建及租赁的形式居多,待建“X慧云”急需机房。本期数据中心机房项目作为承载XX市算力中心的基础设施,在数字化转型中扮演着关键角色。因此,数据中心机房建设意义重大,是“智慧XX、数字政府”建设的支撑,是XX市产学研转化和存储资源可持续性升级的需要,是XX算力中心建设的必备。a) 智能融合电力模块技术智能融合电力模块技术,通过高密高效的UPS和融合UPS输入输出配电技术,相比传统方案在占地上节省40%,效率上UPS双变换模式下提升1.1%,UPS智能在线模式下提升3.3%,通过预制集成技术降低交付周期75%,同时通过全链路可视的集中管理及AI智能运维特性,提升运维效率降低成本,提升运行安全可靠性。该智能融合技术贯彻《2030年前碳达峰行动方案》指导思想,助力数据中心绿色低碳转型行动、节能降碳增效行动、绿色低碳科技创新行动,持续降低全生命周期能耗和碳排放。无论从发展趋势,采购成本,还是实际的售后维护角度来看,智能融合电力模块技术各方面指标都优于传统的供配电方式。智能融合电力模块技术取代传统供电方式这一发展趋势也已经获得业界的广泛认可,本期数据中心采用智能融合电力模块技术即符合“3060”国策下的绿色化、低碳化数据中心机房,又满足当前技术主流。b) 氟泵空调技术在数据中心节能领域研究比较火热的当下,为了降低能耗、推出新产品,市场上提出了很多制冷散热的新概念。所谓的“氟泵空调”就是其中之一,是制冷剂自然冷却循环。很多厂家研发了氟泵空调,在原有的直膨式制冷循环系统中增加了氟泵,在冬季温度较低时,氟泵开启压缩机关闭,利用氟泵实现制冷剂在铜管内的循环。如下图所示,“氟泵”不只是一个泵,它是一整套循环系统,包括数据中心内部的蒸发器、外部的风冷冷凝器、制冷剂气液分离器、油分离器和制冷剂循环泵。它主要由贮液器、氟泵、管路阀件等组成。氟泵与机房空调配套使用,在夏季,制冷压缩机运行;当室外温度低于设定点时,自动切换为氟泵节能系统运行,保证全年机房空调安全可靠运行;压缩机功率在10kW左右,氟泵功率在1 kW左右。 在室外低温情况下,氟泵的制冷量与10kW压缩机产生的制冷量基本相等这就是氟泵节能的关键所在。在联合国大会上面向全球承诺目标:“2030 碳达峰,2060碳中和”的国家政策下,在通过空调节能的技术方案上,本期数据中心行级精密空调采用“氟泵技术”的氟泵双循环空调系统,就是其中一个节能利器c) 封闭冷热通道技术近年来数据中心建设领域取得的进展,“模块化数据中心”无疑是一个热词。模块化数据中心因其能够提供高性价比、高可用性的建设模式,从而被众多基建厂商所熟知。众多传统数据中心基础设施厂商纷纷进入“模块化”的市场竞争中,“模块化”的理念深入人心。在我国已有不少数据中心开始采用模块化数据中心的建设模式,有的甚至步子迈得更大,采用预制模块化的方式。比如,XXX人工智能数据中心就是采用当下流行的预制模块化技术。在该数据中心的建设过程中,其电力、制冷、通信电缆以及相关的环境监控等都预先部署在一个框架上,类似积木,预先完成测试,然后将这个框架直接部署到数据中心,这样数据中心的建设就如同搭积木,从而加快部署。模块化数据中心是指整个数据中心是由不同模块组成。每个模块都有单独实现的功能,统一的输入和输出接口,模块之间可以相互备份。微模块化数据中心由于采用模块搭建的方法,使得单位面积的计算密度得到了极大的提升。同时,由于是以模块的方式进行组合扩大,所以用户可以根据投资情况和业务发展需求,实现灵活的分期建设。由此不仅提升了模块的利用率,同时降低了资金压力。冷热通道隔离的模块化数据中心作为一种趋势的出现并逐渐被成熟应用,反应灵敏的数据中心将会逐渐成为用户的首选。微模块数据中心由于具备绿色节能、快速安装等优点,在满足客户业务需求的同时创造更多价值,成为未来数据中心建设模式的新标准与方向标。d) 智能小母线技术智能小母线是在线即插即用,可以考虑满足当前4KW、5KW的需求,也满足后期的8KW、10KW、12KW扩容需求。智能小母线相比于传统的电缆,具有电流小、易插接、智能化程度高等优势,其电流规格在630A以内,能满足国内90%以上的数据中心机房配电系统。智能小母线通过始端箱从前端UPS取电,以铜排材料的母排系统组成输电结构,采用即插即用的方式,给各个机柜内的PDU配电。始端箱和插接箱内设置监控模块,可针对每个机柜的用电量以及温度数据进行监测,并具有通讯至动环监控的功能。无论从技术性能,全生命周期成本,还是数据中心的后续扩容等方面考虑,都会将智能小母线系统作为数据中心最后50米配电的最优选择方案。同时,在数据中心的建设过程中,限于有限的资源,提高单机柜装机的功率密度,使数据中心单位面积产生更大的价值是很有必要的,打破传统配电模式,驱动新型数据中心配电方式的变革也是势在必行。e) 智能化运维技术数据中心通过系统化、自动化、智能化的手段来改变现状,实现数据中心自动驾驶,即运维自动、能效自优、运营自治。通过架构级优化设计,减少能量的转换层级,去除多余部件,在减少故障点的同时,做到无损切换、无感知切换,实现系统的永续在线,实现全方位全体系的架 构安全。同时通过大数据分析和人工智能算法,深度挖掘分析数据中心能效数据, 实现PUE节能分析与优化,帮助用户做好能效管理。因此,本期数据中心监控系统选择数据中心自动驾驶技术。四、规划设计方案XX市大数据和算力中心项目第一阶段数据中心机房建设,目标是按照数据中心设计规范的B级机房标准,围绕XX市算力中心发展,将PUE目标值控制在1.3以内,依据结构、系统、服务和管理以及它们之间相互联系,建成具有 “一模、三性、四高”的数据中心机房。将机房的供配电系统、暖通系统、机柜冷通道系统、动力环境综合管理系统、给排水系统、装修系统、消防系统等相关系统建设完善。“一模、三性、四高”分别指:Ø 一模:机房设备模块化;Ø 三性:稳定的可靠性、设备的可扩展性、便捷的管理性;Ø 四高:高集中、高可用、高带宽、高速率。涉及数据中心机房建设,含一层机房及二层机房,共包含供配电系统设计、暖通系统设计、机柜冷通道系统设计、动力环境综合管理系统设计、给排水系统设计、装修系统设计、消防系统设计、ECC监控室设计、BIM三维展示平台设计及节能分析等10个模块。总体架构设计如下图所示。本项目数据中心机房布局采用模块化机房的方案并参照数据中心设计规范的B级机房标准要求进行设计,机房各层平面布置如下系列图所示。本项目一层机房:规划12组微模块,包含300台服务器机柜和24个网络机柜、48台行级风冷氟泵精密空调;二层机房:规划12组微模块,包含276台服务器机柜和24个网络机柜、48台行级风冷氟泵精密空调;负一层配电房采用16台房间级上送风风冷精密空调;负一层配电间:4套一体化融合电力模块(UPS)配电系统及配套低压配电柜;负一层电池间:UPS对应蓄电池组及电池开关柜。a) 供配电系统设计我们规划一、二层的机柜采用UPS分区供电,第一层是一套UPS供电,第二层是一套UPS集中供电,根据国标50174 2017数据中心设计规范双母线架构,保证机房供电可靠性。b) 暖通系统设计当时客户在规划设计时,客户是有几条技术路线一是采用液冷?二是采风冷?三是采用水冷?是水冷的?针对客户的提出的三条技术路线以及现场工勘的实际情况和跟客户沟通的实际需求,选择风冷空调制冷方式。液冷的弊端:成本较高:液冷技术的实施和维护成本较高。液冷系统需要专门的基础设施和设备,如冷却液分配单元、冷却塔、泵和管道系统等。以上设备的购买、安装和维护都需要大量的资金投入,增加了数据中心建设和运营的成本。液冷的运维难度比较大,因为它比较重,运维时候需要利用吊臂插拔,成本比较高,兼容也有要求。安全性和泄漏风险:液冷技术中使用的冷却介质可能对设备和环境带来潜在的安全风险。如果泄漏发生,液体可能会对设备造成损坏,并可能对环境造成污染。因此,液冷系统的设计和实施需要严格遵守安全标准和规范,并采取必要的安全措施来防止泄漏和意外事故的发生。维护和运营难度较大:液冷系统的维护和运营需要专业知识和技术。液冷介质的循环、泵的运行和冷却塔的维护都需要经验丰富的工程师来进行操作和管理。此外,液冷系统还需要定期检查和维护,以确保其正常运行和散热效率,整体维护和运营的难度较大。国家或者行业对其技术的规范也还处于空缺状态。缺乏相应的标准支持目前沉浸式液冷还没有在行业内形成趋势,缺乏大规模应用的案例。服务器需要做定制,不利于后期扩容以及方案的灵活性。水冷的弊端:Ø 设备数量繁多,安装复杂,本项目所处位置水资源紧张。Ø 需要冷冻水末端,机房有水浸风险。Ø 大型系统能效较高,与自然冷却适配度也较高。Ø 运维复杂,需要专业人员。Ø 故障影响面较大:单台机组、整个管路。风冷优势:Ø 系统简单,容易安装。Ø 末端介质为冷媒,不存在水浸风险。Ø 变频机组能效较高,氟泵装置市场成熟度很好。Ø 不需要专业人员维护。Ø 故障影响面很小。c) 机柜冷通道系统设计本工程涉及范围包括数据中心一层、二层(24个机柜冷通道,共576个机柜)新增机房内的服务器机柜系统的设计。这些业务机房中机柜是机房关键的物理设施,是机房建设的主要部分,在制定总体技术方案和设备选型时应遵循近期建设规模与远期发展规划协调一致的原则,以满足未来业务机房业务发展需要。数据中心一层、二层的24个封闭冷热通道方式采取隔离装置进行冷通道封闭措施,以分隔冷\热气流,形成良好的气流组织,从而提高机房制冷效果.。封闭冷通道后,可提高空调的送风、回风温度,进一步节省空调的能耗,即使维持原来的送回风温度模式,也可提供更高的制冷能力,以容纳更高密度和更高发热量的设备。d) 动力环境综合管理系统设计本项目建设一套完整的动力环境综合管理系统,能够接入数据中心本地动环监控系统、配电监控系统、安防系统、消防等的监控数据,并以此为基础提供告警管理、能耗分析、电力容量管理、设备管理、自动化巡检、数字运维、智能运营,能效优化等业务功能,从而实现在统一视图上的集中监控、集中运维、集中管理,提升整体运维效率及运营水平,满足业务发展的需要。并预留后续接入扩展能力,可接入交投集团所辖其他远端机房的动环数据(此处要求远端机房的视频监控设备、入侵报警设备、温湿度监测设备、UPS等需接入动环综合管理系统的设备,具备远传通讯接口)。系统组网架构如下所示:本系统应以满足数据中心基础设施日常运维的需要,实现数据中心运维的自动化、智能化,降低运行风险、提高运行效率、降低管理成本、优化资源配置、明显降低能耗、整体提升可用性。在建设过程中应采用完善的架构设计、稳定的技术手段、可靠的安全控制、先进的科技成果。同时结合数据中心的实际状况和未来发展需要,建设具有前瞻性、高实用性、高灵活性和高扩展性的动力环境综合管理系统,并且能充分考虑利用现有各系统资源,建立高性能、低成本的系统。五、华为优势a) 华为公司优势目前,华为在美国、印度、瑞典、俄罗斯及中国等地设立了20个研究所,每个研发中心的研究侧重点及方向不同。我们采用国际化研发体系,聚集全球的技术、经验和人才来进行产品研究开发,使我们的产品一上市,技术就与全球同步。斯德哥尔摩一直是华为重点建设的能力中心,汇聚了大批华为的高端专家。除了网络相关技术外,还有网站电源、UPS逆变拓扑等相关电力电子技术的研究。而纽伦堡作为电力电子行业的硅谷,汇聚了西门子、英飞凌、赛米控等企业,华为可以充分利用全球顶尖的专家资源,并实时追踪业界最新动态,确保华为产品技术的领先性。华为大型UPS的架构设计即出自此处。面向未来发展,华为组建了2012实验室,承载集团创新、研究和平台技术开发的使命。2012实验室聚焦ICT领域的关键技术、架构、标准等方向,持续投入,致力于提供更宽、更智能、更高能效的零等待管道,为用户创造更好的体验;和来自工业界、学术界、研究机构的伙伴紧密合作,引领未来网络从研究到创新实施。我们还与领先运营商成立28个联合创新中心,把领先技术转化为客户的竞争优势和商业成功。b) 华为产品优势华为公司是全球唯一一家能提供E2E全栈云数据中心解决方案的厂商。华为是唯一一家能提供数据中心所有产品和解决方案的厂商,是最懂业务和ICT设备未来演进的基础设施厂商。华为机房微模块产品解决方案FusionModule,隶属华为数字能源产品线,依托华为公司的整体技术实力,提供不间断电源UPS,行级精密空调,微模块封闭冷通道,IT机柜及配套设备。FusionModule采用All-In-Room建设模式,集成了机柜系统、供配电系统、制冷系统、监控系统。FusionModule一体化机房解决方案,因其部署简单、高效节能、可柔性扩容、智能化联动等特点已成为数据中心建设的主流。着眼于数据中心全生命周期管理,FusionModule以模块化架构+智能化大脑为主要设计理念,i3智能化管理为灵魂(iPower智能可靠供电, iCooling智能高效制冷, iManager智能管理简化运维),将子系统、数据中心到全网打造成智能化的有机体,让数据中心机房成为真正可视、可控、可管理的智能化数据中心。华为打造极致安全、智简融合的低碳绿色数据中心 。华为FusionModule系列智能微模块解决方案以模块化、标准化的架构和电力模块、行级精密空调等灵活组合打造新一代模块化数据中心基础设施。其特点:快速部署、高效节省、智能管理、采用密闭冷通道技术,隔绝冷热气流混合,高效利用冷气资源,支持的单机柜功率密度大大提升,PUE降低。在当今全球局势下,信息化离不开网络安全,华为数据中心产品平台自主可控+业内最高级别安全认证,构建端到端的安全可信解决方案。华为全系列产品(UPS、精密空调、微模块、管理系统)获得国内权威机构公安三所首张最高级别安全认证证书,从器件到核心设备自主可控。c) 华为服务优势华为致力于成为客户“值得信赖的服务伙伴”。我们相信,为您提供专业的服务、快速的响应以及客户化的服务产品是推动客户成功的关键要素。华为服务提供端到端的“咨询、网络建设、网络维护、运营管理”一系列解决方案。华为服务长期坚持全球化和的服务策略,拥有14300名专业人员的服务团队,海外员工本地化比率达73%。超过13200名合作方工程师我们一起为客户提供优质的服务保障,在全球每年交付的工程超过240000个。华为在全球90个国家和地区建立了112个服务代表处。我们拥有遍布全球的服务平台,包括3个全球技术支持中心、8个语言技术支持中心、31个培训中心、7个管理服务中心,保证我们能够满足全球客户的不同需求。自1996年以来,华为服务已通过包括ISO9001、TL9000、BS7799等在内的多项国际标准认证。此外,华为已成功通过多家国际知名电信运营商如BT, FT, Vodafone, O2, Cable & Wireless, T-Mobile, TI等的认证。华为时刻关注着行业服务需求的变化,适时推出满足客户需求的服务解决方案。我们准确把握客户的业务发展需要,在最短的时间内提供相应的服务解决方案。【干货分享】智慧建筑能源优化解决方案今天跟大家一起分享一个话题:智慧建筑能源管理能源优化的解决方案。大家一定也深有一些感受。就是其实现在我们住的城市里有很多的,比如说楼宇或者是建筑,有一些是新建的,也有一些老旧的这些楼宇。从现在的建筑水平来讲是非常的高。它的智能化,包括它的一些设施都非常的好。但是很多的老旧的楼宇,其实就面临着很多的问题。比如说在八几年的房子,或者是九几年的房子,到了现在,其实从外观到它里面的设施都面临很多的问题,有一些楼宇还面临着拆迁。所以在这样的情况下,有很多楼宇。它到了50年左右,它的寿命基本就差不多了,可能就要拆掉。我觉得如果是一栋楼,它从0~50年,再从50年到100年,如何延长它的寿命?我觉得是一个非常具有未来、有思考空间的一件事情。第二就是我要讲的就是双碳,这两年国家其实一直在出台双碳的很多政策,它的出发点也要实现在2030年到2060年分别要达到碳中和碳达峰这样的目标,旨在还是要解决很多楼宇很多建筑,包括我们周边的环境如何做到节能减排,让大家去有一个非常宜居的这样的环境去生活。所以从这个角度出发。智慧建筑好不好,管理就非常的重要,那么其实也是要解决两个问题,第一个就是延长建筑的寿命,第二要做到很好的碳排放,也是我今天要重点分享的部分。其实大家现在也非常的清楚,每一个城市其实都要做整个智慧城市的建设。那么从政府的角度,从宏观的角度,有一盘棋规划,从整个大的智慧城市要建不同的场景、不同的板块,但是从企业来讲,其实是一个反向的操作。从一栋楼宇、再到一个智慧社区、再到智慧城市,正好是一个从上到下,一个是从下到上,跟政府是一个相反的做法。这就是政府和企业的做法的不同。我们基于从一栋小的楼宇开始做起,从一个从市场高度市场化的一个操作变成一个智能楼宇精细化的那一部分,就是说智慧建筑它如何去做到能耗的优化。刚刚我也大概讲了一下,从国内有很多的不同的政策去支持双碳。从其他的国家,像日本南亚,包括中东的很多国家也会有各种的碳排放或者是关于绿色建筑的一些倡议,目的是让大家都是同样的目标:就是要做到节能。也是智能楼宇的必要性。就是说其实大家做智能楼体的,或者是智能建筑的能源管控。它不是说大家想想这么做。而是的确是面临一个必要性从国内和国际都有这样的一个要求。从目前的建设的痛点来讲,我们的居住的办公环境,有一些新装修的会面临有害气体的排放,包括我们的办公空间是否宜居?包括它整个的一个碳排放是不是达标了?不管是企业还是我们的员工在大楼工作生活,其实都有这样的一个要求。第二个就是整个他大楼实施改造和成本也会很高。因为老的楼宇很多的设备当时建设之初是没有什么太智能的元素。到了今天,它其实面临着要智能化的改造,老的这些设备要做很多的修改,不管是装修还是设备,所以成本就非常的高。涉及到很多的专业,有能源专业,有消防专业,还有楼控等等,其实也是非常的复杂。所以现在对智能楼层对建筑,提出了很多的要求。以前其实设备也都是相对来说比较孤立,暖通系统、电梯系统、照明系统、消防系统基本基本上每一个都是孤立的系统。这也是如果把它打通的话,那么也是需要一个新的系统去把所有的系统集合起来,去做智能化的管控。所以这一些都是很多建设项目面临的一个非常重的痛点。所以从能源管控的角度来讲,要是把所有的原来的一些建筑的子系统就要把它打通。从大家从左侧也可以看到,其实整个不管是楼宇还是建筑,它会有几个十几个甚至更多不同的子系统。比如泵、冷却塔、冷水机组、抽水机,包括还有风机等。这么多的设备,如果是孤立的话,其实是很难去把它综合调度起来。所以中间我认为是有一个综合的管控平台,这个平台其实是要把所有的子系统的数据归集。接入之后进行数据汇聚,依据数聚打造人工智能的模型。其他的系统要基于中间这一侧的部分的数据。把它重新再建立新的应用。这个催生出来新的应用的话,它就不是像原来一些独立的系统,没有办法去协同工作,而是说它可以去做很多。比如说人员管控,比如说还要基于中间的数据。他要做很多可预测性,这里就有很多新的应用程序出现。所以这样的过程从独立的子系统到数据的集成和分析,然后到新的应用,整个过程会把智能管理就做得非常好。传统的建筑和智能的建筑上还是有很多区别。大家也可以从图上可以看到,其实在以前很多大厅的指挥中心,它其实是有很多小的屏幕。我觉得在10年之前至少是这样子的。最近5、6年会有很多的改善。到了今天突破就更多了。左侧就是现在的组件,大家会怎么样去做?那右侧的这些小的面板,比如说原来是5×6或者是6×9这样的一些面板。或者是电视机,那么已经变成了一个我可以去用一个非常大的一个屏幕。那么这个屏幕其实就完全不需要这个5×6或者6×5,而是一个非常大的一个屏幕。它可以去通过手去滑动或者鼠标去滑动。可以上下左右前后,可以看到整个智能楼宇里面外面。包括上下他都能看得到,所以这就是在整个它的指挥控制上的一个突破,这是传统和智能建筑的一个非常显著的区别。第二个就是一个非常大的区别,就是可预测性。就是我们做了很多的事情,其实并不是说当下的问题发生了我们把它总结,这是已经发生的。其实我觉得更重要的是要做到未来的可预测性,就是说我们今天可能不知道明天这个楼宇它可能会发生情况,通过模型的推演、预测到未来这个楼宇要发生什么事情,比如说明天楼宇的某一个层可能某一个配电箱的电流会超高。所以这种可以通过很多的历史数据,包括结合人工智能模型去把它分析出来。那么在今天就可以预防明天可能在这个时间段我要采取什么样的措施。比如提前调整它的负荷,或者是调整它的用电的一些参数。这样我认为是智能楼宇和现在传统楼宇的一个区别。再就是我们其实现在可以利用数字孪生将整个楼1:1的还原,这种好处其实也可以解决很多设备宕机的问题,就比如说过去可能楼宇遇到一个问题通常是派人到现场去维修。那么如今现在有了数字孪生可以直接能看到每一层的管道和建筑的每一个细微的管线和设备。发现问题之后从可视化层面可以看到到底哪里出了问题。这个时候再派人去现场,可以大节省宕机时间。除此以外,整个楼宇其实还要有api,楼宇也要每一个系统之间打通,api网关用于数据去汇聚。第二个,还要做数字孪生做到可预测性。当然这些也是作为人工智能的优化的基础。第三是把所有的楼宇的每一个部分桌椅、板凳,包括水电、暖通、风、水电,这些全部1:1的还原,也是为了精细化的去管理楼宇的每一个部分。这样无论是做能源的优化可以去到每一个部件。至一第四个是物联网的管理系统,其实这里也就涉及到比如我们需要把所有的楼宇的风火水电的设备会以ba或者是bms系统这样的形态去跟楼宇的管控系统去做一个打通。所以在这里硬件或软件要遵循统一的net协议或者是modbus这样协议去对接。楼宇的硬件和软件就可以去做很多数据上的交互。这里其实大家也可以看到,整个楼宇要基于模型互联起来。每一个楼基本都有dwg或者是BIM数据,用数字孪生原生把楼宇以及管线构建起来,可以看到每一层。结合现在的大模型你可以对模型去说一句话,比如说我要看到10楼的102房间,那么其实可以把BIM的每一层的部件全部呈现看到到底有什么问题,哪里会产生告警,其实也是为了方便资产管理也为了未来做能耗的优化,或者是能源的管控也非常清楚,会看到哪里出了问题。这里你看到的其实是一张非常乱的一张图,其实就是把每一层的位置已经切割了,每一层都会把它打通,把它切开它的管线其实也都会看得非常清楚,你可以把它放大。它这条管道如果是出现告警,那么它其实在这个面板上会出现一个红色。第二部分我想更多还是要提到双碳或者降碳。因为整个楼宇其实现在的楼宇基本电会占大概70~80%的能源的消耗。我记得我昨天的时候去跟一个地方政府的工作人员在聊天,他说当地图书馆现在都不敢开空调了,如果不开空调,群众会投诉,如果是开一天的话大概2万块钱的电费,楼宇也一样,基本耗电最多的就是这些暖通的设备。所以从能碳从节碳的角度来讲,就是把电能耗降下来。整个能源的管控也就有很大的改善。首先是要从管理体系构建,包括碳核查,第二部分从设备的角度就怎么老旧设备上进行一些改造。第三个是可再生能源,就是光伏储能。做一些碳抵消。同时要跟电网去合并,来抵消楼宇产生的一些二氧化碳。整个能源优化还要基于一些条件。 因为每一个楼宇它的条件是不一样的。有的有一些楼宇设备是比较先进,它有一些智能化或者物联网的板块,有一些老旧的楼宇不具备这样的条件,就要对它进行一定程度的改进。比如加装群控装置或者支持PLC可编程控制器把设备和我们的楼宇的软件做一个打通。PLC要支持wifi要支持网络,只要是PLC和它联通的设备和软件系统的协议保持一致。就可以去把设备上的数据汇聚到楼宇都软件平台里面,如果没有PLC控制器的话,就需要把楼宇的设备都集成到BMS系统或者是BA系统。中间可能还需要一个转换器处理数据的清洗工作,确保数据的分析或做模型的数据质量,plc是在控制终端设备,然后通过网络把软件和硬件打通,把数据拿过来。基于数据去做汇聚,做分析,做能源的调控和优化.有很多楼宇原来是中央空调,如果中央空调没有任何的物联网模块。除了我刚才说的加PLC可控制编辑器之外,还要加一些智能电表收集电梯、消防设备耗电量。耗电量的一个计量就是要通过电表。智能电表也会开放API接口。有很多冷水机还要有温控设备或变频设备。包括温度、温湿度的传感器。智能电表,就是它的一个载体。冷机系统也有物联网的模块去监控它的温度压力。出口的流量。这里还有一个能效的一个管理,所有的设备接入进来要知道它的能耗是怎样的,能耗比是多少,能耗比:比如说冷机,你可以控制冷耗量,比如说1000瓦,然后冷机消耗200瓦,风机或者是冰机或者是其他的冷耗要消耗量80w,能耗比是1000除以280,大概是3.57是它的能效。能效越高。能耗其实越低,能源消耗多的设备有能耗的优化策略。通过plc的可控制编辑器发放指令。根据策略和指令去集中控制。策略优化还是要基于过去的历史数据,还有线路的一些场景。比如说有很多的大厦有很多个区域,人流是非常稀疏。或者是说在某一个时间段,它的肯定是多的。那么基于这样的数据,可以在某一个时间段,它的人流并不是很多的情况下,对暖通空调进行调整。同时可以结合监测到的天气的温湿度,比如明天可是一个非常冷的天气。那么提前在第二天上班前对整个大楼做提温。能耗其实最大的用电量。有的场景比如可能要下午两点多开会,但是有很多的场景是大家到了会场才当场把这个空调打开。其实完全可以对整个的楼宇的管控系统或者是能源管控系统,提前有这样的输入参数:若下午两点开会。那么其实系统接入到这样条件之后,会根据人数的多少去调控开放一个合适的空调的温度。总结:整个思路第一要把所有设备的子系统的数据汇聚过来。无论是通过运营系统还是电站系统。然后基于数据去做模型,去调优,向设备发送指令,调控温度。当然这些根据很多的模型去学习,因为有很多的天气因素,人流元素,历史的数据,未来可以有一些新的场景要结合。这些结合要结合很多因素去调控。所以我觉得这是一个大的思路。【干货分享】技术岗如何少走弯路分享主题:刚才加入直播群,看到留言问少走弯路的含义是不是直接去当保安呢?(因为业内流传,中年失业,常见的职业选择包括保安、保洁和保姆,这些职业被称为“吉祥三宝”。)今天要分享的就是解决这个问题的思路,就是我们如何避免中年失业去当保安,争取一路走到技术的终点。我准备按照如下五个标题来进行分享。我的社区昵称是蓝色空间,今年是工作第20周年,这是一个很有意义的年份,所以第一点给大家做一个20 年的工作总结。第二点就是分享我这20年的晋级之路。作为老一代的工程师,我是八零后,而现在年轻一代很多是零零后的工程师。也就是说,我们新老工程师之间可能差了整整一代人。我们这一代人当前面临的问题就是传帮带,如何能让工程师梯队持续的发展下去、继承下去,实现我们的人生价值。第三点讲中年危机。我们这一代已经人到中年,在35-40岁左右,中年危机到来,尤其IT行业,工作的生命周期比较短。如何在未来20年继续保持自身的价值?我会分享自己的思考,希望年轻人们能够借鉴一下,少走弯路。第四点讲人生半路的风景和思考。40岁的人生基本过半,此时所看到的风景和年轻时完全不同。我们都经历过年轻时代,现在到半路能看到什么?提前分享出来,有助于大家少走弯路,能尽快找到自己的方向。最后第五点,就是我自己的思考,传说、故事以及神话。后面分享过程中再展开,先留个悬念。一、一份二十年的工作总结第一件事是破题,为什么要破题?因为如果不做解释,那大家就会想是不是直接去当保安了。作为一个普通劳动者,我这20年没有得到过名利。也就是没赚到大钱,也不是很出名。(最近在咱们JDC社区里有些成绩,但这其实是工作经历带来的一个必然结果)虽然前几年很多人站上了风口,瞬间实现财务自由,看起来赚钱容易,其实很多人仍然靠工资养家,我也和大家一样是普通劳动者。这20年里我一直和大家一样,在做着普通的一线工作。这些经历分享出来对年轻人可能用处更大。对我们这代人,我也有些话想说,因为身边很多人也遇到了中年危机,我的经历也可以提供些借鉴。少走弯路的意思,就是认定方向一往无前,向着自己的理想前进。我是对计算机技术感兴趣,才进入了这个行业。至今持续20年没离开这个行业已经非常难得。我的同学们大部分已经离开了这个行业。我会向年轻人们展示我走的路以及相关思考,希望年轻人能够一路走下去。第二部分就是:人生多种多样。有的人是站立潮头做冲浪者,例如背景图片这个冲浪人,比喻名利双收。举例就是各位首富、企业家、一些业内的专家等,他们一般是名利双收。另外还有人是协助他们,自己也站上风口当着浪花,这些人大多财务自由了,或者是有了一定的名气,不必操心工作稳定性的问题,不会有中年危机。这些人我把它比喻成浪花,例如企业里的高管及股东。而我们绝大部分人,只是托起浪花,做了大海里的水滴。但是想要冲浪,必须有大海,必须有千千万万的水滴。冲浪的人要的是面子,我们这些大海里的水滴,就是他的里子。没有里子,面子是站不住的,也是无法冲浪的。借用小说《三体》中的名言:我们即使是一颗水滴,也可以发动末日之战!普通劳动者仍然可以发挥出难以想象的作用。所以不要妄自菲薄。接下来是我的工作总结。在这20年里经历了很多工作,前10年工作变动比较频繁。最初是在研发方向的软件和硬件测试工作。接下来是运维,最后转到现在的售后工作,至今持续10年。所以工作经历比较丰富,可以给大家分享一些经验了。另一个方面,经历过的企业类型有外企、私企、中外合资、还有国资控股企业等。体制内和纯国企的工作,目前还没经历过。技术方向上,有PC和服务器的硬件制造、网络安全、数通、企业级的IT设备、存储、虚拟化、超融合、云计算等等,工作经历长短不一。但在每个岗位时都会以专业的态度把本职工作做好。这一点很重要,后面会展开谈。接下来是20年的成长历程。第一步:看山是山,看水是水。这里借用了佛教禅宗的说法。为什么用这种说法?因为在工作后的一至三年,通常先照猫画虎学会工作内容。然后是在工作中学习,再不断积累经验,然后才能成为一名合格的工程师。某些岗位一年即可,少数岗位可能要三年左右。剩下的就是重复性的工作。第二步:看山不是山,看水不是水。如果我们积累了基本的工作经验,再继续干下去,表面的工作往往已经掌握,接下来就是工作中的细节,会不断的积累,遇到越来越多的困难,解决越来越多的麻烦,处理越来越多的难题。在这个过程中,我们就不断积累了经验,接下来发现熟能生巧。三年以后工作熟悉了,绝大部分人会产生职业倦怠。我当年也是跟普通人一样,因为都是普通劳动者。有些人3~5年期间就开始换工作。第三步:看山还是山,看水还是水。随着经验的不断积累和不同岗位之间所学知识的融会贯通,如果我们能不断的去提升自己,能够做到主动学习,并坚持下去,在某一个时间点,我们就会有所突破,有所感悟。一旦达到了这个突破点,就可以将自身的经验融会贯通并串联起来。此时会形成自己的独立认知,同时思想自成一套体系。这时就可以利用这套体系向各个技术方向去发展,并能做到主动选择自己未来的发展方向。刚刚群里问我们能否一劳永逸的认定方向?通常这种问题指的“认定方向”,不是一个具体的技术类别的方向,而是认定了我们要在技术领域成为专家,就专心去发展,在现实中具体工作涉及的技术领域也可能要不断的变换,就如我之前的工作经历一样。后面会给大家逐渐展开。个人的提升路径,这里以我所在的售后行业为例,其他行业的从业者大家可以做个参考。一般在第一年,做到初级工程师,主要是打杂的,做些初级工作,然后跟着前辈学习。中级工程师一般就可以独立干工作了,基本独当一面,某个项目交给你,基本可以去独立完成,或者带一些初级工程师做帮手。而高级工程师可以独立做规划、项目实施、做一些比较复杂的项目,可以带着一些中级和初级工程师一起完成工作。专家级工程师负责干什么?干最难的工作,一般是救火队的角色,哪里有问题解决不了,就去哪里。哪里的工作领导最不放心,就派专家工程师去哪里。最后这个业内专家的层次属于比喻,目前我还没到这个层次。图例中蓝色的部分,是我目前已经经历的阶段,黑色的是还没走到的。所谓业内专家,一般是快退休之前,可以不用干一线的工作了,更多是指导年轻人改善自己的不足。有些人退休后也会参加一些项目评审,项目验收等工作。我们做项目时也遇到过这种老专家。如果希望成为这种专家,退休后还能发挥余热,无疑是工程师方向一个很好的终点。二、持续二十年的晋级之路接下来看看我这20年的路,希望给大家一个借鉴,同时回应刚才的问题,就是我在刚开始工作时是怎么做的。我的前10年工作经历:绝大部分人的工作历程是第一年熟悉工作,接下来两年重复第一年的工作,接下来第三年,如果换了工作,就又重复之前的熟悉新工作的历程。有些人可能三年换一个,反复换了很多工作,有些人可能一两年就换工作,那就连熟悉工作都做不到。如果说三年到五年能坚持下来的话,那一般就对当前工作很熟悉了。那么我的历程是什么样?其实我的历程和左侧列出的差不多,平均下来大概也是2~3年换一次工作。但是现在回头去总结,当我突破了以后,我当年的做法跟其他的普通人有什么区别呢?只有一个很细微的差异,就是我是基于爱好来做的这份工作。当我上大学选择计算机专业的时候,是基于对计算机的热爱。毕业以后,选择进入这个行业,选择相关的岗位。计算机专业在当时是只有一个专业的,不分具体细分的方向。在我们毕业的时候,也就不分方向,有相关的岗位都可以应聘。在这种情况下,基于学习经验,以及自己的爱好就选择了相关岗位。我在工作中就会逐渐的学习、了解,积累经验。然后在第三年,绝大部分人厌倦的时候,我还能坚持下去,发现新的一些东西,探索一些别人不感兴趣的知识,积累属于自己的经验。因为这同时也是我的业余爱好。这样我就把爱好和工作经验结合到了一起。这段时间内我默默的积累了比别人更多的东西。当时自己是不太清楚的,只是觉得自己跟大家没什么区别。再看页面左侧,接下来别人可能重复了上两条,换个工作,继续重复。而我在换工作以后,还在这个行业里,但是可能从硬件测试到了软件测试,岗位的方向也从IT变成了网络,或者又变成了安全。回头来看,我不管干什么工作,毕竟还是在计算机这个大方向里,还是在摸索属于自己的路。在每隔几年换一份工作的经历当中,有一些是企业倒闭,不得不换,有一些是企业裁员,还有一些是遇到了不太匹配的岗位,知道在这种岗位干不久,那么我积累几年经验差不多了,工作该换就换。当时虽然比较年轻,但是我默默的积累的东西比普通人比同龄人要多一些。它的作用当时是看不出来的,在哪儿能看出来?我们接下来往下看。 前10年工作里有什么案例来说明这个作用呢?例如我在做硬件制造的时候,发现了有一次良品率太低,当然这个良品率低不是我发现的,是整个生产线都发现了。发现之后需要找出证据。当时我领着我们组员测了好久,然后最终找到了这个证据,找到了证据之后,发出了我们那个企业自成立以来第一次的停产提醒,也就是说,让生产线及时停产,冒着不能及时交货的损失风险停产排查。停产之后,依据我们学过的知识找出了证据,发现了一些重大缺陷。这些缺陷的发现,让我们及时避免了在交付之后造成更大的损失。也就是说这个工作并没有白做。当然这个案例的细节涉及我们业内的友商,所以在这里不谈具体细节。这是我毕业之后的第一个工作。也就是说,我毕业之后的第一个工作已经直接进入“地狱模式”,是经过地狱模式的训练走出来的。当时无论是工作强度、工作压力还是我面临的问题全都比较大。那么当我们经过了这个模式的锻炼,那接下来其他阶段的普通工作就不觉得难了。后续换了软件测试方面的工作,在实习阶段,找了产品的bug。这个说起来也很简单,刚入职的时候,熟悉工作阶段需要测试产品bug,目的是要运行一下测试用例。但是这个用例当我全部执行了以后,我就发现了几个产品的bug,这个bug持续了好多年。如果之前进来的这些年轻人,在我之前的前辈们,有人能把所有的用例执行一遍就能发现。这说明什么?这说明即使是我们年轻时候,我们也可以不唯上,不唯权威,不完全迷信我们的前辈,而是用我们自己的眼睛去发现问题。如果你形成了这种科学的习惯,那么就可能在自己的工作中做出一定的成绩。此时不必考虑前辈们是怎么执行的,大胆去做即可。接下来的案例,是在项目实施过程里,因为我经历过PC制造岗位,PC制造里面OEM软件的预装,是一个专门有部门负责的。这一项工作当时都是派人去系统厂商培训,比如装windows是派人去微软专门学习的,学习了之后,回来才能搞出一整条生产流程。后来我又换了工作,已经不做pc制造了,但是碰巧有一个项目要装上百台PC机。那最理想的状态是做成OEM制造的那种形式,否则我们自己一个个安装系统,产品的良品率就太低了,操作系统安装完后会发现各种各样的问题。当时我就把这个工作接下来了。接下来之后,因为之前做制造的时候,这个流程我只见过,但并不了解里面全部的流程。因为这个是一个商业机密,一般人家不公开。当时是windows 7出现以后,官方有一些给合作厂商的英文的OEM文档,可以随着某些版本公开。我是基于这个文档,把整个流程重建了一下,利用这种预装技术解决了这个问题。其实我们那个企业跟和PC的OEM产完全没有关系。说明在那种情况下我已经不自觉的在用以前的经验在补充当前的工作需求。但是那个时候还体会不是很深,因为还没达到突破阶段。接下来的案例就是项目实施里面有一个独立的虚拟化环境,需要从头创建,创建之后还要搬迁,还要扩容,还要一部分扩展成两个独立的部分,还有公有云运营等。那时虚拟化和云计算概念还没有完全流行,是2010年-2011年左右。当时我和同事,两个人从零开始摸索创建虚拟化环境,并且摸索了如何进行搬迁,扩容改造等。我们从零开始一直到能随意的去安装、改造、调试。从这里开始,我们就把这套流程打通了,后来也带给我现在的工作很大的帮助。接下来看一下我在第10年到第15年的经历。这里左侧的所见所感就是常见的历程,一般在第10年到第15年里面持续循环,或者就放弃岗位了。比如转去管理方向,开始往上爬了。谁都知道,留在工程师岗位,可能前途不是那么好,赚钱也不多。那么就会逐渐往其他岗位转。留下来的觉得没有前途,有些人可能就学会摸鱼了,认为混到差不多退休就可以了。但是前些年还没有像现在这种裁员风暴或者是金融危机,大家还想不到会被裁员,只是觉得在企业可以一直混日子,可能有些企业会给自己养老。那个时候企业的待遇普遍也都不错,也还缺人。不过仍然还有极少数的人可能还会再继续前进,继续摸索一下新的技术。其实到第10年甚至15年,大家对自己的工作已经非常熟练了。这种情况下还能继续保持一个所谓赤子之心,或者说保持着像婴儿一样的这种好奇心,能继续探索的人实在是太少了,除非你有强烈的这种热爱。也就是说,对这行业有强烈的兴趣。我正好是这方面的人,为什么呢?其实说来简单,因为咱们的出身都很普通,家里没有太多的钱,有钱的人玩什么?可以玩赛车,可以玩飞机,可以玩很多就是机械类的东西,花很多钱的东西。上流社会可以养马去。但是我们那时买一个电脑就已经很不容易了。读了计算机专业买电脑是必须的,当时可能是花了不少钱买电脑,然后再去学习。我当年是从90年代末开始买的,正好赶上中国和国际互联网开始互联,从最早的电话线拨号上网开始,然后一直到宽带链路,然后一直到现在,我们可能千兆几千兆的光纤带宽都有了。最早可是64kbps,当时还使用调制解调器通过电话线拨号上网。当时是听声就知道我的调制解调器是否正常工作,而且带宽低,打开一个图片都要很久。当开始连入互联网,我们的机器就不是单机了,就打开了一个新世界的大门。2000年前后的年代是黑客精神最后一个大流行时期,讲究的是无私的分享。那个时候。知识分享的精神都很足,大家也在不断的去做各种交流,能有很多志同道合的网友。通过一个电脑能接触到全世界的人,能接触到很多科学方面的东西,这个带给我们的诱惑是很大的。如果没有这个渠道,我们作为一个普通人,没有钱也没有那个能力去走遍天下,读万卷书,行万里路。那么我们可能没有办法做到像现在这种工程师的岗位,或者说也难有现在这种开阔的眼界。在当时我们可能是领先普通人接触了广阔的世界,很多人已经在网络上开始逐渐的发挥自己的能力了。在第10年和第15年当中,因为我有当年的各种爱好,所以导致我干了现在的这种售后实施工作,从研发方向转过来了。转过来之后,这个工作从当时一直到现在干了10年。为什么持续了10年?(而且可能未来有机会,我还是想继续干下去。)因为在这个时候,我发现我之前积累的经验,终于找到了用武之地。而且我之前学过的所有经验,所有的岗位正好完美的匹配我当前岗位的需求。当前我干的工作内容越多,我以前的技能用的也就越多。最后我可以拿我自己的经验反过来去弥补我当前岗位上的不足。我能做的事情,比公司给我的要求,比这个岗位给我的要求,甚至比客户给我要求还要多得多。那么我在这个岗位上做的,就可能是在一般人觉得这个岗位很辛苦的情况下,我做起来可能就不是那么辛苦。因为很多东西我已经积累好了,我掌握的一些经验可能比普通人多一些,那么做起来工作就容易一些。接下来,当熟悉工作之后,你会发现之前的工作经验全都能用的时候,就会觉得当年没有白学。从这里就能看出,当年坚持下来的意义所在。如果不想现在的工作白费,就一定要选好自己将来的路。将来的路怎么选?往后我继续给大家解释。在这个阶段如果你已经开始汇集了各方面经验,其实就说明你已经在找自己的方向了,接下来就是怎么样找到自己的方向。我看群里有些人说精力跟不上,对新知识的接受能力也没有那么好。我要说的就是我们应该学习像婴儿一样,保持好奇心,不断去探索。为什么这么说?借用小说《三体》的说法,我们人类在这个地球这个摇篮里面,仍然还是婴儿。如果一个文明想要真正成长壮大,一定要离开自己的星球走向宇宙,突破自己的星系。那么在这种观点下,我们当前的人类仍然是在婴儿时代,我们掌握的这些科技是远远不够的。如果我们要走向星际时代,还有很多路要走。我们这些人,其实只做了很浅显的一些基础的准备工作,有更多的工作,等着我们的子孙后代再继续进行。我们没有理由不给他们做出一个榜样!我们很多科学家,我们很多老院士可能是70~80岁了,还在努力的去燃烧自己,还在把自己的经验拿出来,分享给大家,然后积累新的经验,搞新的研究。我们不一定要做成科学家那种程度。但是我们作为一个工程师,为什么不能把自己的职业生命燃烧的更久一些?这种燃烧取决于我们能做哪些事情。我们的精力可能不足,我们的身体的状况可能不如以前那么好,但是我们可以在这种情况下降低一些工作强度,我们能发挥出来的方向,去发挥出我们的经验。这个时候就取决于我们怎么看。所以接下来我给咱们这些中年的工程师们也准备了一些内容。讲的是我到20年的时候,有了一些突破,这个突破之后是什么样的?给大家展示一条我走过的路,看看能否从中得到一些关于自己的指导。先说10-15年经验,售前、售后、项目经理等,需要什么技能都可以自己练习,自己的工作已经不是问题了,这种情况下,也不需要去考虑太多。我跟我们的年轻人一直在讲,如果我们希望公司留我们不裁掉,应该怎么办?企业如果给你1万块钱,你干的工作至少要能挣2~3万才可以,否则这个成本都不够。如果我们自己是老板,我们希望找什么样的工程师,我们愿意给他多少钱呢?这时需要换位思考,知道老板需要什么。也就是说我们给公司创造的价值,一定要远远大于我们拿到的工资,你才有不被裁掉的价值。否则连所谓的受剥削的价值都没有。有些人就觉得摸鱼划算,你给我多少钱,我就干多少事。你给我10000的钱,我干8000的事,你给我8000的钱,我干6000的事,这相当于占公司便宜了。但是我遇到过很多情况,客户说这个工作正常需要10000,我给你20000,你能不能干?这种可能都是常规手段解决不了的问题。那么这种摸鱼的工程师,一般会说这个我肯定干不了,因为没经验不敢承担。其实只有你平时需要什么练什么,不计报酬的提前练好了,你才是有准备的人。这种情况下让你干什么困难的工作,你就会说我已经准备好了。我给年轻人讲的另一个思路,就是没有金刚钻别揽瓷器活。这个疑难的工作如果你答应了去做,就一定要有绝对的把握去干,绝对不要打没有把握的仗。没有把握的情况下,仍然去答应人家,那绝对是自己挖坑往里跳。怎么样才能有把握?这就要平时在其他的工作里面,已经提前练好了,需要的时候就能上,这个钱就只能你挣。不管是我们私下帮人去处理的工作,还是说我们公司的任务,这个工作别人做不到,你能不能上,你能上就给你奖金了。为什么我之前说工作的时候要聚焦做最难的工作,这就是平时我在工作中已经积累好了,那当领导问这个最难的工作你能不能做的时候,那我就义不容辞,直接去做了。既然我干了这个工作,基本对我来说应该是轻车熟路了,就可以顺利解决问题。或者说即使我不熟,我也知道怎么解决,我可以一步步的在可控范围内把它尽量做到最好。有时是没有最佳选择,谁上去干这工作就需要承担对应的风险,我们有能力的情况下,该上就上,当仁不让。如果你能这么做的话,你觉得领导会不会看重你?你觉得如果裁员的时候还有没有你的份?如果你被裁了,你会不会担心找不到工作呢?每个人有自己的路,大家可以在走自己的路的时候,可以想一想我说的话。当然我分享的是我自己的路,而不是通用的万能的经验。所以每个人听到我的经验之后,建议大家按照自己的想法去选自己的路。接下来是了解产品在全生命周期以内的使用。如果我们的工作都不能干满五年,很多IT产品,例如华为的一些服务器,存储等产品,它的正常生命周期是五年到10年。这种情况一般五年左右,就能见到一轮生命周期,10年左右,就能见到两轮的生命周期。这种时候,如果我们和客户不断的保持联系,就能知道在全生命周期下他能经常遇到什么问题。如果经过两轮了,那有些问题就轻车熟路了。我的经验就是经过这几轮之后,平时常见的问题能总结到80%,此时我们只需要用20%的精力就能覆盖80%常见的问题,剩下那20%可能需要成体系的去处理。我们只要覆盖这80%就能应付绝大部分的场景。在用户端,我们这种经验带来的就是不一样的体验。第三点就是在工作中积累各种细节,将已有经验反馈给用户。我将别的用户的经验积累了到下一个用户,同时会把我的最佳实践不断的去完善。咱们华为有一个最佳实践的场景,很多产品里面都有,在最佳实践里面会推荐特定场景下建议你应该怎么做,这是比较好的。我作为一个工程师,在这么多年的积累中,会进一步完善它。这个最佳实践是厂商推荐的一个通用的思路,而我基于不同的用户,能总结出自己的最佳实践。针对特定的用户进行优化。通常这个优化后的最佳实践它的范围更窄,适用性更窄,但是它的效果也更好。然后当积累达到一定程度的时候,再去解决客户的问题,就可以做到一句话即可解决问题。比如说我们很多情况下搭一套超融合,搭一套虚拟化这类复杂的系统。搭完之后,甚至初始用户会要求派人驻场来解决日常问题。但是到后来驻场这个话可能就没人提了,就是因为但凡客户问到常见的问题,我基本上能做到一句话解决问题,直接告诉客户,请帮我去确认系统的几个状态,然后可以根据情况直接告诉你这个问题的原因是什么,应该怎么做,思路是什么,在运维过程中应该怎么办等等。然后按照我说的做,只要操作一下问题立刻解决,完全不需要一个专人在现场去处理,也完全不需要天天找400。这是我们工程师的价值逐渐的在体现出来。我们10年8年的积累,这个时候价值就出来了。接下来就是我们开始具备系统的整体的架构思维。既然能一句话解决客户的问题,那说明整套系统架构都在我脑子里了。无论客户想怎么变怎么改,我都是一个系统化的思维来应对。这里拿维修电脑举个例子,可能有些人修电脑,有一个独特的修复系统的经验,重装系统还有一个独特的经验,他会记很多这种经验,记录在本子上,然后遇到了问题就去查这个小本子。他会认为这个经验是我自己独家的,我绝不告诉别人。通常我和这类工程师聊天时,我会直接提醒他,如果你本身只有半瓶水的情况下,你就不要敝帚自珍,把这种自己的点滴积累当做多么了不得的秘诀。因为道理很简单,如果别的工程师和他是同样层次的技术能力,他能总结出来,别人难道总结不出来?所以在这种情况下,他自己珍藏的这些东西只能对技术不如自己的人保密,比他强的人可能经验更丰富,花些时间也可以独立总结出这类秘诀来。如果我总结出成体系的经验后,去处理疑难问题的时候,我是成体系的,我一定会找出它的原理是什么,解决思路是什么,一旦处理问题,不管现象怎么变,我都能基于原理,把问题给解决掉,而不受限于具体方法。那类工程师的方法就像走路一样,方向不同,处理方法就有很多不同。而我就直接基于终点的情况从原理上找到最佳的路径。两种思路的成本和代价也完全不一样,这两种工程师的思维方式和得到的收获也完全不一样。大家可以自己看一下想要做什么样的工程师。最后就是具备规划能力。在很多项目里,最初可能复杂的项目必须由厂商进行规划。如果我们有了自己独立的成体系的思维,我们的规划已经可以在厂商的最佳实践上面进一步优化,这种规划可能优于厂商的通用规划。我们在某些项目里和厂商一起做规划的情况下,我们会给厂商提建议,基于这个客户,建议进行对应优化,或者做一些改进。把我们的能力反馈给厂商,反馈给客户,争取达到更好的实践效果。所以刚才提到我在JDC社区里提了一些产品的日常调研,还有产品的改进的建议,大家明白为什么了?因为我们在长期的工作中,已经积累出了一些自己的经验,我们就能把客户的一些需求和痛点,通过向研发团队的反馈来解决掉,回过头来直接满足用户的需求。这就是我们的切入点。这种提建议,或者是反馈,并不是无的放矢,而是我们基于已有的积累来提的。这是我们一线工程师的价值。从工作的第10~15年开始,在公司里面凡是有公开的讲解、答辩等,我都要做一件事,就是一定要让领导们和同事们知道,我们15年到20年经验的工程师和3~5年经验的工程师有什么差别?同时也是提醒我们的企业,一线工程师是对项目了解最多、最贴近用户、最了解真实需求的人。那么当我们了解到实际的需求,就能真正的了解用户的情况,也就能真正满足用户的需求。这里有个比较极端的案例。我只说大致情况,涉及一些客户的具体细节就不谈了。就是某一个项目,当时可能项目快丢掉了。当时我是作为一线工程师,基于对客户真正需求的了解,基于对所有的产品,包括咱们的,包括友商的,所有的了解,当时通过自己的努力,这个项目最后又拿回来了。当然这不完全是我自己干的,是配合着销售完成的。当时销售人员根本接触不到所有的信息,而客户的领导们是在我眼前聊相关情况的。我当时知道客户的需求和痛点,所以就针对这些痛点说了几句建议,把自己对现场情况的了解结合自身经验反馈给客户。当时领导们就明确了自身的需求,然后再去咨询各方面,发现跟我说的一致。当时我自然而然的就做到了引导客户需求。虽然这个案例是一个偶然事件,但在那以后,我发现一线工程师的价值远远不只是干活那么简单。因为在我们这种体系内,做实施的售后工程师,往往是接触客户最多的,其他的包括售前、销售等人员接触的最终客户不是特别多的。一线工程师往往能拿到一手信息。如果及时反馈,大家一起来满足客户需求,往往能真正的解决客户的痛点。它的效果远远比咱们按部就班的去做销售要强得多。第二点,也是我的经验,就是在一线项目实施过程中需要实事求是的去处理问题。如果我们做到了,我们就能迅速提升客户的信任度,这是非常重要的。如果售后的服务不到位,比如说400处理速度慢了,客户会不满;产品有bug影响业务,客户也会不满;实施有问题业务不稳定,客户还会不满。但是只要我们一线工程师在现场,遇到了问题,就可以直接告诉客户,有问题我们就能处理,而且有厂商的体系支持。那么客户的所有不满都会被咱们工程师带来的情绪价值给抹平。只要我们能处理掉问题,客户就不担心。只要我们工程师在这里,客户就可以放心使用这些系统。有些客户会问,你这个系统实施完了这么复杂,将来运维怎么办?我总结出来经验之后,就会告诉客户,这个系统的维护是分三层,第一层是客户管理员了解管理员指南里边的基本操作。通常都非常简单。售后有整套体系,客户有问题可以找集成商,再加上我们售后工程师,可以随时给客户进行支持。如果是部件问题、故障件更换以及更复杂的问题需要研发处理,可以去找400做售后支持。售后按照同层次成体系进行支持,就像打仗一样,靠体系去弥补某一层次的不足,然后靠体系去支撑全生命周期产品的售后。这样才能达到产品规划中的稳定性和可靠性。如果我们能达到调动体系支撑客户的程度,客户的满意度和对系统的放心程度是绝对不一样的。接下来是积累到10年经验以后,我们会发现些额外的经验,它带来的附加价值远远大于3-5年。因为很多公司招聘售后工程师,通常认为性价比最好的工作时间就是3~5年。因为这个时间对工作都已经很熟练了,将来可能会换个工作继续干。那在下一家公司就直接达到了成熟的程度,此时大家会觉得这种人的性价比是很高的。但是作为一个老工程师,我也给很多企业提醒一下,我们一些年纪更大的具备10年,甚至20年经验的工程师,我们如果做好了积累,做好了突破,就能发掘出更多的附加价值。此时能做到的效果就远远大于一个普通3-5年经验的工程师。也就是说,这种时候我们的工作已经不只是基于工程师视角,而是可能基于项目经理的思路、基于系统规划者的思路、甚至是基于客户运维组织者的思路去帮助客户赋能,从而达到客户需要的效果。那么10年以上的工程师,需要的是经过各种锻炼的,如果一直过平静日子,那技术的价值一般是没有提升的,这种工程师即使工作很多年,其经验及能力和3~5年时没有区别,竞争力也远远不如3~5年的工程师,因为二者的能力是一样的,但是老工程师的性价比通常比较差了。这也是中年危机的由来。如果说我们不能突破,没有更多的富余的价值,我们把自己的性价比降低了,那在这个适者生存的环境下,在经济下行的趋势中,我们就没有竞争力。接下来看一下我的突破第15年到第20年,很多人到这个时间就该转岗了,因为中年危机的到来。 35岁、40岁以上危机更大,身体也不行了,那么改变发展方向,售前售后什么都开始转了。有些开始搞钱,有些开始图利,有些开始考虑地位。少数失业的就去做保安,保洁这种工作了。还有些直接就进入体制内躺平,逐渐学会摸鱼,只有极少数继续前进。我是属于继续前进的那种,因为我连摸鱼的资格都没有。这种时候,每个人经验都不一样。我是在第15~20年,因为工作的历练,我们这个行业工作时往往是一个人去干活,一个人就要兼项目经理、负责现场协调,很多东西都要兼职去做。那么时间长了,复杂的工作干得多了,某一天我就发现自己有所突破了。这种突破,就像群里说的是境界的提升。这种境界的提升怎么比喻?我借用弘一法师的一句话,这个境界就叫华枝春满,天心月圆。什么意思?为什么说是一个境界?以前换工作比较频繁时,我觉得我干了很多不同的工作,如果现在我们去一些互联网大厂,去讲这些工作经验,人家的背景调查就会问你,为什么隔几年换个工作,是否不能安心做当前的工作呢?但是现在我就会告诉面试官,那些经历都是为了突破在做准备。好比当天全黑,什么也看不清的时候,你会觉得黑暗里什么都没有。而当天上突然一轮明月出来照耀地下,如同白昼,当看到一切都特别分明的时候,你会发现周围全是树,树上全是花,花落之后全是果子。也就是说,之前干过的所有的分支工作,都是开出的花,最后终于还会结果的。一旦到了这种境界,把什么都看清了,就会有感悟,就会有突破。所以每个人的经验是不一样的,我是碰巧遇到了这种情况。之前所有的工作经验,这个时候境界就叫百川汇集,奔腾入海。也就是说,我已经是一个河或者是海,我可以把我以前的经验都汇集到一起,不分彼此。那么这个时候看山是山,看水还是水,但是这个时候我在山水之间来去自由。无论是在这个行业,还是在其他行业,当我有了突破以后,境界是完全不同的。那么在这种情况下,无论干什么,我都不会再给自己限制了。大家记住,在这种情况下,你不要把自己限制为一个工程师的角色。假如我们能做的远远超出一个工程师,我们能适应的岗位就宽得多了,这是我们能力决定的,而不是过往的经历决定的,不要困在过往的经历里。这个时候我们可以怎么办?重新出发,从头学习,融合所有的知识,提升事业。此时再学习事半功倍,境界不同学的东西也不同,能达到的效果也完全不同。接下来就是我在工作里的案例首先是全生命周期思路,现在无论是做规划、售前、实施、售后、运维,包括扩容、升级,还有老产品的下线换代,我们都已经可以基于工程师的角度,为客户总结出完善的经验来。在面对客户时,这一套东西如果客户不知道怎么做,我们可以直接送他一个规划服务,送他一个咨询服务。如果有这个能力,这些工程师能不能转去做咨询呢?大家自己应该心里有底。然后前进方向遇到火坑,我已经可以做救火队,我已经可以将有些坑填平,然后继续前进了。当然,凡是遇到这种熔岩深坑,仍然要躲开它。填不平的坑,不要跳,要果断的躲开。在我们年轻时候,得到的一些经验或者是别人教导是告诉我们有坑,不要跳,直接躲开。但是总要有人去填平一些坑,去解决一些疑难问题,去继续前进。当我们积累到这种程度,有这个经验,当我们的公司需要我们工作时,绝对是义不容辞,该上就上。这个时候如果还不上,就像我后面说的,人生已经走到半路,即将告别这个行业,这个时候我们再做不出成绩来,似乎这个能力就白白浪费了。既然有能力,还是能发挥出就发挥出来。如果在这个行业发挥不出来,就在别的行业发挥出来。我们总不能让自己的人生交上白卷。接下来,项目遇到疑难的管理问题难以推进怎么办?这个案例是也是一个现成案例。当时集成商和客户都没有专业的人。我到现场作为硬件的供应商的工程师过去的,现场还有软件供应商的工程师,其他都是各自的厂商,但是现场没有人管怎么办?那就利用自己的这种项目管理经验,当时和软件的工程师,两个人聊了一下,把最佳实践沟通好了。因为大家基本上都是这个行业的,我的最佳实践也包含了他的内容,他的最佳实践也都能和我对接。我们一起把行业最佳实践对接了一下,就在没有任何专业的人以集成商身份进行指导的情况下,我们自行把这套项目就给直接推进并完成了,最后的验收也没有任何问题。因为我们是按标准的项目交付来做的,客户按任何标准来验收都没有问题。一直到最近听说现场后来管理有点乱,有些连线乱掉了。但是因为当时做了足够的双冗余,这套系统建成,现在大概也有好多年了。一直在稳定的运行,没有出大的问题。这就说明我们的价值能体现在项目中。另外,产品功能如果不能满足客户需求怎么办?我们提个建议改进了再继续实施。现在我实施的所有产品,之前全部都提过建议,很多建议去年提的,今年已经落实了。这一方面呢也非常感谢华为。接下来是在第15年到第20年里边的价值提升。在这个阶段里,对自身负责的技术方向,我们有了深刻的理解。在不同的层面,可以协助公司做好工作,可以拿我们自己的经历弥补公司的不足,以及业内的常见问题。包括有一些实施过程中遇到实现不了的困难情况。我们能不能自己去弥补一下,然后让项目顺利推进,也给客户带来更大的附加价值。最后,持续的一线工作让我们能了解更多新产品新思路,当我们给客户介绍产品时,已经不是单纯展示产品能满足你的某个需求的层次了,而是如果客户的需求不太成熟或者超出了产品设计思路的情况下,我们会结合产品的设计思路,跟客户宣传我们的产品体系目的是什么?能达到什么效果?能怎么样能使IT系统更完善,怎么能解决客户的痛点,应该以什么样的思路来处理IT系统,而不仅仅是依靠某些功能点去做选择。因为有些功能可能是客户不需要的。当我们把这套体系描述清楚以后,往往会引导客户按照体系来执行,也就是按照产品设计的思路来执行,额外的一些功能,就可以直接给pass掉。这种情况下就能帮助我们的销售迅速的扭转一些销售时的不利局面。当我们更了解客户需求的时候,我们可以引导客户需求。当然前提是基于我们的实际经验,基于科学的原理,而不是说基于卖产品的思维,不是我卖什么引导什么,而是基于客户真正需要什么,我引导什么。接下来就是协调厂商的体系,为客户提供服务。我们在现场是能听到炮火声音的指挥官,那就可以帮助用户来解决实际问题。做技术专家就是我的路,我给大家总结一下。如果咱们想做技术专家,就必须实事求是,以科学为依据。只有这样,你才能获得各方的信任,包括客户,包括你的企业,包括领导,还有同事们。因为按这个角度做,就不会出错。任何不尊重科学规律的行为,最终都会受到科学规律的惩罚。无论是谁,无论是我方、敌方、友方。另外想做技术专家,我们自己必须不忘初心、不计名利、甘于寂寞。作为一个专家,一旦你说谎,做了违背自己良心和道德的事,某一次被人发现了,这个权威性就没有了,就当不成专家了,所以一定要爱惜自己的羽毛。最后就是说一下发展方向,咱们售后工程师有些善于沟通的,这些人可能是拿工程师作为跳板,他可能沟通擅长的转去销售岗了,有些喜欢转售前,还有一些就是愿意管理的,转领导岗位。还有一些不太明确的,就是换其他技术无关的岗位。像我这种善于与机器打交道的,适合继续做售后。如果是以工程师岗位当跳板的人,我建议你也是干一行爱一行,把当前工作做好。在未来转了行以后,你的经验绝对是优于其他人。现在踏踏实实积累的经验都是你的加分项。如果当前这种经验积累,只是当做镀金,只是一个过场,不踏实工作积累经验,最后一定会自食其果。人生的选择就是名和利的均衡,确定要名还是要利。像我这种属于名和利都不重要,生活平平淡淡才最重要。那么工作和家庭,既然选择了平淡工作和家庭就要均衡,一方面专心工作,但也要兼顾一下家里。虽然现在很多人要奋斗,在奋斗的时候可能顾不上家,但是在我们有条件的时候,还是要照顾好家人。每个人有不同的选择,这个不强求。现在和未来怎么均衡?有些情况下我们找的工作,是为了现在赚钱够多。有些时候我们的工作,是为了未来在积累。还有一些工作是为了梦想不计成本的投入,但是不一定有回报。怎么选?仍然看自己。左转和右转就是有些时候我们的选择左转也行,右转也行。但我要说的就是每个人都有自己的路,每个人做了选择之后,都要承担相应的后果,自己的路怎么选择?还是自己决定。坚持工作和自己创业的平衡。有人问了这个运维应该怎么做?一、你能不能坚持当前的工作?你的坚持能不能发挥出自己的效果?能发挥出来,要不要做,这都可以选择。自己创业或者自己转行,你有没有这个能力,是不是做好了准备?当我们不限于工程师思维的时候,我们其实也是可以具备创业的力的。这要看你自己有没有这个能力。三、未来二十年的人生展望接下来看看我们未来20年的人生展望。首先就是我们的工作生涯怎么走。如果我们能看到未来的趋势,比如说我现在这个行业,能看到未来的趋势,我一定会分析现在还能干什么,我当前的工作还能干多久?我如果还想继续留下承担这种工程师岗位,发挥自己的效果,哪些工作我还能干?需要什么认证?需要什么能力?我就要提前学习。等于是提前锁定未来的方向,提前学习,提前准备。当你为下一个工作做好准备,那个工作到来的时候,只有你准备好了才能胜任。公司如果重新再招一个人,肯定是很难的。而用我们老人,就是轻车熟路,完全不一样了。这样可以通过找一个方向续几年,再找一个方向又续几年。比如我们现在40多了,续一续50多岁,60岁就不用想再续当前岗位了,那个时候应该就不一样了,可能翻开了人生新的篇章。升天之法。什么叫升天之法?干不了,就该离开了,该留就留,该走就走。为什么说峰回路转前面风景更好呢?就是说如果我们不干这一行了,我们不会被锁死在现有的经验上面。如果你真有突破,是不受限制的。我们时刻为失业做好准备的情况下,我们应该了解当离开这个岗位,还有没有别的方法把我们的技术变现,把我们的能力变现。如果你有这个能力,那绝对饿不死。更重要的是,人到中年不要被自己的历史和经验困在我们当前的人生里,如果困住了,你就再也没法进步了。只有脱离舒适区,不断的努力保持着一丝好奇心,你才能不断的进步。接下来就是面向未来,适应市场。因为现在的这个环境就这样,没办法,适者生存。那么当积累经验不受限制的时候,我们能把自己的技能变现,我们的未来不一定比现在差。最后就是天下没有不散的筵席。即使再好的岗位,现在如果不是在国企,不做那些终极躺平的岗位,如果企业倒闭了,我们干的再好可能也要走。也就是说,没有任何一个岗位能永远持续下去,也不用奢望我们一辈子干到老,就是时刻做好准备应对工作变动,随时可以找下一份工作,心里不慌就可以了。当我们有工作干的时候,努力干,当公司还存在的时候,尽力的为公司做好服务,公司也会好好对待我们。如果企业不好好对待你,那就果断转向。这里借用一下小说《三体》的一些名言。第一个就是:大多数人,到死都没有向尘世之外瞥一眼。这就是被困住的典型现象。我们人生在世,可以做的事有非常多。无论我们在人世间有多宏大的成就,在面对宇宙的时候,也是无比的渺小。如果我们的未来真是星辰大海,那么我们现在的内斗和内卷就毫无意义。不用说面对星辰大海,如果是第三次世界大战明天爆发,我们今天的内卷就完全没有意义,我们的人生就全部都要变了。所以大家还是要想一想我们的境界,我们的眼光到底要看多远。能看多远,取决于你的人生。我们的人生一般都提长度还是宽度。但是我给大家的提醒就是:除了长度、宽度,你还有高度、深度、厚度和广度。每一个维度都有不同的方法可以做事,都有不同的方向可以扩展。我们不要把自己人生限制死,被经验限制死,也不要把自己的工作限制死。四、人生半路的风景及思考接下来就是人生的半路的风景。只有年轻人会觉得未来还是无限的,觉得还有机会。那么到了人生的半路怎么办?我们已经到了人生的半路了,按年纪来讲,现在40多岁,政策活到80岁就不容易了。那么40多是人生的半路,工作20年也是人生工作经历的半路,再过20年,该退休了。这种时候我觉得还是要看看风景,思考一下未来。为什么呢?因为这种时候,我们如果还不知道人生最终的方向,可能你就觉得未来毫无意义,就觉得非常灰暗。实际上,人生终极大事无非生死。因为我们到了40多的时候,已经逐渐进入告别时代,我们的祖父母一代已经逐渐的离去了,父母一代也逐渐的进入告别时间。当我们经历了这么多的生死,甚至身边的一些同学、同事都开始英年早逝了,这种情况下,你就会发现人生终极大事,真是只有生死而已。年轻人不要光觉得未来还有机会,我可以无限制的去挥霍,早一点找到自己的路是更好的选择。我们的人生没有目的怎么办?那你就去找吧!借用佛教禅宗的说法,如果你找不到意义,你就去找你的意义。如果你没有动力,那你就看有什么让你有动力的事情,努力的去学习,或者努力的去换个有动力的工作。此时我们会是完全不一样的状态。如果我不喜欢自己的工作,那你喜欢的是什么?你有没有能力去找到它,你有没有能力去积累新一轮的人生经验?这就是我给一些被困住的人的一个解答,就是不要受自身限制。很多人都说中年危机,其实有可能它不只是一个危机的问题,它的根源可能就是我们没有找到属于自己的路。你找到自己的路,一路走下去就行了。历史上有多少人就是一路走下去,走到最后的。而那些科学家们,那些文学家们,历史上的其他大家们都是这样。如果我们对自己没有限制,我们的人生一定也是没有限制的,想做什么都可以。而且现在是世易时移,飞速发展的年代。科技的发展,包括AI的发展,最后就会造成又一个适者生存的竞争环境。我们能不能提升自己的境界,能不能在AI到来的时候保持自己的初心,保持自己的方向,做好属于自己的一份工作?这也是每个人都要思考的。五、传说、故事及神话最后,传说故事及神话。为什么要这么说?就是我干过的一些工作,现在讲给年轻人可能都已经变成了一些江湖上的传说。大家都会说你这个人,过去干过什么的很厉害,很牛。那么时间长了,我们退休以后,这些事就可以讲给后代了,此时绝大部分人都有子孙了,可以给我们的子孙后代讲讲。这种时候,我们是不是能给他们讲一下当初工作的时候,曾经做出了哪些成就,是不是让他们为我们而骄傲、而自豪,能不能把我们的经验传下去?如果我们离开后,我们的故事讲了很久,我们的后代再对他的后代讲我们的故事,那这个时候是不是就能变成神话?因为我们不在人世了,那些已经不是一个人的经历了,就开始变成神话了。接下来就是,我从哪里来到哪里去的问题。因为我喜欢电脑,所以这些是一些额外爱好,现在这里列出的是20年前的一些经历。是可以公开讲的,现在的一些业余爱好,不太方便给大家公开讲。当年咱们学电脑的时候,中过熊猫烧香病毒,中过CIH病毒,年纪大一些的,咱们内行的人都知道这两个病毒是什么情况。中了病毒之后能全身而退的,可以说是不多。当年这两个病毒我全都中过,最后的结局是全身而退,把这两个病毒干掉了。同时自己的系统没被破坏,数据全在,没有被毁。那么如果我有这个能力,大家想一想,我最近的这20年我还可以干什么事?我是不是能干更多?当然确实我也干了一些事情,只不过不适合公开说。当初的欢乐时光病毒,这个病毒当年也是很厉害的一个脚本病毒。当年我也是想方设法战胜过它的。旁观神仙打架,就是当年的一些误杀事件,当年的某些杀毒软件误杀微软的系统组件,我在官方通报出来之前已经做出结论了。这个全是爱好导致的。那么我们每个人能力越大,责任越大。我们如果想留下神话,就一定要问自己几个问题。第一,你有没有帮助过他人?后面的对号是我给自己打的评价。第二,有没有做过对人民有益的事?不是针对一个人,而是针对绝大多数人。第三,就是做到现在你是不是无怨无悔?第四,就是你能不能在历史上留下名字?我可以说,我足够做到历史留名。当然这是匿名的,我没有以公开的身份做过留名的事,而是以匿名的身份做的,但是足以留名。这个也不适合在这个公开场合下公开讲。——————————Q&A环节——————————Q:现在技术方向很多,如何做好选择?这是很多人面临的问题。其实咱们这个工程师问出这个问题,我就可以那个看出咱们这个工程师很有可能一是比较年轻,二是可能是受过我们的职业培训。现在我们的职业培训有一个问题就是分的比较细,因为岗位也比较细。这就导致了现在分了更多的岗位,什么前台后台、中台、售前、售后等,然后代码又分了很多种开发方向。但是你要知道,当年我们只有一个计算机专业,“计算机科学与技术”只有这么一个专业,软件、硬件、代码、前端、后端,所有的东西都属于它,在学校里都要学一个基础。当然学校里学的远远不够,经验主要还是靠工作中积累的。那么我们积累的时候,作为一个学习计算机专业的人,我会不会说我只能写前端,写不了后端,我只能做数通,我不能做IT?我经常遇到有人说,我是负责写代码的,你能不能把数据库给我配置好,能不能把操作系统给我装好?提醒大家一下,我们这一批人在上大学的时候,马化腾还在写代码,雷军还在做wps,大家还都是技术员。那个时候我们要想用一台计算机怎么办?从硬件组装开始学习,从基础原理开始学习。自己去搞硬件,自己去做兼容,自己去搞操作系统,自己去搞驱动,然后自己搭建环境再去写代码,最后编译。那个时候我们有人会问,我应该选择什么方向吗?在我们问出这个问题的情况下,咱们的思维就已经被锁死了,对吧?三体人还没来,智子还没到,我们为什么自己把自己的思想锁死呢?不要纠结那些东西,喜欢什么学什么,你学习的任何一个方向,将来都可以成为你的助力。如果你真要问将来应该怎么发展,去看看市场需要什么岗位,看看你想做什么工作,看看现在的岗位都在招什么,然后基于他要求的能力,你去提前学习掌握就可以了,对吧? JDC公开课系列活动主讲人正在火热招募中,快来分享你的专业,与JDC一起成为数字化传播大使,还能赢取丰厚智豆奖励,快点击链接报名吧!