【干货分享】金融行业私有云与大模型-华为JDC

一、分享主题：本文主要围绕金融行业的传统虚拟化技术与超融合的发展、以及私有云选择的基本情况进行探讨。此外，还介绍了对大模型的选择和使用情况做了介绍。二、虚拟化技术的发展：虚拟化的发展从2008年开始逐渐使用，最初就是从VMware正式使用虚拟化，从ESX3.5一直到4.0、5.0、5.1、然后5.5、6.5~7.0到现在的8.0。虽然期间也经历过多次收购，现在也被Broadcom收购了，还是属于蛮持久的一个虚拟化软件产品。我也几乎参与了所有的升级和运维的工作，功能当然也越来越强大和丰富，然后能提供虚拟机的配置方面也越来越高。当然也遇到了一些BUG或者一些IT方面的故障，硬件软件方面的各种问题，同时也积累了不少经验。之后出现一个Nutanix超融合的国外品牌，但是VMware有的公司可能都已经用到一定规模，再开始用一个新的软件可能就没有像VMware那么大量的使用，还处于探索的期间，可之后就有要求需要逐步国产化的要求，后续就基本就不太能再使用了。之后国产品牌出现了叫SmartX的超融合产品，这和Nutanix有点类似，后面就开始选用了，部分来替代VMware的虚拟化功能。然后也直接用到至今，它使用上也与VMware也有点相似，但是主要还是超融合功能，使用它自己软件定义的的存储。期间我们还用过一些Citrix虚拟化应用，而对于服务器虚拟化Citrix Xenserver也测试过，但是后面觉得生态也比较少，所以也没正式使用。Citrix主要还是用虚拟应用和虚拟桌面方面使用。但是前几年也退出了中国的业务，后面我们也减少使用就逐渐选择别的产品，比如华为云桌面替代。Nutanix当时也是初创公司，投资很大，但后面国内市场不行了后面也退出中国市场了。SmartX刚才讲过了，就是替代Nunix和VMware，现在目前感觉发展也是挺好。使用的场景也不光是使用Intel，使用海光、华为ARM的CPU也可以，这是它的优势所在。Hyper-V也是微软windows server里的虚拟化，我了解行业里面有些银行也部分使用，但运行业务的重要性或许不太高，青云QingCloud也听说过一些银行的使用。一段时间Openstack比较火的时候，我们对Easystack也尝试使用了一部分，但是后面也没推广。可能这个期间，是SmartX出现的前期，我们才开始研究这方面，了解到工行可能Openstack的方面用的比较多的。还有后面出现的CNware虚拟化产品我们也是测试过，试过以后就觉得虽然功能很多模仿VMware，但认为这个产品还有待发展，也没考虑使用。所以我们之后就开始研究并部署私有云了，就没考虑继续使用类似Easystack等产品，当然还有可能其他产品我们也没去接触到。我们使用的虚拟化产品，主要是看它的是否稳定和安全，一方面内外部的条件，然后还有科技的发展，服务器网络的发展，比如后续网络网络速度的提升，普遍开始使用了万兆和25Gb，让我们的超融合、分布式平台推广使用的越来越多，导致了我们的一些规划使用上都有所变化。还有一些政策性的要求，比如国产化方面，对我们选型也有一些指导性意见。还有就是使用体验，用起来觉得什么产品设计的好，设计的差，一使用就知道了，所以使用体验也很重要。比较好的产品，确实用户用下来就比较适应，菜单和设计，引导的步骤，都很人性化让人操作起来很舒适，设计的不怎么好的软件用起来就会很难受。虚拟化的优势就是主要还是我觉得是集群搭建后，在基础功能实现以后，我们用户就自行在环境上搭建所需要的资源池、文件夹虚拟机一起如何连存储，最后正式使用，一切内容可以自己来规划。就相当于给一个毛坯房，其他自己只要想好需要放什么都可以，功能都有，自己就可以投入一些网络和计算、存储资源开始使用。软件产品就基本对口虚拟化产品厂商的售后就行，联系这个厂商开Case，直接厂商可以沟通去回答问题或者解决问题。然后扩容也比较简单。比如说加入一个新的节点安装好系统再加入集群也就比较容易。对于超分情况，当然也可能无限地在服务器上增加虚拟机，但是至少超分了较多，实际用量少其实也没关系也能运行，未必真的把宿主机用满，至少没有很大的限制，升级版本也比较简单，就下载安装包，按照步骤一步步升级就可以了。但是纯粹虚拟化的缺点就是缺少用户使用和申请的角度视图，对我们用户角度的视图可能都是运维角度，然后装一个操作系统给用户使用，模板可能前期安装点软件的方式。但是如果是虚拟机申请量比较多的话，可能工作量就比较大。所以缺少还需要在虚拟化上再加一层，完成一些流程方面的事情。即需要在中间建一层云管平台来设计和优化我们的一些申请的步骤。所以就是虚拟化的所欠缺的，所以在之前虽然没使用VMware的vCloud等云管产品，我们也还是对虚拟化选择了一个云管系统去接管我们的VMware虚拟化平台，那时其实各种云管平台都比较流行并逐渐的推广了。三、向私有云的转变：然而我们后面为什么又逐渐向私有云的转变了呢？考虑用私有云一方面是政策要求，对我们金融行业的信息技术有十三五发展期规划的政策要求，需要积极开展要云计算的架构规划，推动新技术的应用，促进金融创新发展，稳步推进系统架构和云计算应用的研究。还有每年都可能都出一些规划的对金融行业的云应用的研究和发展有提供了一些指导意见，还要考虑数据的安全性，金融行业的重要核心和业务系统都不能储存在公有云上。所以可能对于个人和部分小中小企业来说，业务部署在公有云上，可以相对节省成本。而一些重要金融行业的机构只能选择用私有云，需要自建去本地部署。所以我们选择云厂商可能选择国内最大的几个厂商，阿里云、华为云、腾讯云等。私有云特点，我们使用了包括腾讯、阿里、华为这几家厂商都有所感触。就会把虚拟化云管网络和安全用户容器都集中在就一个portal一个门户里面进行运维管理，然后中间再分出不同的子产品，就像我们现在登录华为云，上面就一个个产品都给你分类分好了，要申请什么都到某个平台里面，就是点击需要多少资源，经过流程购买或审批，自动部署出来分配。一些私有云内的定制化开发，帮用户从申请到拿到整个应用服务或容器、服务器资源等整个闭环的流程给那个就做出来，方便用户后面的申请，但是缺点就是因为把这么多东西放在一个门户里面，各个子产品也不是由一个人轻而易举做出来的，而是厂商下各个团队各自开发的，例如网络的产品，由厂商下的网络相关部门的人去开发的，存储的产品有专门负责存储组件的部门去开发。所以做在整个云环境里面，不同产品之间也有涉及很多脚本互相交互的一些耦合性高的情况，出了问题还得云厂商找这个团队那个团队分别处理。当用户无法判断是什么问题的时候，可能找了这个团队，说不负责或者不了解，就让用户找另一个团队人员处理的情况，用户难以找到统一的人去协调处理，即便找到项目经理协调，项目经理也是无法准确找到，耗费时间，处理效率很低，就算知道处理方式，可能涉及几个产品的版本升级，还需安排变更窗口处理，把小问题扩大化。不像一个路由器升级，你传个文件便可升级，有些真正的操作系统，升级安装包双击一下，继续安装就可以了。所以一个大的云产品这个里面可能涉及一些刚刚开发改好的补丁包，然后涉及一个又一个写死的脚本，然后安装完也有可能代码设计考虑不周，导致后面这个产品升完级，另一个产品也出BUG了，又要达到某个等级。所以都要一步步来，云产品升级的时间就会很耗时，几乎每台主机都要依次进行，集群用的越大，耗时就越久。甚至1-2个通宵也有存在的情况。所以在这方面，我们就觉得这个问题痛点比较大。并且有些云厂商的私有云产品可能就在公有云上的基础改进，比如申请服务器代码上就可能作为售卖buy，因为只是公有云上售卖，但是代码移植过来依然不变，做了一些改变做成私有云，一些菜单也会存在一些公有云的痕迹，这方面的做法其实对用户来说不够负责和严肃，有种偷懒用模板的做法。然后私有云上资源使用和限制的情况也是比较有痛点的感受。在使用私有云后，我们发现由于云产品就是定死了分配比例，所以1:1还是1:2，分配后其实未必真的使用足，还能继续分配，虽然资源上看继续分配也没问题，但是实际软件控制了达到就无法分配，导致实际上资源使用远远大于原来的传统虚拟化，导致服务器数量大量增加，一般的公司可能承受不住这么大的数量，以及所需机房的空间和电量。传统虚拟化就算分配达到，但其实使用率很低，依然能够再次继续分配使用和运行，适当能够节约资源。在云上就不一样了，你分配超了就是超了，分配到了一定值就限制不能再增加了，导致资源其实是相对还是比较浪费的。加上后面作为独享的容器资源节点，容器里面还有分配超分比例的需求，比例1:1的话，可能导致分配给容器的Node分区资源其实也没用足，但根据需求分配的量大大需要增加。另外，私有云上自己能定义或者规划的地方，就就相比传统虚拟化平台的空间就比较少了，能自己修改，分组，规划和整理在设计初期厂商可能就缺乏考虑和设计，完全不像一个完善的产品。这是我分享的一些私有云的缺点。四、大模型的选择和使用：接下来讲讲我们大模型的选择和使用。然后大模型我们对GPU的选择其实和大部分公司都一样，从英伟达开始使用，然后再逐渐偏向一些国产化GPU。需求我们可能会看看华为昇腾还有海光DCU的一些产品。那么他们像英伟达有A100/V100/T4等，当然后面的一些新款H100/H800就逐渐就买不到或者不再买了。然后所放的服务器的CPU就基于Intel，通用性比较强，训练和推理其实都能用，也有偏重，主要资源投入在企业级大模型、智能语音以及生物识别等比较典型的行业应用。现在英伟达也不断出了很多新款的GPU产品，可能我们就现在就没有采购使用了，之前采购的也有用GPU虚拟化许可，就可以把GPU虚拟化了用的License，方便虚拟机分配，能在线迁移，不像直通那样换主机需要重新绑定直通显卡，运维更方便一些。然后华为昇腾后续就逐渐采购较多，主要是昇腾910B和310 Pro，一个用于训练一个用于推理，都是基于ARM的CPU，华为的出货还是挺多的。然后寒武纪和海光DCU也会考虑少量使用和测试。 GPU的困难点是什么呢？就是它的能耗大和占机房空间大。比如说像一台GPU服务器上插了八张卡，那么这个整个机柜可能会达到3~4KW以上甚至7~8KW，卡也分为集成在主板上（类似NVLINK）或者PCIE的，集成在主板上就是GPU之间有总线连起来，通讯带宽更大，而耗电量更高，可能机柜机器可能4U/6U或者8U的大小，然后电源也有10A的和16A的。在机柜上，你还得考虑整个PDU能提供多少功率，和有几个16A插口几个10A插口，16A太多也没意义，因为可能整个风冷机柜也就几千瓦，4KW-7KW左右的功率，勉强放一台两台也就够了，剩余多出来的PDU上电源接口也无法被使用空余出来导致浪费。然后还有就要考虑建造机房时，或者外面租赁机房的时候，要考虑整个机柜和机房的功率。如果是租赁机房，机柜功率如果真的超了，IDC的工作人员肯定提醒降低功率，就只能再把机器换下来，所以在用电方面要比较注意一点。还有可以逐渐考虑一些液冷的环境，散热和电量可以比风冷更有优势一些，可能达到20-30KW，多去各种展览看看样机。看一下液冷机房的机柜、服务器是怎么样子的，可以提供多少算力和用多少电力，在机房空间和散热也要比较注意，各个参数都得考虑平衡好，否则可能漏掉了短板的点。结语: 金融科技还在不断发展，我们既要积累前面的经验也要能够看到后面的发展，包括建设机房可能需要几年，可能建个3-4年以后某些技术就已经落后了，所以有时候稍微要看得远一点，知识也要不断的迭代更新，然后螺旋上升。也感谢大家观看我的分享，后面JDC论坛中多多互动。 JDC公开课系列活动主讲人正在火热招募中，快来分享你的专业，与JDC一起成为数字化传播大使，还能赢取丰厚智豆奖励，快点击链接报名吧！