企业对于数据湖的需求探讨
这几年不断在做着跟大数据相关的项目和业务,今天跟大家分享下我们了解到的企业对于数据湖的建设需求。
大家也都清楚,数据湖主要类型的数据包含结构化数据、文本文档(CSV、PDF、word、Excel...、图片、视频、语音、以及其它,企业的数据湖面临关键痛点问题也各不相同,有的是数据、业务可靠性低,无法满足业务需求,有的是数据存储成本高、计算资源消耗大,还有的是数据分散、ETL多,导致业务效率低,也有的事多种产品、平台,多种接口,业务适配工作量大甚至数据分析组件和架构老旧,与主流的技术脱节、现有设备老旧,算力和存储空间无法满足业务需求等等,问题都不是很相通。单纯从数据湖提高资源利用率的措施的角度来讲,有很多措施,比如提前规划好存储和计算资源,按固定的比例分配给各个部门/业务使用、以租户的方式分配存储和计算资源,及时回收闲置资源、存储和计算分离,按需扩展、考虑使用虚拟机/容器,实现资源灵活弹性使用都是根据不同的情况制定的措施。数据湖的建设和维护中,有很多降成本措施,今天主要跟大家分享分享这一点。
关于这个话题,结合最近的工作还是很有感触的,最近半年来,我们跟行业的伙伴一起建设了很多地方数据湖,这个过程也是比较吃力、痛苦。遇到了很多瓶颈问题也遇到了很多行业上的问题, 提到数据湖降低成本措施,我觉得首先我们得知道问题,那就是成本的增加究竟在哪里,也就是我们要首先识别问题才能知道解决什么问题。我觉得分享经验的伙伴们一定会提什么供电啊、能耗啊、平台的管理和数据的打通啊,或者说数据的治理、机房建设、土地的费用的人也一定大有人在,其实在我们实际做数据湖的经验来看,最主要的成本症结都不在这些层面。而是主要的成本其实主要是买存储设备、买软件、买服务器,当然,要达到运营状态,是的确需要建机房。数据湖项目建设期花费最大的还是买设备的支出。当然: 运营期数据湖的收入在存储上的收入也是其中一块核心收入,再就是数据湖的分析、应用的收入。所以,成本的开销主要在这里。数据湖的建设代价也很大,我们大致估算下,大数据时代我们么个人拥有的是TB级的数据,就是长期保存的TB级的数据;企业拥有长期保存的PB级的数据,一个城市就到了长期保存的EB级的数据。而且城市全时全域全量数据在规模上特别巨大,必须存算分离;热温冷数据必须分层存储。而数据湖是以节能和存储为优先的,所以我觉得解决问题的主要方案就在于存储这里。既然这么大代价购买设备,那设备不能不采,要想办法提升存储的安全、高校和低成本并且还要满足全时、全域、全量的温冷数据收储和流通。所以针对专家的问题有几下几点建议: 1. 存储的介质:推荐要使用蓝光存储技术,能够极大降低全社会的数据存储的成本,同时极大的降低数据存储的能耗,可以把数据存储分为磁盘存储和光盘存储做到光磁一体化。将短期用不到的数据放到光盘,经常使用的放到磁盘,磁盘因为访问速度快导致成本也变得很高,但是光盘正好相反。这样在存储这块,可以节约一些成本,但同时数据加工过程,会增加系统负担,导致成本增加,并有可能形成数据沼泽,给大家也汇报一组数据,我们跟伙伴一起在香港目前就实施了蓝光存储,所以在数据上也是看的到效率,存储密度上,现在一张100G的蓝光光盘相当于差不读20张DVD-5的存储。每12张蓝光光盘组成一个光盘匣,76个盘匣组成一个存储单元,一个47U单柜的存储容量可以达到1.64PB,这样一个高密度的存储方案就满足了我们对海量数据的存储需求。每一个机柜可以配1—3个光驱组,每组三个光驱,每个光驱两个激光头,单组光驱读写速度峰值与磁盘接近。并且蓝光存储柜支持集群,形成一个超大规模的存储平台,每个机柜待机功率只有7瓦,是磁存储的千分之三。我们测算1PB数据存储30年,蓝光存储是磁存储成本的6.5%。 2. 存储的智能化方面,建议集成AI的能力,承载整个数据全生命周期的智能化管理。华为在芯片方面国内顶尖企业,可以在存储端加入芯片,集成人工智能来进行数据的深度学习和探索。不断优化存储设备的性能。 存储速度也要提高 来应对海量数据爆炸式增长。通过分布式存储和磁盘存储算法的优化结合智能芯片进行提高他们的利用率,国家也在提倡上云用数赋智,所以完全可以把边缘存储数据也上云。这样人工智能技术下训练、数据建模发布给边缘存储。通过存储AI芯片不断强化学习来知道一些存储场景的实现、预测、推演。 3. 数据存储的融合,其实大家一直都在提多源数据的融合,这也是行业上比较难解决的疑难杂症,融合也是为了打通数据孤岛,把数据通过交换实现互通。实现多源、异构数据的融合。并对数据进行分门别类的存储、实现端到端、端到云的融合。响应不同的服务,这样存储能力的构建才会比较完善。 4. 提高算力实现大吞吐、随机读取,以前我跟国内存储的公司一起合作过,弄过基于文件模型的开源分布式文件系统,讲分布式文件系统的存储模型嫁接到对象存储模型。这样从key直接到value,无目录树查找损耗。基于纠删码技术的五副本容错能力提升到四副本的容错能力,出盘率也会上一个台阶。对分布式文件系统也不断优化,把模型由文件转对对象实现高扩展。 5. 最后一点说一个技术型的降低成本的办法就是数据压缩节省存储,对不同的数据进行有损压缩和无损压缩,这样的存储空间也会极大提升,节省了存储也就节省了大量的空间,也就使得更多的设备存储了更多的数据,提高存储的利用率。 大概就说这么多吧,篇幅的确有限制,至于什么机房建设的成本、供电啊这些我就不说了,因为虽然能降低小部分成本,但不是最要命的,我主要从存储的角度来分析。非常值得继续深挖和讨论。
感谢分享