随着数字经济加速推动了各个行业的数字化进程,以及5g商用所带来云计算、通信、大数据、人工智能等多项技术融合催生出更多的数据湖应用场景。idc预测,到2025年,中国大数据市场规模将达到250亿美金。作为重要的大数据技术,数据湖可以充分利用其保真、灵活、可拓展等特点,安全、高效、低成本的对数据进行存储、分析、应用,或将成为推进数字经济与实体经济融合的重要一环。
自2020年以来,数据湖技术成为了数据技术市场的一大热点。特别是2020全球疫情,把全世界深入推进到了数字经济时代,各类远程商业模式如雨后春笋般建立起来,企业急需将原有以数据库和数据仓库为主的结构化数据,与以移动互联网大数据为代表的非结构化数据,结合起来形成数据一盘棋,在统一存储、管理和分析的基础上实现灵活调用以及快速支撑业务创新,这带动了对数据湖产品需求的大幅提升以及要求下一代数据湖技术的支撑。
在计世资讯发布的《2020~2021中国数据湖市场现状与发展趋势研究报告》中,阿里云凭借出色的产品服务能力和市场以及战略能力而位居领导者象限。2020年10月,阿里云推出了业界首个云原生企业级数据湖方案;2021年9月,阿里云云原生企业级数据湖再次升级到3.0阶段,强调高效的数据流动和流通,将高性能ai计算与大数据分析相融合,帮助企业把数据用活,有效利用不同来源、规模巨大的数据,从中挖掘更多数据洞察和创造商业价值。
数据湖:大数据技术发展20年的成果
数据湖起源于大数据技术,是大数据技术近20年发展的成果。2001年gartner提出大数据的3v属性,标志着大数据时代的开始;2006年apache hadoop发布第一个版本,大数据技术时代拉开序幕,随后从2010年到2018年hive、flink、presto、spark、atlas、ranger等标志性大数据技术相继问世;而到了2020年,hudi、delta、iceberg三大开源数据湖引擎技术相继成熟,标志着大数据技术进入到了普惠期,数据湖从概念进入到了产品化阶段。
(大数据技术20年,来源:阿里云数据湖应用实践白皮书)
数据湖概念最早由开源智能商务软件pentaho公司创始人james dixon在2010年的一篇博客中提及,当时提到的概念是在一个大的数据湖中,数据以其自然的状态存储而不经任何处理,任何用户都可以到数据湖中根据自己的需要提取或使用数据。简单理解,数据湖对存取的数据没有格式类型的限制,数据产生后可按照数据的原始内容和属性,直接存储到数据湖,无需在数据上传之前对数据进行任何的结构化处理。
与数据仓库相比,数据湖以多种格式(结构化、半结构化、非结构化)存储海量数据,数据入湖简单、建设成本低,但数据体系松散、灵活度高,数据治理较为困难,数据在确定需要使用时才会被转换格式和进行处理。而作为企业级数据湖,既需要数据湖的灵活存储和低成本建设,又需要数据仓库那样面向企业级业务的严格数据处理和治理,还需要面向ai与大数据分析等新兴场景提供数据服务。
作为大数据技术近20年发展的成果,在2020全球数字化转型全面提速的前提下,云原生企业级数据湖已经呼之欲出。
云原生企业级数据湖3.0
去年10月阿里云宣布推出业内首个云原生企业级数据湖凯发k8官网下载的解决方案,该方案采用了存储计算分离架构,存储层基于阿里云对象存储oss构建,并与阿里云数据湖构建(data lake formation,简称dlf)、e-mapreduce(简称emr)、数据湖分析(data lake analytics 简称dla)、dataworks(简称dw)等计算引擎无缝对接,且兼容丰富的开源计算引擎生态,可满足大数据系统统一存储、海量规模的需求。
之所以称为企业级数据湖,最重要的是阿里云以对象存储 oss 为中心,面向企业生产业务,提供大规模、高可靠、高性能、高安全的统一存储架构。阿里云、aws等国内外云服务大厂,都提供了高度成熟的商用企业级云对象存储服务。以对象存储为基石,就能够实现融合并满足大数据与数据仓库需求的数据湖。
在阿里云对象存储oss的支持下,阿里云的数据湖产品经历了三代发展。在数据湖1.0时代,当时主流是早期的传统架构中,原始数据统一存放在hdfs系统上,引擎以hadoop和spark为主,受到开源软件本身能力的限制,无法满足企业用户在数据规模、存储成本、查询性能以及弹性计算架构升级等方面的需求,同时计算和存储耦合架构导致资源利用率低,必须计算存储一起扩容。而阿里云通过冷热分层的方式初步实现存算分离,对象存储对于文件数量、存储容量没有限制,极大突破了hdfs无法支撑大量小文件的困境。这一阶段,阿里云主要面向hadoop生态,利用对象存储的成本优化、可扩展性等能力解决问题。
数据湖1.0架构虽然一定程度上解决了成本优化和可扩展性的问题,但是用户仍然需要搭建和维护hdfs集群,同时用户业务和使用场景需要使用不同的计算引擎对已存储的数据进行分析与处理,从而满足多个不同应用、系统和部门使用和分析。数据湖2.0架构让用户不再需要搭建hdfs数据集群,同时数据湖可以直接接入业务生产中心,如业务系统中的原始数据、日志数据等,数据可通过互联网直接入湖,无需经过中间处理,提升业务效率。数据湖2.0架构进一步受益于阿里云对象存储自身的性能、可扩展性、成本优化、安全等能力的进一步增强,实现以对象存储为中心的数据的统一存储,同时满足生产业务的承载要求。
在数据湖2.0架构下虽然实现了数据的统一存储,但是用户仍然需要在计算侧进行自行搭建以实现元数据管理和协议转换,这给用户带来了运维复杂性,同时这部分的数据管理无法和对象存储在底层实现无缝融合,实现数据的统一管理。数据湖3.0架构下,提供了全兼容的hdfs服务化能力,用户不再需要搭建元数据管理集群,轻松实现自建hdfs向数据湖架构迁移;同时,原生具备多协议的接入能力及多种元数据的统一管理,实现hdfs与对象存储底层的无缝融合,让数据在多种生态间高效统一流入、管理、使用,帮助用户加速业务创新。
打造数字经济的“底座”
我国高度重视数字经济发展,企业数字化转型进程不断加快,数据已成为企业的核心资产,根据计世资讯统计数据显示,2020年我国数据总量将超过5zb,如何有效管理和使用指数级增长的数据是目前企业数字化转型过程中的重要工作之一。数据湖在处理企业的结构化、半结构化、非结构化数据工作方面展现出较强的竞争力,同时具有低成本、可拓展性强、灵活高效等特性,越来越多的企业选择数据湖作为企业数据存储与管理的凯发k8官网下载的解决方案。
(阿里云数据湖整体方案)
经过二十年的发展,阿里巴巴集团已经成为一个数字经济体,阿里巴巴集团首先是阿里云数据湖产品的最佳实践者,让阿里云的数据湖产品和方案得到有效的验证,阿里云的数据湖方案还支撑了在线教育、互联网广告、新媒体、网络游戏等行业用户在快速发展过程中的实际业务需求。目前,阿里云的数据湖方案可支持eb级别的数据存储与分析,存储超过十万database、一亿table以及十亿级别的partition,每天完成超过三十亿次的元数据服务请求,支持多个开源计算引擎以及多种云原生数仓引擎。阿里云原生数据湖可一站式实现湖存储、湖加速、湖管理、湖计算,帮助企业对数据进行深入挖掘与分析。
阿里云为流利说量身打造了数据湖凯发k8官网下载的解决方案,解决了流利说多种应用的各类数据的统一存储,帮助流利说构建数据规模高达上千亿的“中国人英语语音数据库”。使用阿里云构建的数据湖,可以充分发挥计算与解耦合架构的优点,结合阿里云ecs弹性实例和k8s,根据实际业务需求,动态扩展、缩减对应计算资源,无须按照业务峰值常驻计算资源,帮助流利说最大程度地优化成本。英语流利说cto胡哲人表示,英语流利说使用了阿里云oss对象存储构建数据湖,支撑千万级规模用户的使用,借助云计算与存储的弹性伸缩能力,让运维管理难度大幅度下降的同时,也给整体成本带来了有效的优化。
易点天下是一家以大数据、ai技术为驱动,为企业国际化提供智能营销服务的技术型公司。阿里云数据湖存储与计算解耦合的架构特点为易点天下提供了丰富灵活且高性价比的灵活处理模式,oss可支持丰富的计算引擎,通过结合使用emr和dla等,轻松支持易点天下每天20tb新增日志量、每天超100亿次的请求以及每小时3000万数据的清洗。易点天下cto王一舟表示,易点天下在选择阿里云之前曾经使用自建的数据集群凯发k8官网下载的解决方案,但却面临着自建数据集群运维成本高,弹性伸缩难的问题,同时由于数据类型复杂以及分布地区众多,数据的综合治理成本很高,阿里云的服务帮助易点天下很好地解决了以上的问题。
经过二十年的技术演进,阿里巴巴实现了统一存储的目标,以“盘古”系统为统一底座,通过标准化、服务化和开放化的方式建立了完整的存储产品和服务体系,统一服务内部和外部的客户。一方面,阿里云存储经过历年的阿里巴巴“双11”的锤炼,打造了满足大规模业务场景超高要求的技术竞争力和产品差异化能力;另一方面,阿里云存储不断向阿里云上的数百万客户学习业务架构和了解客户需求,不断精进存储技术和产品打磨。9月22日,阿里云宣布云存储服务全面升级,包括性能大幅提升300%、时延降低70%的essd企业级云盘,可兼容hdfs的数据湖存储oss,同时推出全新产品“云定义存储”(cloud defined storage,cds)。
总结而言:阿里云的数据湖技术经过了多年的发展和打磨,形成了基于对象存储oss的统一存储,通过云原生技术无缝对接阿里云生态多种计算、分析、处理等平台与工具,可以快速帮助企业搭建面向分析和大数据技术生态的数据湖,特别是满足企业基于数据湖打造机器学习能力,快速满足各类业务需求,帮助企业把数据用活,从数字化转型走向数智化大未来。