×

页面升级中敬请期待

> 首页 > 关于优炫 > 公司动态 > 公司新闻 >

公司新闻

Company News

数据架构变革,为什么Lakehouse需要Data Fabric

2023-09-01 16:49:00

2023-09-01 16:49:00

在大模型引爆的热潮中,今年6月底,Snowflake和Databricks围绕着AI打起了擂台,AI给数据技术带来了变革。如果将目光向前推一个月,就会发现另一场数据架构变革的浪潮正轰轰烈烈展开。 

在5月份的连续三周内,IBM、HPE、微软三巨头争相布局Data Fabric+Lakehouse,先后发布新的Data Fabric产品,或更新现有的Data Fabric产品,增加新的Lakehouse功能。

DataFabric+Lakehouse为数据架构带来怎样的变革?为何大家争相布局?能为企业带来怎样的价值?企业将如何应对新技术?本文将尝试解答。

 

巨头、新贵争相布局Data Fabric+Lakehouse

 

2020年Databricks提出Lakehouse概念,即我们所说的湖仓一体架构,背后基本思想是将数据仓库和数据湖的优势结合,将数据仓库的高性能及管理能力与数据湖的灵活性融合起来,取长补短。如今Lakehouse和另一个新颖的Data Fabric结合起来,巨头和新贵纷纷布局Data Fabric+Lakehouse,掀起了一场新的数据架构变革热潮。

在5月9日举行的THINK大会上,IBM发布了watsonx.data lakehouse,拉开了今年数据架构变革的序幕。watsonx.data 与IBM云数据中心(IBM Cloud Pak for Data)紧密相连,后者更多扮演Data Fabric的角色,内置治理、集成、隐私和安全功能。

一周后,HPE于5月16日发布了Data Fabric的升级版Ezmeral。更新后的数据架构基于MapR技术,具有S3、Posix和Kafka存储功能,并支持Iceberg和Delta。最大的特点是,HPE将Ezmeral Data Fabric与其新的统一分析(Unified Analytics)相连接。

此后一周,微软于5月23日首次推出了Microsoft Fabric。该产品与OneLake(其Lakehouse产品的新名称)一起,旨在为企业的所有数据管理、分析和机器学习需求提供一站式服务。

数据连接提供商 CData Software的联合创始人兼首席运营官Manish Patel说,IBM、HPE和微软都发布了类似的DataFabric和Lakehouse,表明市场需求强劲,这也是数据架构和使用模式演变的部分结果。

 

DataFabric能为Lakehouse带来什么价值?

 

Data Fabric是一个比较新的技术名词,在过去几年中,Data Fabric作为一种在数据孤岛不断增长的情况下重新集中管理数据的架构元素越来越受欢迎。我们先来看看权威机构对Data Fabric的定义:

Forrester将Data Fabric定义为是一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。

Gartner将Data Fabric定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台(包括混合云和多云)的设计、部署和使用,从而实现灵活的数据交付。

随着数字化转型不断推进,企业数据爆发式增长,数据分散在不同的系统中,容易形成数据孤岛,多云、混合云、异构数据源为数据统一管理、数据分析带来了挑战,限制了企业数据驱动策略的落地,无法充分挖掘数据价值为业务服务。

一方面,Data Fabric+Lakehouse既可以集成和分析海量大数据集,又能够建立统一的数据治理,数据目录,统一控制不同数据源的访问权限,统一管理混合云环境。此外,Lakehouse与Data Fabric的结合帮助用户全面整合了从数据源到数据分析以及数据价值实现的完整链路,为用户建立统一治理、流批一体、湖仓一体的数据智能平台,实现海量数据实时分析,同时又能打破数据孤岛,帮助企业实现跨业务数据的即时访问,实现业务之间有效协作,提升数据生产力,加速业务价值变现,支撑企业数字化转型。

 

企业如何面对数据架构变革?

 

企业的数据基础设施的建设并不相同,有的可能没有使用数据仓库,有的可能使用了数据仓库、大数据平台、数据湖中的一种或多种,该如何拥抱新的数据技术呢?

不同规模的企业对数据基础设施的需求会有所不同,比如一些中小企业,数据量和任务复杂度不高,可能采用MPP数仓就可以满足业务需求;一些大型企业数据量比较大并且任务复杂度很高,可能会采用Hadoop+MPP数仓的架构来满足业务需求;还有一些大型央国企子公司很多,需要多数据湖架构,一般会采用基于Data Fabric的多湖多租户的湖仓一体架构才能满足集团统一管控的需求。

实际上,对于新技术的应用本质上都是出于降本增效考虑,在国产化浪潮下,不同企业对新技术的应用也有差异,需要区别对待。

大型国央企对数据架构升级有不同的需求,需要更灵活的产品组合能力。FastData实时智能湖仓平台基于现代数据栈MDS架构设计,可以通过可拆可合的方式非常灵活地适应不同业务场景,对于还没有大数据平台的企业,可以通过FastData构建一站式数据集成、开发、分析、治理、湖仓一体平台;对于大数据平台相对完整的企业,可以通过拆分各个套件的方式提升原有大数据平台的能力,这样可以更好地帮助企业处理数据,沉淀数据资产。

 

小结:Lakehouse的未来

 

数据技术的发展日新月异,DataFabric和Lakehouse结合方便集成和分析大数据集,同时不放弃混合云环境中的集中控制和安全性,这有助于企业沉淀数据资产以及挖掘数据价值。

Lakehouse在国内外都朝着oneLake的方向发展,帮助企业实现数据统一管理和服务,与DataFabric的结合响应了这一趋势。随着新技术不断出现,Lakehouse跟机器学习/大模型场景的结合也值得关注。

从Gartner发布的技术曲线上可以看出,Lakehouse还处在技术创新阶段,目前已经被大家广泛关注,技术也开始逐步成型。如何实现统一的技术标准,如何解决目前存在的一些技术问题,以及如何帮助客户实现业务价值,是当前需要积极解决的问题。