×

页面升级中敬请期待

> 首页 > 关于优炫 > 公司动态 > 公司新闻 >

公司新闻

Company News

对话北大邹磊:要以发展的眼光看图数据库的挑战和机遇

2023-10-20 13:26:00

2023-10-20 13:26:00

以下文章来源于ITPUB ,作者任朝阳

 
ITPUB.

ITPUB官方账户,分享社区技术干货内容,了解社区最新动态,参与社区精彩活动。

 

海量数据爆发下如何挖掘数据价值成为每个企业的必修课,图数据库因在处理复杂关系方面有独特的优势,可以挖掘关系背后隐藏的数据价值,越来越受到关注。

本文为《图数据库选型指南》系列选题文章之一,对话一线厂商、用户和学术界专家,揭开图数据库这一新型数据库的神秘面纱。探求图数据库技术发展的重点和难点,整理行业落地应用的实践,供业内参考。

(北京大学王选计算机所教授 邹磊)

图数据库当前处于早期发展阶段,很多方面还没有形成标准和共识。什么样的场景会用到图数据库?图数据库在数据栈中处于什么样的位置?图数据库的发展有哪些挑战和机遇?学术界和产业界需要怎样联合创新推动图数据库发展?本期我们邀请到了北京大学邹磊教授,就相关问题进行了交流。作为学术界的专家,他指出,图数据库市场的规模正在快速增长,但相较于一些传统数据库领域,它仍然可以被视为蓝海市场。当前图数据库确实机遇与挑战并存,因为处于起步阶段,众多厂商野蛮生长,机会很多。不过也面临多方面挑战:一是图数据行业相关标准还未健全,厂商之间存在多方面差异,导致图数据的交换困难,还未做到互联互通;二是图数据库的应用场景需要充分挖掘,需要找准图数据库的切入点,并且充分发挥图数据库在关联分析等方面的优势;三是将现有数据转化为图数据存在一定的技术挑战,工程量也较大。他认为应以发展的眼光看待图数据库的问题,当前学术界和工业界的关注点并不一样,但产学研用需要联合创新才能更好发展。

 

读博期间转向图数据库领域,产学研用需联合创新发展

ITPUB:您是如何加入图数据库领域的?现在的发展符合您之前的预期吗?

邹磊:我是在华中科技大学计算机学院读的本科和博士,本科和研究生阶段对数据库内核逐渐感兴趣,到了博士阶段选择了图数据库方向。

我们学习的时候还没有大数据这个说法,但是在大三学习数据库相关课程的时候,我就对数据管理和数据库非常感兴趣。很重要的一部分原因,我认为是给我上数据库课程的老师,在谈到数据库新发展的时候,激发了我浓厚的兴趣。

后来本科保研的时候,我比较明确地选择了研究数据库方向的卢炎生教授。期间参加了实验室的一个数据库方向的学校教学信息化项目,包括全校的排课、选课和一整套功能的学校教务管理系统。主要是我们几个刚刚保研的研究生一起做这个项目。我记得很清楚,为了提高系统的性能,我们几个经常一起讨论怎么进行数据库表的设计和查询语句如何优化。在这个项目的进行过程中,我其实对数据库的内核开始越来越有兴趣,因为项目中我们只能利用现有数据库系统,做一些应用层的优化的事情,所以查询优化一直是我后面研究中最为有兴趣的事情,一直至今。

具体到博士阶段如何选题做图数据库,这有段过程。十到二十年前和数据相关的最火的关键词是“数据挖掘”,所以我一开始是做数据挖掘中频繁模式挖掘工作的,包括频繁项集、频繁子树和频繁子图的挖掘,我都看了大量的相关文献,也发表了我最初的几篇论文。后来,我看到一篇发表在SIGMOD 2004年的gIndex的论文,是用频繁子图来构建图数据库索引的工作,这篇论文影响了我的研究路线,此后我彻底地转到图数据库领域。我的博士学位论文就是《图数据库中子图查询方法研究》,并获得了2009年的中国计算机学会的优秀博士论文提名奖。

我读博士期间,图数据库的概念尚未成熟,比如我们当时在SIGMOD、VLDB投论文需要指明关键词的时候,找不到非常适合的主题。当时通常会选择 “Semi-structure(半结构化)数据处理”、“索引与查询优化”这些主题词。但是大家可以看看最近几年SIGMOD,VLDB的论文,图数据库和图数据管理相关论文数量可以说几乎能占到论文综述的一半。所以,您问我现在的发展是否符合预期,作为一位一直从事该领域研究的研究者而言,非常欣慰图数据库的研究能这样快速发展,也觉得自己非常幸运地能一直从事图数据库的研究。

ITPUB:在图数据库领域,学术界和工业界的关注点有什么不同吗?您觉得产学研用怎样才能联合创新推动图数据库更好地发展?

邹磊:学术界和工业界关注点确实存在差异:学术界更关注核心、关键的单点技术的深挖和攻关;而工业界受市场驱动更关注图数据库产品的工程化和应用,需要考虑用户应用的方方面面,也更关注实际应用所产出的效益。不过就图数据库领域而言,工业界和学术界很早就进行联合,像蚂蚁、阿里、腾讯、华为等这些大厂都有自己的研究部门,而且和科研院所都建立了非常紧密的合作,或者是将高校的科研成果进行市场转化,在很多领域的成功应用中,都可以见到此类案例。我们北大团队和华为建立了联合实验室,近期面向华为的数据通讯产品,我们研发用于下一代路由器等嵌入式通讯设备上的图数据库产品,用于快速定位和分析网络故障,巩固了我国数据通信产品在国际上的技术竞争优势。因此,产学研用的联合已经被证明是非常有效地发展模式,对领域技术创新、成果落地以及合作各方都有促进作用。

谈应用场景:要以发展的眼光看图数据库的应用问题

ITPUB:图数据库的应用场景有哪些?有专家指出图数据库现在大多应用于边缘业务,属于探索创新的应用。是这样吗?

邹磊:我觉得您讲的,和您刚才引述的专家的提法是有道理的。但是对于图数据库,我们得以发展的眼光来看待这个问题。

首先,我们要明确图数据库与传统的关系型数据库(如Oracle)在应用场景上是有较大差异。关系型数据库的应用场景很明确,而目前图数据库的应用场景需要结合行业特点和客户痛点问题进行挖掘和探索,各个行业应用场景都不相同,如在金融行业,图数据库的应用场景就包括风控、反洗钱、客户关系挖掘等等。但是这并不意味着图数据库就只能应用到非核心业务,比如很多工业互联网企业希望借助知识图谱的知识分析、知识溯源能力提升生产过程中的实时质量管控以及发生故障时快速进行故障根因分析等,而这些业务都是这些企业的核心业务。我们通常讲应用驱动技术创新,其实技术创新又可以带来新的核心应用,所以两者是相辅相成的。

所以我始终认为相关企业和学术界,图数据库的研究者、厂商及用户单位,需要经常一起坐下来进行交流,我觉得IT168 & ITPUB这样平台可以为我们提供更多这样的机会。

ITPUB:现在图数据库在哪些行业有落地?哪些行业应用得比较深入?

邹磊:图数据库已经在许多行业落地,包括金融、医疗、零售、物流等。在这些行业中,图数据库的应用深入程度因情境而异,目前图数据库在金融领域的反欺诈、公安的线索挖掘、医疗领域的疾病关联分析以及零售领域的推荐系统等方面应用得比较深入。其实我们关注这些图数据库的落地场景,可以发现它们都是以数据之间的深层次、复杂关联为基础的,所以拥有这样特征的行业更加适合图数据库的落地。

ITPUB:不同行业对图数据库需求有哪些共性和差异?企业在图数据库选型时比较关注哪些因素?

邹磊:不同行业对图数据库的需求都是有共性和差异的。共性需求包括高性能、可扩展性、安全性和易用性。企业在选型时通常关注数据量、查询复杂性、实时性要求以及成本等因素。此外,不同行业的特定需求也会影响选型,例如,金融领域更关注反欺诈能力,而医疗领域可能更关注数据隐私和合规性。

谈技术发展:标准化、性能、功能是图数据库研究重点

ITPUB:图数据库当下的研究重点有哪些?

邹磊:关于这问题,我谈一下我个人的看法:

首先是图数据库的标准化问题,作为数据库系统,标准化的数据模型和查询语言是构建良好技术生态的前提;同时标准化也为学术界的研究提供了一个统一的尺子,可以鼓励更多的研究者专注最核心的技术问题,而不用担心自己研究的技术如何在工业界中被使用;在这一点上,以RDF数据模型为代表的图数据库要比属性图有着明显的优势,因为RDF图数据库完全采用了W3C在语义网协议栈中定义的数据、查询标准。大家可以仔细看一下学术界图数据库研究,尤其是查询优化和分布式图数据库管理的工作,大部分都是基于RDF图数据模型,因为这样大家的工作有个统一比较的标准。属性图最近在标准化方面,也有非常大的进展,包括ISO定义GQL语言标准,我们团队参与制定的国家标准计划《大数据 图数据库系统技术要求》也在做这样的事情,另外LDBC提供了标准的图数据库的测试集,也是试图为图数据库提供一个标准化的评测环境。

其次是图数据库查询优化问题,如前所述,查询优化始终是数据库系统的核心,这同样适用于图数据库。虽然大量研究论文和技术报告都在关注讨论这个问题,但是关于系统化地分析与讨论图数据库查询优化的关键点、技术路线、以及与传统数据库查询优化引擎的共同点和区别等方面的工作是比较缺乏的。我们在2011年的VLDB中提出以“子图匹配”为核心的图查询引擎构建方法,后来在我们的gStore图数据库系统中,一直就采用这样的技术路线,查询效果还是不错的。我们最近正在整理这方面一整套的查询优化机制的工作,后面再和大家一起分享。

ITPUB:图数据库的发展经历了哪些阶段?现在处于什么发展阶段?您觉得图数据库经历了哪几个重要发展节点(转折点)?

邹磊:我觉得图数据库目前为止应该经历了三个阶段。

第一阶段是“非原生图数据库”阶段,这一阶段是随着关联分析、路径检索需求的不断出现,传统的关系型数据库为了满足海量数据关联分析性能要求,在关系型数据库之上增加了“逻辑图模型”而出现的支持图查询的“图数据库”,如Oracle中也支持图查询与图分析;

第二阶段是“原生图数据库”阶段,这一阶段是随着NoSQL数据库的兴起,以图模型作为数据模型的原生图数据库系统逐渐发展起来,如Neo4j,gStore等;

第三阶段是“多模的HTAP图数据库”,结合图计算引擎,实现“存算一体”的、支持事务分析混合处理的图数据库系统。目前各个阶段都有一些产品,也都在各自不断发展,所以严格意义来说这几个阶段我认为没有太明显的递进关系,更多的可能是不同发展方向。

ITPUB:如果按照数据模型划分,图数据库有RDF图和属性图。据悉,学术界RDF居多,而工业界属性图居多。为什么会是这样的局面?RDF和属性图有什么样的差异?

邹磊:RDF图和属性图是目前图数据库的两大主流的数据模型,两者各有差异,各有优势。从我个人认知角度来讲,我觉得RDF的优势在于足够简单,所有数据都是三元组形式,而且是无模式(schema-free)的数据建模,灵活性高,也有统一的查询语言SPARQL,而属性图的优势在于可以通过边属性描述更多的信息,更加紧凑。至于为什么会出现学术界RDF居多,工业界属性图居多这个局面,我个人觉得更多的还是学术界可能更偏向于标准化的东西,RDF和SPARQL也是W3C在主推,但是这个局面也不是绝对的,目前也有不少的学术界团队在研究属性图模型,也有企业在研究RDF模型,大家都在相互转化,我们团队目前就在研究既支持RDF模型,又支持属性图模型的多模型图数据库系统。

ITPUB:图数据库的技术路线有哪些?您看好哪种技术路线?

邹磊:图数据库目前正处于快速发展阶段,目前从技术发展方向角度来说,我觉得主要有两个发展方向:一是性能提升,通过研究新的数据存储模式、数据压缩技术及查询优化算法等,不断提升图数据库的存储能力和查询性能;二是拓展功能,在图数据库原有功能基础上,拓展新的功能,提升图数据库的能力,如图计算、图分析能力,混合事务分析能力等。

谈市场:图数据库市场仍然是蓝海市场,国内外齐头并进

ITPUB:现代数据栈正在不断完善更新,在数据库层面不断有新的数据库出现,图数据库、时序数据库,还有更新的向量数据库,您觉得图数据库在整个数据库栈中处于什么位置?将扮演怎样的角色?

邹磊:技术的创新和发展是应用场景需求驱动的,随着数据规模越来越大,数据格式和种类越来越多,传统的数据库技术面临多方挑战,因而出现了图数据库、时序数据库、向量数据库等新的数据库形式,这同时也说明某一种技术并不能解决所有场景的问题,不同数据库技术针对不同的需求场景具有不同的优势。

至于图数据库而言,它的特点决定了它可以在两个方面扮演重要角色。一种是在数据融合方面。图数据存储结构,是用点和边来存储实体和关系,传统的业务应用系统需要开发接口进行信息集成。但如果把这些应用系统中的关系型数据转化为图数据,就可以将数据融合在一张大图中,从而可以为上层数据分析系统提供综合分析方面的支持。例如在公安系统在分析案情时,可能会用到户籍、交通、住宿等多方面的数据,这时图数据库就可以发挥优势,将这些数据进行融合。第二,图数据在关联关系的分析方面,尤其是复杂的多跳关系方面也可以扮演重要角色。以社交网络为例,分析某两个人之间是否存在某些隐含的关联关系,如果使用传统的关系型数据库,可能要做多个表的join连接操作,当关系复杂时查询非常困难,而图数据库可以轻松实现。

ITPUB:据您了解,图数据库市场有多大规模?现在是蓝海还是红海?

邹磊:图数据库市场的规模正在快速增长,但相较于一些传统数据库领域,它仍然可以被视为蓝海市场。

我觉得随着越来越多的企业认识到图数据库的价值,预计市场规模将继续扩大。前段时间刚好看到了一个国外权威机构发布的报告,预测全球图数据库市场规模将从2023年的29亿美元增长到2028年的73亿美元,复合年增长率为20.2%。不过,竞争也在加剧,因此厂商需要不断创新以脱颖而出。 

ITPUB:有人说现在图数据库虽然火热,但叫好不叫座,是这样吗?您怎么看图数据库的机遇与挑战?国内外有哪些共性和差异?

邹磊:我们认为叫座只是时间问题,当前国内外图数据库市场均处于起步阶段,近些年一直在保持快速增长。

首先,像金融、IT、电信等行业因为有大量数据、成熟的应用以及迫切的需求,  显露出了巨大的市场潜力并已经产生了显著的经济和社会效益;其次,整个社会对于图数据技术的认知也在逐渐扩大,因为基于实体和关系的图数据模型符合现实世界的抽象,相应的图分析方法也具有普适性,各行各业都可以自主挖掘应用场景,未来想象空间很大;再者,大模型等相关技术发展产生的影响,会进一步促进图数据库的普及和应用,大模型技术将自然语言处理能力大幅提升,对于非结构化数据转化为图数据有很大增强,两者在技术上具有互补性,可以相互促进。

当前图数据库确实机遇与挑战并存,因为处于起步阶段,众多厂商野蛮生长,机会很多。不过也面临多方面挑战:一是图数据行业相关标准还未健全,厂商之间存在多方面差异,导致图数据的交换困难,还未做到互联互通;二是图数据库的应用场景需要充分挖掘,需要找准图数据库的切入点,并且充分发挥图数据库在关联分析等方面的优势;三是将现有数据转化为图数据存在一定的技术挑战,工程量也较大。

在图数据库领域,国内外科研领域都取得很多优秀成果,市场上也都涌现出很多开源的、商业的优秀产品,属于齐头并进的形势。比如我们自己研发的基于RDF的gStore图数据库系统,也赢得了国内外同行的认可。

总结与展望 :图数据库独有的三大特性和未来技术发展趋势

ITPUB:您觉得属于图数据库独有的特性,有别于其他数据库(如关系、时序、文档等)的特性有哪些?(列举您认为重要的前三个)

邹磊:我觉得主要有三个方面的特性。

一是查询性能,这里指的是数据关联查询的性能,关系型数据库通过大量join操作实现数据关联查询,搜索空间巨大,而图数据库通过图的搜索算法(如深度优先、广度优先)可以在较小的范围内进行快速检索,关联查询性能具有巨大优势;

二是语义表达,在传统数据库中(如关系型数据库)要查询两个数据之间可能存在的关联关系,需要穷举所有的可能性,相关查询语句非常复杂,而基于图数据库特有的路径检索或者属性路径方法,可以方便表达查询语义;

三是结构特性,基于点和边的图模式结构的图数据库,边的“稀疏性”结构特性也可以反映一些数据的“隐含”信息,如在社交网络中,与某人相关联的边越多,越能说明这个人是“社交达人”,而这种数据的“稀疏”特性在关系型数据库中很难发现和处理。

ITPUB:未来,图数据库有哪些重要的技术发展趋势?

邹磊:我认为首先是HTAP和流批一体技术,HTAP就是事务分析混合型图数据库,既可以应用于事务型数据库场景,也可以应用于分析型数据库场景,而流批一体是指可以对数据进行批处理,即处理静态的、历史的数据集,也可以对数据进行流处理,即实时地处理一些数据流,实时产生结果。以满足更多场景需求。

然后是分布式技术图数据库技术,当前图数据的规模越来越多,已经达到千亿、万亿的处理需求,而且还会继续增长。学术界和工业界已经构建了不少分布式图数据管理系统,但分布式技术仍然是一个重要的发展趋势。

再者,图数据库在一些特定应用场景和运行环境下的技术研究也是一个重要趋势。例如动态图环境、低资源嵌入式环境、软硬件协同、时序数据等等,都面临不断增长的新需求,相应地对技术发展提出要求。


嘉宾介绍:邹磊,北京大学王选计算机所教授,大数据分析与应用技术国家工程实验室(北京大学)知识集成和智能决策中心主任。邹磊教授的研究包括图数据库,知识图谱,尤其是基于图的知识图谱数据管理,面向知识图谱的自然语言问答,图分析与机器学习,以及大数据系统;他已经发表了50余篇计算机领域的顶级国际学术期刊和会议(CCF-A)上,包括SIGMOD, VLDB, ICDE, TODS, TKDE, VLDB Journal等。邹磊教授曾获得中国自然科学基金(NSFC)优秀青年基金,国家重点研发计划项目的资助。另外,还获得了英国皇家学会的牛顿高级访问学者基金的资助。2017年获得教育部自然科学二等奖(获奖项目“大规模图结构数据管理”,排名第一)。