加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

国产数据库硬核技术又破纪录?

发布时间:2020-08-20 20:35:06 所属栏目:业界 来源:网络整理
导读:这是国际图数据非盈利组织针对国内的一款图数据库产品发布的一份专业报告,是备受关注的图数据库领域的权威基准测试报告。就是在这份报告,费马科技用数据证明:
副标题[/!--empirenews.page--]

国产数据库领域有人“破世界纪录”了 ,创纪录达7.6倍!

最近中国软件网注意到一份数据库前沿技术领域的测试报告——《TuGrpah基于LDBC-SNB的测试报告》。

这是国际图数据非盈利组织针对国内的一款图数据库产品发布的一份专业报告,是备受关注的图数据库领域的权威基准测试报告。

就是在这份报告,费马科技用数据证明:他们公司推出的图数据库产品——TuGraph,在严格准守LDBC-SNB规范中的测试中,比LDBC官网目前排名第一的图数据库产品要好得多。

报告结果显示,TuGraph的得分接近或超过5000。这一结果远高于目前LDBC-SNB已经公布的最高纪录(由Virtuoso保持),约为当前纪录的7.6倍。

国产数据库硬核技术又破纪录?

图1. 审计测试成功的声明页截图(含认证审计员,LDBC SNB任务组主任和费马科技CTO的签名)

数据库一直是我国IT核心技术中内心深处的痛。图数据库是数据库领域非常重要的一个发展方向,也是很多新兴数据库厂商希望能成为独角兽的土壤。正是图数据库、正是这个结果,引起了中国软件网的关注。

关于LDBC与SNB测试

关联数据基准委员会(LDBC,Linked Data Benchmark Council)是由厂商成员、非盈利组织成员、个人成员共同组成的,汇聚了各界图数据领域的学者,共同推进图数据发展。就像TPC(Transaction Processing Performance Council,事务处理性能委员会)是制定商务应用基准程序的标准规范、性能和价格度量,并管理测试结果发布的机构。LDBC是图(Graph)和RDF数据管理的基准指南制定者与测试结果发布机构。

社交网路基准(SNB,Social Network Benchmark)是关联数据基准委员会(LDBC)发布的基准测试程序之一。它通过两个典型场景来评价图数据库。这两个场景分别是:

•交互场景(interactive), 事务查询任务(transaction query workload),类似OLTP。

•商务智能场景(business intelligence),统计查询任务(analytical query workload) ,类似OLAP。

目前,LDBC-SNB Benchmark()是数据库业界权威的衡量图数据库和图数据管理系统的重要参照标准。LDBC采用开源的做法,遵循GPLv3。它的基准(Benchmark)标准文档,评估基准要用到软件和工具的源码,以及问题跟踪、技术文档都发布在开源网站上。

关于测试过程

费马科技从测试环境准备,测试数据生成和导入,测试例程序(Plugins)的安装和执行,以及结果正确性的验证,整个过程由LDBC指定的第三方在亚马逊公有云上进行,过程中所使用的所有程序和脚本都是公开的,并且整个测试流程由第三方人员完成,保证测试过程的公正、公平、公开。测试结果和测试代码需交由LDBC执行委员会审核通过。

测试的目标包括图数据的数据加载速度,数据存储规模,功能正确性和性能指标。本次测试,费马科技用LDBC的数据生成工具(datagen)生成了SF30,SF100,SF300三个大小不同的数据集,分别代表大小为30G,100G和300G的社交网络数据,充分反映数据库在不同数据规模下的表现的稳定性。

下表列出了交互场景的测试结果,其中的吞吐率(OPS)的意思是每秒完成的操作次数。

国产数据库硬核技术又破纪录?

表1. 不同数据规模SF30(30GB),SF100(100GB)和SF300(300GB)的测试结果

上表是交互场景(interactive)的测试结果,每项持续时间超过两个小时,操作数达到数千万,而TuGraph在保证100%的查询及时率的前提下,吞吐率达到5000上下,实属不易。这里的查询及时率指的是每一个查询结果均能在给定的延迟要求里返回,院高于标准要求的95%,展现了TuGraph稳定的运行效率。就吞吐率而言,TuGraph为当前纪录的7.6倍,这在商业数据库中非常难能可贵。

帮助银行识别个人信贷诈骗团伙

TuGraph的主要贡献者之一,费马科技CTO朱晓伟是清华大学图数据库研究方向的博士。在朱晓伟看来,这是值得骄傲的成绩。这表明费马科技在数据库发展的最新前沿——图数据库方面走在了世界前列,将国内自主研发的技术,推向了世界。

更重要的是,正是有这样突出的性能表现,费马图数据库产品和技术为客户创造了真正的价值,帮助客户解决了一些长期以来难以着手的问题。

陈亮是沅启融安的CTO。沅启融安是一家专注于从事风险控制领域的专业咨询与技术服务公司,他们的主营业务是为大型银行风险管理部提供深度服务。

他向中国软件网介绍了一个用图数据解决的金融风控场景——信用卡等银行个人信贷团伙诈骗。

诈骗团伙会用非法渠道获取的大量身份证向银行提出信用卡申请。这些身份证所代表的人员信息银行系统并不全部掌握,以致部分有潜在风险的申请会被银行通过。诈骗者将通过的部分进行提现或消费,但不还款。一旦出现这种情况,该项消费大概率会成为银行的坏账。

为此,银行的风险管理部门一直希望能有一项技术,在信用卡申请时,就能从申请时提交的相关信息中发现蛛丝马迹,将这些具有诈骗意图的人识别出来。

传统基于关系型数据库的分析方法一直没有很好地解决这个问题。因为传统数据分析方法涉及的数量太大,算法也比较复杂,因此分析所需要的时间太长,无法在信用卡申请的时限内完成分析。

为此,陈亮他们和费马科技一起,为银行提供了一种特别有效的解决方案——基于图数据库和图计算平台进行分析。

通过建立图数据库,并对图数据库进行相应的计算分析,可以对信用卡申请人的电话号码、地址等信息进行关联和聚类分析。根据这些相关性,银行可以从中会发现一些具有团伙性质的蛛丝马迹。

相比传统的数据分析方法,他们的系统效率提升了60倍,从原来的需要10个时到现在只用10分钟解决,可用性大大增强。

一个空间巨大的市场

业界普遍认为,对于图数据库和计算技术的研究,最早可追溯至20世纪四五十年代。但图数据库、图计算逐渐进入人们视野,则是因2010年谷歌发布的一篇图计算论文引起。随着数字经济的迅速发展,目前图数据库已进入临近爆发的前夜。

在这个全媒体社交、万物互联的时代,具有很多的应用场景。例如,在金融领域,可用图数据库通过建立账户(客户)的关系图,根据其社会关系、交易情况,分析客户的还款能力、还款意愿、抗风险能力等,提升金融行业小贷授信、信贷审核、贷后追踪等风控能力,并根据资金交易图谱实现反洗钱、反欺诈等系统。在社交领域,人与人在线上和线下的联系天然形成了一张图,汇集海量的关系数据后,能够做社区发现、舆论追踪、用户推荐等应用;在电信领域,人与人的通信是一个非常强的联系,通信的时间和频率则代表了这种联系的强弱。电信运营商在通信图上进行拓展骚扰电话阻断、经营分析等业务……

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读