加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

从本体论开始说起——运营商关系图谱的构建及应用

发布时间:2019-03-05 03:10:44 所属栏目:建站 来源:佚名
导读:人类学家罗宾邓巴认为:一个人维持紧密人际关系的人数最多为150人。 网络社交平台出现后,很多人认为虚拟世界将突破邓巴这一理论,但实际情况却是:如果要和更多人互动,那么势必需要削弱在其它人身上花的精力。 但是,人际关系将随着时间而产生亲疏远近等

载入后根据每台机器VertexCount和EdgeCount可以看到图数据库共加载了约17亿节点(号码),340亿边(通话关系)。其中NumOfSkippedVertices表达了一个去重的过程,即:每个节点只加载一遍。因此,partition size的总和只有590G左右,实际上是对数据进行了压缩。

做一个简单的号码关系查询(如图4),在百亿级边的图数据库里可以实现毫秒级响应。值得注意的有两点:1. 查询返回为json格式;2. 查询语言为类sql语言。

(图4)

我们可以将查询语言以文件形式存储,通过install/run query进行查询。同时,在后台install一个查询还会生成一个REST端点,这样就可以通过http来调用参数化查询。如图5,通过查询语言进行图遍历,,寻找两个号码间的最短距离。这样就能实现我们熟悉的六度空间理论(小世界理论),即:世界上任何两个人最多只需通过6个关系就能找到对方。

(图5)

如果我们定义号码与号码间的通话频次为关系权重,每个人的通话人数为通话活跃度。试想,一个人和你没有通话记录,但是和你的好朋友通话比较频繁,你是不是也有可能认识这个人呢?这个查询就是从图中挖掘你可能认识的人。查询输入是待查号码与最可能认识的k个手机号,返回是查询号码和输入号码的距离(如图6)。

(图6)

最后,给出一个真实的场景案例,是否能够通过企业少数员工号码、imei或其他ID,寻找企业员工群体,并对该群体进行分析,来反应企业实际经营地址、活跃度等情况呢?这里给出【2步邻居子图】的概念(以手机号做节点为例),即:输入号码联系人及联系人的联系人(如图7,这里使用可视化交互界面展示通话关系)。

(图7)

在模型搭建过程中,我们对通话时间段、时长、频次进行分析,评估可能存在的同事关系,并基于现有职住模型以及栅格技术挖掘企业真实经营地址。以我自己手机号为例(如图8),可以看到返回企业员工主要聚集的工作地(数字表示工作地在相应栅格内的人数),即:联通大数据公司两个办公区(职住数据取自2018年12月)、联通集团。

(图8)

基于对人群行为的洞察,该模型能够帮助工商部门动态的、客观的对企业真实位置、企业活跃情况进行评估与判断,为相关监察监管提供数据支撑。

值得一提的是,基于联通大数据关系图谱,在十亿级节点、百亿级边的大型网络结构中,查询6步邻居子图也只需要不到1秒(如图9)。可视化交互界面如图10(中间白色点为我的手机号)。

(图9)

(图10)

为了更细节的洞察网络中的关系,将展示阈值缩小(如图11)。经查验,中间环形结构上的每个点相互间都是同事关系。社交网络中环形结构上的点往往存在某种隐含关联,同事关系、亲疏关系、团伙关系、资金流向等等。基于不同样本、不同场景的应用,相较于传统数据库类型,图数据库可以最大程度挖掘样本间的关联关系。

(图11)

另外,大量经典的图挖掘算法,如:社区发现,Pagerank,LPA等也已ready,为传统机器学习模型入模特征增加更多的图特征。

总之,本体、知识图谱、图数据库都是用节点和关系为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各种关系,并且非常直观、自然、直接和高效。联通数据拥有得天独厚的“节点”、“关系”优势,我们正坚定不移的走在图发现的道路上!

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读