加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

数据太多、太乱、太杂?你需要这样一套数据治理流程

发布时间:2019-09-26 21:25:26 所属栏目:建站 来源:Synced
导读:数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。那么数据怎么治理才好,怎样与模型、算力结合才算妙?在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底是如何规范

接入后的数据都是比较杂乱的,它本身带了一些冗余或缺失的信息。因此,数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然后进行数据集成。治理完成后的数据汇聚到数据共享中心中,并用于后续的建模。

数据太多、太乱、太杂?你需要这样一套数据治理流程

其中我们比较熟悉的就是数据清洗,它会对数据进行审查和校验,从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。

3. 数据服务

数据治理的目标是提供一个可直接使用且方便管理的数据库,它最终还是要为各种模型提供学习基础。而模型,最终也是要提供各种智能服务,因此这一部分也应该得到规范的管理。

基于数据治理模块,数据服务模块最开始会根据数据共享中心构建知识图谱,它不仅向使用者提供模型管理、模型探索、数据探索等数据服务,同时还向专业人员提供挖掘分析、专家建模等智能数据服务。

数据太多、太乱、太杂?你需要这样一套数据治理流程

其中核心的知识图谱是由节点和边组成的巨型知识网络,节点代表实体、边代表实体之间的关系,每个实体 还通过键值对来描述实体的内在特性。领域专家们可以根据知识图谱中的实体和关系等核心数据进行建模,并进行高层次的数据挖掘分析和加工。

统一数据接入、治理和服务模块,就能构造出「HAO 治理」模型,它规定了最一般的处理流程。吴信东教授说:「只有通过多维感知,利用数据治理技术,将高质量的数据连接起来,才能进行知识的智能抽取,基于知识图谱、暴力挖掘对知识进行多维度分析推理,构建决策模型,完成从数字化、网络化到智能化的跃迁。」

公安的数据治理应该是什么样的

上面介绍了「HAO 治理」模型的主要概念,那么它应用到现实世界中又是怎么样的,它能进一步降低人工成本吗?在论文的最后一部分,研究者以公安数据治理为例,介绍了整体流程与框架到底是什么样的。

先来看张图,如下图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用四部分。它将不同的数据按照应用分到了不同的主题或专题库,例如常住人口专题库或企业信息专题库等等。与此同时,不同的数据也能最终组成知识图谱,相当于构建了一种庞大的背景知识。

数据太多、太乱、太杂?你需要这样一套数据治理流程

看上去这张图非常复杂,但其实也就分为储存、计算、管理和应用四部分。

  • 数据存储:基于分布式的大数据存储平台;
  • 数据计算:这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等;
  • 数据管理:对集成后的数据统一维护与管理;
  • 数据应用:这是数据价值最直接的体现,我们可以通过自然语言处理等技术,对数据进行深度分析。

从上图我们可以看到整个工作流大概从预处理到分析挖掘分为 7 个部分,其中不同的部分会调用不同的数据知识库,最后的分析挖掘则是我们希望获得的结果。

在整个流程中,我们除了对数据进行各种操作与处理外,还要创建新的知识表示方式。例如将数据按照一定主题进行关联来构造一个模型,公安数据治理分别以人、物、时空、组织、虚拟标识、 案件等作为主题来建立模型。

数据太多、太乱、太杂?你需要这样一套数据治理流程

除此之外,知识图谱按照目标数据可以分为实体、事件、关系三种类型,从而建立数据之间的关联关系。如下在公安场景中,我们能以人为中心实体构建的一个简单的知识图谱。其中我们需要建立人与电话号码所属关系、人与护照所属关系及人与人的关系等等。

数据太多、太乱、太杂?你需要这样一套数据治理流程

以上就是公安数据治理的简要结构了,吴信东教授说:「明略科技提出这样的数据治理框架,希望通过数据在线、分析洞察、闭环智能「三步走」战略,构建从感知到认知再到行动的反馈闭环,将人类、机器、组织的智能三位一体,为企业和组织提供具有分析决策能力的高阶人工智能应用。」

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读