加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

数据中台到底包括什么内容?一文详解架构设计与组成

发布时间:2020-11-14 04:48:01 所属栏目:建站 来源:网络整理
导读:本文将介绍数据中台到底包括什么内容,企业建设数据中台的过程中哪些能力是必选项,哪些是可选的。 一、数据中台功能架构 数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中

为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域。

数据域划分需要先对业务系统进行充分调研。将业务过程划分到哪个数据域没有绝对的对错,但是会影响报表开发人员定位数据的效率,所以还需要从开发人员定位效率的角度来进行综合划分。

(2) 标签模型

标签模型的设计与主题域模型方法大同小异,同样需要结合业务过程进行设计,需要充分理解业务过程。标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等。这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在关注、注册、浏览、下单、评价、服务等环节。

那么在设计标签的时候就需要充分理解这些业务流程,在流程中发现标签的应用点,结合这些应用点来搭建企业的标签体系。

标签模型按计算模式一般分为客观标签和主观标签,客观标签是可以量化的,而主观标签是不可量化的。根据实现方式又可以将标签分为事实标签、模型标签、算法标签等,根据业务场景还可将标签分为基础信息标签、偏好标签、价值标签等。

设计标签模型时非常关键的要素是标签模型一定要具有可扩展性。毕竟标签这种数据资产是需要持续运营的,也是有生命周期的,在运营的过程中随时可能增加新的标签。

(3) 算法模型

算法模型更加贴近业务场景。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题。整个模型搭建过程包含定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节。

以新零售企业为例,常用的机器学习算法有决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等。这些算法已经非常成熟,可以用来实现商品个性化推荐、销量预测、流失预测、商品组货优化等新零售场景的算法模型。

3. 数据应用层

数据应用层严格来说不属于数据中台的范畴,但数据中台的使命就是为业务赋能,几乎所有企业在建设数据中台的同时都已规划好数据应用。数据应用可按数据使用场景来划分为以下多个使用领域。

(1) 分析与决策应用

分析与决策应用主要面向企业的领导、运营人员等角色,基于企业的业务背景和数据分析诉求,针对客户拉新、老客运营、销售能力评估等分析场景,通过主题域模型、标签模型和算法模型,为企业提供可视化分析专题。

用户在分析与决策应用中快速获取企业现状和问题,同时可对数据进行钻取、联动分析等,深度分析企业问题及其原因,从而辅助企业进行管理和决策,实现精准管理和智能决策。

在分析专题设计的过程中,首先需要根据不同的业务分析场景,采用不同的分析方法进行数据分析的前期规划,搭建清晰的数据分析框架,如在用户行为分析、营销活动等场景下,会采用5W2H分析法和4P营销理论;在复购客户下降、客单价下降等问题诊断分析场景,需要考虑问题与哪些因素有关,则采用逻辑树分析法。

在数据分析框架构建完成后,结合用户的分析目的,采用不同的分析思路和呈现方式,包括趋势分析、多维分解、漏斗分析、A/B测试、对比分析和交叉分析等。

(2) 标签应用

标签旨在挖掘实体对象(如客户、商品等)的特征,将数据转化成真正对业务有价值的产物并对外提供标签数据服务,多应用于客户圈选、精准营销和个性化推荐等场景,从而实现资产变现,不断扩大资产价值。

标签体系的设计立足于标签使用场景,不同使用场景对标签需求是不同的,譬如在客户个性化推荐场景下,需要客户性别、近期关注商品类型、消费能力和消费习惯等标签。

因此,在标签体系设计前,需要先基于业务需求分析标签的使用场景,再详细设计标签体系和规则。在标签的使用过程中,可利用A/B测试等数据分析方式,持续分析标签的使用效果,并优化标签体系和规则。

(3) 智能应用

智能应用是数智化的一个典型外在表现。比如在营销领域,不仅可实现千人千面的用户个性化推荐,如猜你喜欢、加购推荐等,还可借助智能营销工具进行高精准度的用户触达,推动首购转化、二购促进、流失挽留等。

在供应链领域,可通过数据中台整合用户数据、销售数据、采购数据等优化库存,实现自动配补货、自动定价。除了传统统计分析、机器学习之外,还可以融入深度学习,实现以图搜图并与商城打通,实现拍立购;实现人脸识别,用于地产行业的案场风控;融入自然语言处理,实现智能客服问答机器人等。

总之,以上各层是数据中台的核心内容。需要指出的是,在工具平台层,企业并不需要完全自主建设,可以考虑采用拿来主义,从中台建设厂商采购成熟的产品,而数据资产层与数据应用层是企业数据中台组织需要密切关注的。

二、数据中台技术架构

随着大数据与人工智能技术的不断迭代以及商业大数据工具产品的推出,数据中台的架构设计大可不必从零开始,可以采购一站式的研发平台产品,或者基于一些开源产品进行组装。企业可根据自身情况进行权衡考虑,但无论采用哪种方案,数据中台的架构设计以满足当前数据处理的全场景为基准。

以开源技术为例,数据中台的技术架构如图4-3所示,总体来看一般包含以下几种功能:数据采集、数据计算、数据存储和数据服务;在研发、运维和公共服务方面包括离线开发、实时开发、数据资产、任务调度、数据安全、集群管理。

数据中台到底包括什么内容?一文详解架构设计与组成

▲图4-3 数据中台技术架构

1. 数据采集层

按数据的实时性,数据采集分为离线采集和实时采集。离线采集使用DataX和Sqoop,实时采集使用Kafka Connect、Flume、Kafka。

在离线数据采集中,建议使用DataX和Sqoop相结合。DataX适合用在数据量较小且采用非关系型数据库的场景,部署方式很简单。Sqoop适合用在数据量较大且采用关系型数据库的场景。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读