加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

电商卷皮BI的实践演进和架构体系—猫友会大讲坛第4期

发布时间:2021-02-23 15:13:49 所属栏目:大数据 来源:网络整理
导读:大家好,我是卷皮BI团队负责人柴楹,今天在这里给大家分享一下卷皮的BI和大数据的一些东西。 BI大数据是什么? 首先我们来聊一下BI和大数据。BI和大数据到底有什么关系和不同。 BI主要有三方面的技术,包括 DW,OLAP,DM 。目标就是提高企业经营和决策的质量



第一是用户画像。卷皮是电商平台,我们必须要充分的了解我们的用户,所以卷皮BI也基于自有的用户消费数据、行为数据,进行相应的算法模型去挖掘用户的特征,给用户打上各种标签。当然也接入一些外部的数据来验证我们的标签。目前的用户标签,主要分为四个方面:自然属性,兴趣偏好,消费特征,生命周期。


然后基于用户画像,我们团队的精准化小组,就在做以下三个方面的事情:

1.?精准的营销:通过精准的push提升用户到达率;针对不同群体用户做专题活动;对于濒危用户进行挽留等等。

2.?个性化的推荐:业内所说的千人千面,每个人专属的商品的排序;其他的推荐场景,例如猜你喜欢和热门推荐。但是对于第一次来的用户,没有任何行为信息,更多以热门推荐为主。目前我们也在做基于用户实时的浏览行为,进行实时的商品推荐。

3.精准的服务:对于不同会员的等级进行差异化的服务,例如信用好的用户如果选择退货,那么我们可以先退钱后收货,但是对于信用等级不够高的用户,那么我们会收到货以后再退钱等;优化客服的服务,对于接入的客户,更加了解客户的信息,便于提高服务质量。


第二个,就是我们的鹰眼系统,也就是反欺诈系统。目前定位是主要是实时的甄别异常订单。鹰眼系统主要做两方面的事情,识别坏人和识别坏事。目前我们的鹰眼系统一共有4个子系统:鹰眼马甲系统、鹰眼售后系统、鹰眼订单甄别、鹰眼诚信系统。

鹰眼系统的核心模块是BRMS(业务规则管理系统),基于规则引擎(Drools)。工作人员可通过Web?UI制定规则,形成规则库,每个规则都有个阈值。实时的数据结合数据集市的历史数据,在规则引擎里面进行判断,如果超出的规则的阈值,则进行相应的操作,如告警,转人工审核等。

鹰眼的WebUI是我们自己开发的界面,便于我们的业务运营人员,基于一些现有的指标来配置规则,调整阈值。JP-drools是在drools 我们在外面封装了一层,主要是为了做到分布式部署、历史库共享和规则的热部署。


最后这个产品是OLAP分析系统,图片是一个截图,左边这边有维度和度量,通过拖拽到中间的行或者列进行生成相应的表格,右边可以把表格的数据变成各种图形。业内这种类型的分析工具其实比较多,例如Microstrategy,Tableau等。但这些都是商业的,我们更多还是基于开源来做。


我们主要用了如下几个开源的项目:

Saiku提供了一个多维分析的用户操作界面,可以通过简单拖拉拽的方式迅速生成报表,它的主要工作是根据事先配置好的schema,将用户的操作转化成MDX语句提供给Mondrian引擎执行。

Mondrian是一个OLAP分析的引擎,主要工作是根据事先配置好的schema,将输入的多维分析语句 MDX (Multidimensional Expressions )翻译成目标数据库/数据引擎的执行语言(比如SQL)。

Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。

当前这个架构是我们第三个版本的架构。

第一个版本我们是直接用的Mondrian+Mysql,但是我们发现Mondrian的界面太丑了,所以在第二版加入了Saiku。但是随着业务数据量的增加,Mysql的查询性能很快就到瓶颈了,所以在第三个版本用Presto替代了Mysql。

在这套架构里面Saiku提供了界面的支持,Mondrain提供了schema到MDX的转换,并构建SQL语句,向Prestodb查询数据,Prestodb执行查询任务,返回其结果,Saiku显示结果,输出报表。整个OLAP系统我们需要关注Saiku的二次开发,Mondrain schema.xml生成及其读取数据和维表方面的优化。

但是当前这个架构目前也逐渐遇到瓶颈,对于像具体到每一个用户成单路径的数据的分析时候查询还是需要比较久的时间,所以我们现在依然在调整,希望把kylin加入进来。

kylin是apache软件基金会的顶级项目,一个开源的分布式多维分析工具。Kylin通过预计算所有合理的维度组合下各个指标的值并把计算结果存储到HBASE中的方式,大大提高分布式多维分析的查询效率。Kylin接收sql查询语句作为输入,以查询结果作为输出。对于可以离线分析的业务数据,可以用kylin的框架,而对于实时分析的业务数据还是可以用来Presto支持。

以上就是我们卷皮BI的一些经验的分享。最后送给大家一句话:数据本身不是最终价值,带有分析的数据,渗透到业务中,影响到决策才产生价值。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读