加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

30分钟,将你的Spark SQL模型变为在线办事

发布时间:2021-05-31 14:33:51 所属栏目:大数据 来源:互联网
导读:SparkSQL在机器学习场景中应用 第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些A

SparkSQL在机器学习场景中应用

第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用

 

半小时,将你的Spark SQL模型变为在线服务

SparkSQL在特征变换主要有一下几类

 

多表场景,用于表之间拼接操作,比如交易信息表去拼接账户表

使用udf进行简单的特征变换,比如对时间戳进行hour函数处理

使用时间窗口和udaf进行时序类特征处理,比如计算一个人最近1天的消费金额总和

SparkSQL到目前为止,解决很好的解决离线模型训练特征变换问题,但是随着AI应用的发展,大家对模型的期望不再只是得出离线调研效果,而是在真实的业务场景发挥出价值,而真实的业务场景是模型应用场景,它需要高性能,需要实时推理,这时候我们就会遇到以下问题

 

多表数据离线到在线怎么映射,即批量训练过程中输入很多表,到在线环境这些表该以什么形式存在,这点也会影响整个系统架构,做得好能够提升效率,做得不好就会大大增加模型产生业务价值的成本

SQL转换成实时执行成本高,因为在线推理需要高性能,而数据科学家可能做出成千上万个特征,每个特征都人肉转换,会大大增加的工程成本

离线特征和在线特征保持一致困难,手动转换就会导致一致性能,而且往往很难一致

离线效果很棒但是在线效果无法满足业务需求

在具体的反欺诈场景,模型应用要求tp99 20ms去检测一笔交易是否是欺诈,所以对模型应用性能要求非常高

 

第四范式特征工程数据库是如何解决这些问题

半小时,将你的Spark SQL模型变为在线服务

通过特征工程数据库让SparkSQL的能力得到了补充

 

以数据库的形式,解决了离线表到在线的映射问题,我们对前面给出的答案就是离线表是怎么分布的,在线也就怎么分布

通过同一套代码去执行离线和在线特征转换,让在线模型效果得到了保证

数据科学家与业务开发团队的合作以sql为传递介质,而不再是手工去转换代码,大大提升模型迭代效率

通过llvm加速的sql,相比scala实现的spark2.x和3.x在时序复杂特征场景能够加速2~3倍,在线通过in-memory的存储,能够保证sql能够在非常低延迟返回结果

快速将spark sql 模型变成实时服务demo

demo的模型训练场景为预测一次打车行程到结束所需要的时间,这里我们将使用fedb ,pyspark,lightgbm等工具最终搭建一个http 模型推理服务,这也会是spark在机器学习场景的实践

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读