加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

一篇文章是如何被推荐到你眼前的?

发布时间:2019-11-12 21:57:32 所属栏目:创业 来源:做站长
导读:笔者以独特的角度入手,以一篇文章自白的角度讲述了个性化推荐的功能逻辑。 “hi,我是魏无羡,我出生后被送到一个内容库,在这里遇到了很多师兄弟,在一个个黑盒子里,我们身上被打上了N个不同的标签来表明我们的出生地、武功高低、门派风格等等,经过各

这些召回模块都有他自己存在的理由,例如根据地理位置的召回、根据分类兴趣的召回、根据关键词的召回、根据热议度的召回等等,都是产品经理或开发的想法的一种尝试,大致可分为四类:

1. 兴趣

  • 基于内容及用户模型进行推荐;
  • 基于订阅收藏等互动行为进行推荐。

2. 协同

  • 基于内容:内容的协同
  • 基于用户:用户的协同
  • 基于用户:内容的协同

3. 热门

  • 流量热门推荐:用户行为表现热门的内容;
  • 事件热门推荐:最近发生的热搜事件。

4. 本地

  • 本地内容推荐;
  • 地域内容推荐。

产品汪基于业务需求,在召回模块的探索有:增减召回模块、召回模块逻辑/效果优化、调整召回条数配额。

此类abtest除了关注整体指标外,还需要关注对召回模块的影响:

一篇文章是如何被推荐到你眼前的?

召回过后会有一个小的过滤环节,主要是一些拉黑过滤,重复过滤等等,把一些不能推或影响体验的内容过滤掉。此环节的过滤和索引前内容候选的过滤不同,前者是具有普适性的过滤(例如低点击过滤、过期过滤等),后者和用户的行为、属性有关。

尖子生魏无羡重新加持,开始 CTR PK 环节——排序

排序环节关注三个词:模型、特征和权重。

  1. 模型:如LR、XGBoost等,单模型或多模型融合都有可能。
  2. 特征:一般有几百个,如分类、兴趣点、阅读时长、阅读速度等等,应有尽有,只怕你想不到。
  3. 权重:特征之间相互PK,权重高的特征对排序结果影响较大,权重可以是机器学习的自然结果,也可能是人工干预的结果。

所以CTR工程师的工作就是选择模型、采样数据优化、增删特征和调参,字少事大的又一典型。

奔向蓝忘机之前,魏无羡还要过一道人工坎——重排

重排环节主要处理一些业务规则。例如视频推荐占比不超过60%、第2个位置固定出运营内容、相同兴趣点新闻黏连不能超过3条等等,都需要在重排环节处理,这块代码是开发最不忍直视。

规则是最快的上线生效途径,可以用于纠偏、提权等操作。例如,希望增加视频推荐,一开始可在重排环节强出视频(召回环节简单做),保证视频的曝光增多,abtest验证加入视频推荐可行后,再从内容池、召回等环节精细化开发,走一个较长的排期。

总地来说,短期的人工干预应该逐步被长期的机制所替换。过多的“补丁”会严重增加系统的复杂度,降低可理解性。所以更建议优化召回模块优先于排序模块,因为修改召回模块扩充候选集能拥有更多可能性;而主观修改排序模块则极有可能损失公平,降低效率。

Happy Ending

最终下发8-12条,魏无羡奔向屏幕前的蓝忘机,有情人点击阅读,终成眷属。

有的人觉得个性化推荐是“APP更懂我”,但其实个性化推荐的过程不仅具有个体进化意义,还具有群体评估意义,就拿正文页末的“喜欢”、“不喜欢”按钮来说:

  1. 个体进化意义:当用户点击“喜欢”按钮时,是主动表达他喜欢这类内容,次数可以表示程度,用户画像得到完善,可加权推荐此类内容。
  2. 群体评估意义:当内容的“不喜欢”数累积到一定阈值,结合账号等级,内容将进入人工复审进行质量判断;若累积到一个高阈值,将直接下撤内容或回炉再造(大概率是降低体验感的差内容),起到维护内容生态的作用。

以上是智能推荐系统的整体概念,其中的去重、相似推荐、本地推荐、新文章冷启动、相关视频推荐等等,每一模块都可以是独立业务,精细化做起来都是满满的工作量,学无止境。

一篇文章是如何被推荐到你眼前的?

(推荐系统示例)

结语

引用闫泽华在《内容算法》里写的:

个性化的好:在既定的指标体系下,借助技术手段不断追求更好的数据表现,是生意。

好的个性化:在不改变用户目的的前提下,借助技术手段达成用户效率和体验提升,是理想。

 

本文素材来自互联网

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读