加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

?专访 | 今日头条2016 Byte Cup大赛实战经验分享:要充分挖掘模

发布时间:2021-01-01 23:28:27 所属栏目:大数据 来源:网络整理
导读:机器之心原创 作者:杜夏德 今日头条技术副总裁杨震原在 2016 Byte Cup 世界机器学习比赛颁奖仪式上说,「我们期望经过算法解决问与答的匹配功率疑问。这个疑问即使是小幅的改善,也会影响到数以百万计的用户。」 近日,由今日头条与中国人工智能学会及 IEEE


以下是专访内容


机器之心:比赛前你们对自己有什么预期?

?

郭正肖:我是属于跟着我的队友一起参加比赛。我自己也算是半路出家,实力并不强。我周围的同学都在看这方面的书,没有实践,但我的朋友告诉我可能参加比赛会更有好处。当时我就想参加什么样的比赛比较好?我发现这次比赛进度拉的比较长,从 8 月到 11 月一共是 3 个多月,时间一长我就能对这个比赛有更多的了解,学到更多的东西。当然我也是抱有一些小幻想的,能拿个奖什么的。在比赛过程中,我的两个队友给了我很大的帮助。

?

庞亮:我当时看了一下这个比赛的数据,与推荐系统相关的。其实与我的领域不是很相关。但是举办方给的数据是文本数据也是个匹配问题。所以最初的想法就是试一下我自己的模型能不能在比赛上 work 一下。我的模型就是那个 Match-SRNN。然后在做的过程中对这个数据有了更多的了解后,又试了一下其他的模型,因为要做一下 Baseline 和 SRNN 的比较。

?

钱乾:我一开始是跟着我朋友一起来做的,他想用 deep learning 的方法去做到。一开始我也是想能不能不用 deep learning 的方法也能把分数做上去。做着做着就越来越对 FM 这个模型感兴趣,最后用自己的代码去实现了一个自己写的 FM 模型。也算是一个学习的过程和一个验证的过程。然后还是要测试一下将图模型这种东西用在推荐领域上是否可行?那么最终验证出来也是可以接受的。这个基本上也是我的一个初衷吧

?

机器之心:那你(钱乾)对 FM 这个模型在这次比赛中的表现满意吗?

?

钱乾:我后来对比了一下自己写的 FM 与 C++写的 FM,在优化以后能够达到与原本用 C++写的 FM 能达到同样的一个精度吧。

?

机器之心:在参加比赛的三四个月的过程中,有没有一个关键的节点让你们觉得自己的模型有了很大的提升,有信心拿下这个比赛?

?

钱乾:有两次吧。第一次可能就是尝试使用了 neighbor 的一些数据。并且通过分析之后加了一些 IDF 的一些加权,这个给我的模型带来了一个很大的提升。这是第一个关键点。

?

第二个关键点是,在我采用 deepwalk 这个算法构建特征以后使用树模型,它也给我的模型带来的提升。

?

庞亮:我一开始是实现了一个 baseline,一个最基础的矩阵分解模型。发现效果挺不错,基本上可以进前 50 了。后面有提升的地方也是和他一样,加了一些 neighbor 的信息,就是一些 implicit 的 feedback,再加上两边的 implicit feedback,就是这样一点点提升上去的。在精简模型的方面用上一些非对称思路,让模型更加鲁棒。还有原来的 SVD++是不对称一种结构,然后就想怎么能把它变成一个对称的一个结构。

?

机器之心:ASVD++这个算法是你们自己提出来的吗?

?

庞亮:是的,但不是这一次比赛提出来的。之前在百度的推荐大赛上就使用过,发现它很有效果。这一次是把一部分的 ID 去掉之后,这是新的。

?

用完 blending 之后,我们又尝试了别的模型,想看看它效果怎么样,不仅仅是为了刷分。比较每一个算法的优劣。

?

机器之心:这次比赛中有没有对自己不太满意的地方?

?

庞亮:可能是数据上吧,隐藏掉了一些词的信息,虽然在数据量上的 entry 很多,词表也很大,很多时候我们没法用上我们已经训练好的 word-embeding 信息,这样就导致我直接拿它来用的话会有一些困难,性能上会有损失。但是我相信在文本上挖掘的信息是很有用的。但这次比赛都是用 ID 拿出来的,我们没法 pretrain 这些 ID 的 Word

?

钱乾:我们就用了一张表,也是没有用上。


(笔者注:据主办方介绍,所给数据本来应该是一个自然语言,但是主要考虑到有一些国外的参赛选手对中文并不熟悉,把文字进行 ID 化的处理,首先进行分词,每个词会有一个 ID,这是唯一标识,对每一字也给了一个 VID,用这种形式作为问题的表征)

?

庞亮:我们都是希望能把这些信息用全,每个信息都能带来一点提升,然后对比一下每个信息的提升。这一点比较遗憾。

?

机器之心你们的参赛经验是怎样的?

?

郝磊:我参加的比较少,也就三四次吧。

?

钱乾:我一般就参加 kaggle 吧,有六七次的经验。

?

机器之心:能分享一些比赛经验吗?

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读