加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

AlphaStar横空出世 星际争霸2人类1:10输给AI

发布时间:2019-01-29 16:10:40 所属栏目:站长百科 来源:DeepTech深科技
导读:导语:与两位人类对手的比赛相隔约两周,AI 自学成才,经历了从与TLO 对战时的菜鸟级别,进化到完美操作的过程,尤其是与MaNa 的对战,已经初步显示了可以超越人类极限的能力。 刚刚,我们见证了 AI 与人类 PK 的又一次重大进展!DeepMind 北京时间 1 月 2

就这样,MaNa 消耗到了自己的兵力成型,然后一波压制直接瓦解了 AlphaStar 的纯追猎部队。后者还尝试利用包夹的战术阻挡 MaNa,但这一次 MaNa 的兵力充足,不朽对追猎的克制十分明显,没有留给 AlphaStar 一丝操作的机会,全歼对手,获得了宝贵的胜利。

4.jpg图 | MaNa 获得表演赛胜利,露出了迷之微笑(图源:Youtube)

虽然 TLO 和 MaNa 的录像以全败告终,宣告了 DeepMind AlphaStar 的实力已经不可同日而语,但这场表演赛充分暴露了 AlphaStar 目前的不足。

我们不难看出,尽管其神经网络已经趋于长期优化,但似乎仍然会在一定程度上陷入局部最优,被人类发现固定模式,落入圈套,而且从 5 个小叮当抱团,到纯追猎部队,都显示出它对游戏兵种的理解尚不到位,如果最后一局它可以像人类一样直接派出凤凰防守棱镜,或许它将继续凭借超强的微操一波推平 MaNa。

比赛回放过程中,主持人问到 DeepMind 科学家,平时如何训练 AlphaStar,DeepMind 科学家 Oriol Vinyals、David Silver 表示,首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。这其中所使用到的训练资料不但包括专业选手,也包括业余选手。这是 AlphaStar 成型的第一步。

5.jpg图 | DeepMind 科学家 Oriol Vinyals(图源:Youtube)

6.jpg图 | DeepMind 科学家 David Silver(图源:Youtube)

之后,团队会使用一个称为“Alpha League”的方法。在这个方法中,Alpha League 的第一个竞争对手就是从人类数据中训练出来的神经网络,然后进行一次又一次的迭代,产生新的 agent 和分支,用以壮大“Alpha League”。

7.jpg图 | Alpha League 示意图(图源:Youtube)

然后,这些 agent 通过强化学习过程与“Alpha League”中的其他竞争对手进行比赛,以便尽可能有效地击败所有这些不同的策略,此外,还可以通过调整它们的个人学习目标来鼓励竞争对手朝着特定方式演进,比如说旨在获得特定的奖励。

最后,团队在“Alpha League”中选择了最不容易被利用的 agent,称之为“the nash of League”,这就是 TLO 所对战的5个。

为什么是"星际争霸 2"?

比赛前期,DeepMind 与暴雪就联合发布了关于此次比赛的重磅预告:将在北京时间周五凌晨 2 点展示 Deepmind 研发的 AI 在即时战略游戏星际争霸 2 上的最新进展。如今,这个进展终于揭开神秘面纱。

而 DeepMind 开发星际争霸 2 AI,最早可以追溯到 2016 年。当时,DeepMind 研究科学家 Oriol Vinyals 在暴雪嘉年华现场透露 Deepmind 与星际争霸 2 紧密合作的最新进展及未来的计划。在 AlphaGo 在 2017 年围棋大获全胜之后,DeepMind 开始对外宣布,团队正在着手让人工智能征服星际争霸 2,这款游戏对人工智能在处理复杂任务上的成功提出了"重大挑战"。

在 2018 年 1 月的 EmTech 大会上,谷歌 DeepMind 科学家 Oriol Vinyals 曾对 DT 君表示,第一版的 AlphaGo 击败了樊麾,后来下一个版本在韩国和李世石进行了对弈并取得了胜利。再后来进一步地训练网络,整个网络比之前强了三倍,赢了柯洁和其他专业棋手。团队是从零开始,一点点积累积数据训练,最后战胜了专业棋手。而除了棋类游戏以外,DeepMind 比较感兴趣的,就是游戏星际争霸 2。

继围棋之后,DeepMind 为什么要选择星际争霸 2 这款游戏为下一个目标呢?

星际争霸 2 是由美国著名游戏公司暴雪娱乐(Blizzard Entertainment)推出的一款以星际战争为题材的即时战略游戏。星际争霸 2 具备策略性、竞争性的特性,在全球都非常火爆,并且每年都会举办大量的比赛,因此也有着海量的玩家基础。

8.jpg图丨谷歌 DeepMind 科学家 Oriol Vinyals(来源:DeepTech)

据 Oriol Vinyals 当时透露,星际争霸 2 是非常有趣和复杂的游戏,这个游戏基本上是建造一些建筑物以及单位,在同一个地图里不同的组织会相互竞争。在这个游戏中,哪怕只是建造建筑物,也需要做出许多决策。除此之外,还要不断收集和利用资源、建造不同的建筑物、不断扩张,因此整个游戏非常具有挑战性。

而且,和围棋任务最大的不同在于,围棋可以看到整个棋盘,但是在星际争霸 2 中我们通常无法看到整个地图,需要派小兵出去侦查。另外,游戏是不间断进行的。整个游戏甚至会有超过 5000 步的操作。对于增强学习这种方法来说,除了上下左右这些普通的移动,用鼠标点击界面控制不同物体的移动以及不同的行为也是非常难的。

星际争霸 2 的这些特质,恰恰是人工智能在创新之路上需要挑战的——面对许多难以预测的突发情况,人工智能必须要既作出正确的对策,还要根据实际情况细微的调整对策。

9.jpg(来源:DeepMind)

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读