南京大学教授俞扬：走出游戏世界的强化学习

发布时间：2020-12-24 18:55:30 所属栏目：业界来源：网易科技）更多精彩内容，请关注《预见未来十年！2020网易

导读：南京大学教授俞扬：走出游戏世界的强化学习（来源：网易科技）更多精彩内容，请关注《预见未来十年！2020网易未来大会》专题报道杭州网讯12月18日-20日，2020网易未来大会在杭州盛大举行。大会以“洞觉未见”为主题，汇聚了全球最强大脑，期盼以远见超越

副标题[/!--empirenews.page--]

南京大学教授俞扬：走出游戏世界的强化学习（来源：网易科技）

更多精彩内容，请关注《预见未来十年！2020网易未来大会》专题报道

杭州网讯12月18日-20日，2020网易未来大会在杭州盛大举行。大会以“洞觉未见”为主题，汇聚了全球最强大脑，期盼以远见超越未见，去寻找打开未来的钥匙。

大会上，南京大学教授，国家万人计划青年拔尖人才俞扬做了《走出游戏世界的强化学习》主题演讲，分享了一种通过深度学习，使用机器人帮助我们自主解决问题的技术。

南京大学教授俞扬：走出游戏世界的强化学习

他认为，今天看到大部分人工智能技术其实是在扩展人类的感知，比如虚拟的场景，属于扩展人类的感知。但在整个智能系统上，除了感知、认知，还有决策。

怎么样让机器人自主的解决问题，一个很关键的技术就是强化学习。俞扬表示，它不需要收集数据，也不需要做任何标记，而是把称之为智能体的Agent放在一个环境里，自己学会如何完成一个任务，解决一个问题。目前，在游戏环境里要做很多事情时，已经开始用强化学习。

既然它已经能够自主在游戏环境下帮我们解决问题，有没有可能在游戏外面也能够自主解决问题呢？

俞扬表示，在游戏上学习可以上亿次试错，但真实世界里要做上亿次试错是不可能的，哪怕今天最先进的学习方法都是上万次的试错。

在展示了各种尝试过的方案之后，他提出一种解决方案，从数据自动还原虚拟环境，并且可以在虚拟环境里面自动做决策。

他说，这个过程和之前的方案最大的不同，就是人可以不在环境里面，技术路线全部走通以后就可以实现机器自主决策，也期待未来能走到真正的通用人工智能道路上。

以下为俞扬演讲的部分内容：

大家好，非常感谢网易的邀请。

我们这里要讲的是未来，未来是什么样子的呢，这是《I Robot》电影里描述的未来场景，实际上描述的是2035年，到现在也就是15年之后，相信这样的场景会出现，到那个时候有很多机器人在帮助我们解决一些任务。

当我们看到这样的场景时，机器人要帮我们解决任务，和我们今天看到大部分人工技术其实是在扩展人类的感知，比如虚拟的场景，属于扩展人类的感知。但在整个智能系统上，除了感知、认知，还有决策。如果我们需要用机器人来帮助我们解决问题的话，一定需要这个机器人能够自主的解决问题。怎么样让机器人自主的解决问题，这里一个很关键的技术就是强化学习。强化学习和其他的人工智能技术有一个很大的差异，那就是它的学习范式和其它技术不太一样。

它不需要我们去收集数据，也不需要我们去做任何标记，而是我们把称之为智能体，Agent，放在一个环境里，就像动物或者我们自己生存的一个环境里，它会和环境自己打交道，自己学会在环境里如何完成一个任务，解决一个问题。我们之前已经能看到的东西，包括在围棋、游戏上面，游戏里解决如何战胜人类，其中一半技术是靠强化学习，自己在环境里学会如何处理这样的问题。如果我们今天在游戏环境上要做很多事情时，已经开始用强化学习来解决问题，比如做一些陪玩的角色，或者直接来设计这个场景，都可以用到强化学习。

南京大学教授俞扬：走出游戏世界的强化学习

但我们可能更关注的是，既然它已经能够自主在游戏环境下帮我们解决问题，有没有可能在游戏外面也能够自主的解决问题呢。这时候我们就发现在游戏里，我们用强化学习解决问题是一个很容易的事情，这个很容易不是说我们打败人类的AlphaGo技术多么简单。而是说我们在游戏场景下可以做大量的试错，在游戏场景下做错了没有任何关系，重来就可以了，不会有太大的代价。但是在真实的场景下，比如如果这个时候要做一个医疗的诊断，如果诊断错了就会带来很大的成本，一个代价。如果我们要做一个投资，投资错了也会带来巨大的损失，所以我们在真实的环境下要用强化学习的方式，让他自己学会怎么做到最优的决策，需要大量的进行试错。

如果我们需要在游戏上学习有上亿次试错，我们在真实世界里要做上亿次试错是不可能的，哪怕今天最先进的学习方法都是上万次的试错。我们希望一次试错都不要做，才能在真实环境里把这样的技术用起来。

我们认为这样的技术如果只能在游戏上发挥作用的话，那么它可能就是一个好看，但是不好用的技术。更进一步，像DeepMind，创造AlphaGo的这家公司，它的愿景是要做通用智能。但如果只在游戏上，只能叫做在游戏上的通用智能，而不是真正的通用智能。我们今天也在考虑怎么能把这样的技术，今天就把它用起来，所以如果我们今天从算法层面来说，这些算法一定要做大量的试错，那我们下面要面临的问题可能就是能不能有这么一个环境，这个环境和游戏一样是一个虚拟的环境，所以我们可以在里面做大量的试错。同时，它和游戏不一样，它能和我们的真实场景打通，它能够和我们在现实环境下做出来的决策效果一样。这样的话，我们就能够把这样的技术用起来。

有没有可能做到这样的事情呢，这是有可能的。第一种最简单的方式，就是我们靠专家、靠人来把虚拟的场景搭出来，这也是我们今天见到最多的情况。实际说在很多工业场景下已经有大量的这种应用是靠人把模拟器，或者叫仿真环境搭出来之后，做一些工业上的应用。但更多的场景如果需要人来搭的话，我们搭出来的虚拟场景和真实的场景之间多少都会有出入，有的时候可能会有严重的出入。所以上面的问题就是我们能不能在有严重出入的虚拟场景下，帮助我们得到能用的智能体。一种方法，我们在很多情况下知道哪些维度模拟的不准，不准的时候可以把智能体变成能识别环境的智能体。原来只是看到下棋时棋盘上有什么，我们就决定这时候要走哪一步。而现在要看一下，我们到底在下围棋还是下象棋，还是规则不太清楚的棋。不仅能看到目前的输入是什么，而且能看到我们的环境是什么，那么它就能做到这件事情。我们有了模拟器之后可以做的一件事情，创造大量不同的模拟器出来，然后在新的环境里识别这个环境是什么，再根据这个环境来进行适应。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

壹号本新款 ONE XPLAY	特斯拉前 CTO 电动汽车
华硕公布新款天选3 搭	主流显卡最新场批价曝