加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

南京大学教授俞扬:走出游戏世界的强化学习

发布时间:2020-12-24 18:55:30 所属栏目:业界 来源:网易科技) 更多精彩内容,请关注《预见未来十年!2020网易
导读:南京大学教授俞扬:走出游戏世界的强化学习 (来源:网易科技) 更多精彩内容,请关注《预见未来十年!2020网易未来大会》专题报道 杭州网讯12月18日-20日,2020网易未来大会在杭州盛大举行。大会以“洞觉未见”为主题,汇聚了全球最强大脑,期盼以远见超越
副标题[/!--empirenews.page--]

南京大学教授俞扬:走出游戏世界的强化学习 (来源:网易科技)

更多精彩内容,请关注 《预见未来十年!2020网易未来大会》专题报道

杭州网讯12月18日-20日,2020网易未来大会在杭州盛大举行。大会以“洞觉未见”为主题,汇聚了全球最强大脑,期盼以远见超越未见,去寻找打开未来的钥匙。

大会上,南京大学教授,国家万人计划青年拔尖人才俞扬做了《走出游戏世界的强化学习》主题演讲,分享了一种通过深度学习,使用机器人帮助我们自主解决问题的技术。

南京大学教授俞扬:走出游戏世界的强化学习

他认为,今天看到大部分人工智能技术其实是在扩展人类的感知,比如虚拟的场景,属于扩展人类的感知。但在整个智能系统上,除了感知、认知,还有决策。

怎么样让机器人自主的解决问题,一个很关键的技术就是强化学习。俞扬表示,它不需要收集数据,也不需要做任何标记,而是把称之为智能体的Agent放在一个环境里,自己学会如何完成一个任务,解决一个问题。目前,在游戏环境里要做很多事情时,已经开始用强化学习。

既然它已经能够自主在游戏环境下帮我们解决问题,有没有可能在游戏外面也能够自主解决问题呢?

俞扬表示,在游戏上学习可以上亿次试错,但真实世界里要做上亿次试错是不可能的,哪怕今天最先进的学习方法都是上万次的试错。

在展示了各种尝试过的方案之后,他提出一种解决方案,从数据自动还原虚拟环境,并且可以在虚拟环境里面自动做决策。

他说,这个过程和之前的方案最大的不同,就是人可以不在环境里面,技术路线全部走通以后就可以实现机器自主决策,也期待未来能走到真正的通用人工智能道路上。

以下为俞扬演讲的部分内容:

大家好,非常感谢网易的邀请。

我们这里要讲的是未来,未来是什么样子的呢,这是《I Robot》电影里描述的未来场景,实际上描述的是2035年,到现在也就是15年之后,相信这样的场景会出现,到那个时候有很多机器人在帮助我们解决一些任务。

当我们看到这样的场景时,机器人要帮我们解决任务,和我们今天看到大部分人工技术其实是在扩展人类的感知,比如虚拟的场景,属于扩展人类的感知。但在整个智能系统上,除了感知、认知,还有决策。如果我们需要用机器人来帮助我们解决问题的话,一定需要这个机器人能够自主的解决问题。怎么样让机器人自主的解决问题,这里一个很关键的技术就是强化学习。强化学习和其他的人工智能技术有一个很大的差异,那就是它的学习范式和其它技术不太一样。

它不需要我们去收集数据,也不需要我们去做任何标记,而是我们把称之为智能体,Agent,放在一个环境里,就像动物或者我们自己生存的一个环境里,它会和环境自己打交道,自己学会在环境里如何完成一个任务,解决一个问题。我们之前已经能看到的东西,包括在围棋、游戏上面,游戏里解决如何战胜人类,其中一半技术是靠强化学习,自己在环境里学会如何处理这样的问题。如果我们今天在游戏环境上要做很多事情时,已经开始用强化学习来解决问题,比如做一些陪玩的角色,或者直接来设计这个场景,都可以用到强化学习。

南京大学教授俞扬:走出游戏世界的强化学习

但我们可能更关注的是,既然它已经能够自主在游戏环境下帮我们解决问题,有没有可能在游戏外面也能够自主的解决问题呢。这时候我们就发现在游戏里,我们用强化学习解决问题是一个很容易的事情,这个很容易不是说我们打败人类的AlphaGo技术多么简单。而是说我们在游戏场景下可以做大量的试错,在游戏场景下做错了没有任何关系,重来就可以了,不会有太大的代价。但是在真实的场景下,比如如果这个时候要做一个医疗的诊断,如果诊断错了就会带来很大的成本,一个代价。如果我们要做一个投资,投资错了也会带来巨大的损失,所以我们在真实的环境下要用强化学习的方式,让他自己学会怎么做到最优的决策,需要大量的进行试错。

如果我们需要在游戏上学习有上亿次试错,我们在真实世界里要做上亿次试错是不可能的,哪怕今天最先进的学习方法都是上万次的试错。我们希望一次试错都不要做,才能在真实环境里把这样的技术用起来。

我们认为这样的技术如果只能在游戏上发挥作用的话,那么它可能就是一个好看,但是不好用的技术。更进一步,像DeepMind,创造AlphaGo的这家公司,它的愿景是要做通用智能。但如果只在游戏上,只能叫做在游戏上的通用智能,而不是真正的通用智能。我们今天也在考虑怎么能把这样的技术,今天就把它用起来,所以如果我们今天从算法层面来说,这些算法一定要做大量的试错,那我们下面要面临的问题可能就是能不能有这么一个环境,这个环境和游戏一样是一个虚拟的环境,所以我们可以在里面做大量的试错。同时,它和游戏不一样,它能和我们的真实场景打通,它能够和我们在现实环境下做出来的决策效果一样。这样的话,我们就能够把这样的技术用起来。

有没有可能做到这样的事情呢,这是有可能的。第一种最简单的方式,就是我们靠专家、靠人来把虚拟的场景搭出来,这也是我们今天见到最多的情况。实际说在很多工业场景下已经有大量的这种应用是靠人把模拟器,或者叫仿真环境搭出来之后,做一些工业上的应用。但更多的场景如果需要人来搭的话,我们搭出来的虚拟场景和真实的场景之间多少都会有出入,有的时候可能会有严重的出入。所以上面的问题就是我们能不能在有严重出入的虚拟场景下,帮助我们得到能用的智能体。一种方法,我们在很多情况下知道哪些维度模拟的不准,不准的时候可以把智能体变成能识别环境的智能体。原来只是看到下棋时棋盘上有什么,我们就决定这时候要走哪一步。而现在要看一下,我们到底在下围棋还是下象棋,还是规则不太清楚的棋。不仅能看到目前的输入是什么,而且能看到我们的环境是什么,那么它就能做到这件事情。我们有了模拟器之后可以做的一件事情,创造大量不同的模拟器出来,然后在新的环境里识别这个环境是什么,再根据这个环境来进行适应。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读