加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

人工智能这场饕餮盛宴每道菜你都认识吗?

发布时间:2018-04-26 19:50:26 所属栏目:教程 来源:李佳惠
导读:【资讯】首先,什么是人工智能? 人工智能是计算机科学(或科学)的一个分支,它是处理智能系统的创建。而智能系统就是像人类一样拥有智能的系统。 人工智能科学其实并不新鲜,这个术语在古希腊和埃及的手稿中已经提到。希腊人相信上帝赫菲斯托斯,也被称为铁

  ·状态:代理在任何实例中的有效位置称为状态。代理人可以通过执行操作从一个状态转换到另一个状态。避免采取行动,无论这种状态是否正确,都有奖励。

人工智能这场饕餮盛宴每道菜你都认识吗?

  ·奖励:奖励是指环境为特定行为定义的结果。如果行动正确,奖励是积极的,否则就是消极的。

  任何代理人的长期目标都是理解环境以最大化奖励。奖励可以被最大化,只要它是积极的奖励,反过来是对该状态的正确行动的结果。所以最大化问题可以用简单的术语来处理以下顺序:

  ·给定一个有效的状态si,产生一个随机动作ai。

  ·假设动作是正确的并且转换到下一个随机状态si + 1。

  ·计算转换的奖励ri。

  ·如果奖励是积极的,记住该状态的行动,因为它是适当的行动,但不是最佳行动。

  ·如果奖励是消极的,则放弃该行为。

  ·从获得的一组最佳行动中,确定最大奖励的最佳行动。

  ·为环境中的每个状态执行此操作。

  该等式给出如下:

人工智能这场饕餮盛宴每道菜你都认识吗?

  意思是,Q值即状态动作值取决于旧值+新信息与旧信息之间的差异。旧信息已经存在于记忆中,而新信息是通过最大化从行动中学到的奖励而获得的。因此,在许多强化学习问题中,我们构建了一个可以学习状态与行为之间映射的神经网络,如果行动是积极的。一旦训练结束,我们可以部署网络,以便为任何有效的状态创建正确的行为,从而最大限度地获得回报。

  MountainCar示例:

  Open AI gym 提供了一套代理人可以接受训练的环境,Mountain Car是一个很好的例子,可以通过强化学习来学习优化加速。这场比赛的目标是训练一辆车成功爬山。

  我们可以从零开始实施Q学习,或者我们可以简单地使用Kears-rl。 Krars-rl只是一组API,可以使用预先编写的算法。

人工智能这场饕餮盛宴每道菜你都认识吗?
▲汽车学习产生最佳加速度  

  如图所示。到4000结束时,汽车已经学会了产生足够的加速度来爬山。

  代码:

人工智能这场饕餮盛宴每道菜你都认识吗?

人工智能这场饕餮盛宴每道菜你都认识吗?

人工智能这场饕餮盛宴每道菜你都认识吗?

人工智能这场饕餮盛宴每道菜你都认识吗?

  有关强化学习的更多示例,请参阅我的GitHub配置文件:https://github.com/Narasimha1997

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读