加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

掌握这十大机器学习方法,你就是圈子里最靓的崽

发布时间:2019-06-15 11:34:20 所属栏目:建站 来源:读芯术
导读:不论是在科研中还是在工业领域,机器学习都是个热门话题,新的机器学习方法也层出不穷。机器学习发展迅速又很复杂。对初学者而言,紧跟其发展无疑十分困难,即便是对专家们来说也非易事。 图片来自Unsplash网站,chuttersnap摄 为揭开机器学习的神秘面纱,

老鼠找奶酪的过程反映了使用强化学习来训练系统或游戏的方法。一般来说,强化学习是一种帮助代理从经验中学习的机器学习方法。通过在设定环境中记录操作并使用试错法,强化学习可以最大化累积奖励。在上述示例中,代理是老鼠,环境是迷宫。老鼠的可能操作是:前移、后移、左移或右移,奶酪则是奖励。

如果一个问题几乎没有任何历史数据,就可以选择强化学习方法,因为它不需要事先提供信息(这一点不同于传统的机器学习方法)。在强化学习框架中,你可以随时了解数据。因此强化学习的应用在游戏方面的成功也就不足为奇了,特别是在国际象棋和围棋这类“完美信息”型游戏上的应用。在游戏中,可以迅速根据代理和环境的反馈做出调整,从而使模型能够快速学习。强化学习的缺点则是如果问题很复杂,训练时间也许会很长。

IBM的Deep Blue曾在1997年击败了人类最佳国际象棋选手,同样,基于深度学习的算法AlphaGo也于2016年击败了人类最佳围棋选手。目前英国的DeepMind科技公司是深度学习研究的翘楚。

2019年4月,OpenAI Five团队击败了电子竞技Dota 2世界冠军队伍,成为了首个取得此项成就的人工智能团队。Dota 2是一个非常复杂的视频游戏,OpenAI Five团队之所以选择它,是因为当时没有一种强化学习算法能够在游戏中获胜。 这个击败Dota 2人类冠军队伍的AI团队还开发出了一个可重新定位一个块(可以抓东西)的机器手。

强化学习可以说是一非常强大的人工智能,今后一定会取得更多更大的进步,但同时也应记住这些方法也有局限性。

9. 自然语言处理

世界上很大一部分数据和知识都以人类语言的形式存在着。你能想象在几秒内阅读、理解成千上万的书、文章和博客吗?显然,计算机还不能完全理解人类语言,但经训练可以完成某些任务。比如可以训练手机自动回复短信或纠正拼写错的单词,甚至可以教一台机器与人进行简单交谈。

自然语言处理(NLP)本身不是一种机器学习方法,而是一种用于为机器学习准备文本的技术,其应用十分广泛。想像一下:有大量各种格式的文本文档(词语、在线博客…等),充满了拼写错误、缺少字符和字词多余的问题。目前,由斯坦福大学的研究人员创建的NLTK(自然语言工具包)是使用最为广泛的一种文本处理包。

将文本映射到数字表示,最简单的方法是计算每个文本文档中各个单词的频率。在一个整数矩阵中,每行代表一个文本文档,每列代表一个单词。这种单词频率矩阵通常称为术语频率矩阵(TFM)。在这个基础上,可以用矩阵上的每个条目除以每个词在整个文档集中重要程度的权重,从而得到文本文档的另一种流行矩阵表示。这种方法称为术语频率反向文档频率(TFIDF),通常更适用于机器学习任务。

10. 词嵌入

TFM和TFIDF是文本文档的数字表示,只根据频率和加权频率来表示文本文档。相比之下,词嵌入可以捕获文档中某个词的上下文。根据语境,嵌入可以量化单词之间的相似性,反过来这又方便了对词的算术运算。

Word2Vec是一种基于神经网络的方法,将语料库中的单词映射到了数字向量。然后,这些向量可用来查找同义词、使用单词执行算术运算,或用来表示文本文档(通过获取文档中所有词向量的均值)。比如,假设用一个很大的文本文档来估计单词嵌入,并且“king”、“queen”、“man”和“woman”这四个词也是语料库的一部分,向量(‘word’)是表示单词“word”的数字向量。为了估计向量(‘woman’),可以用向量执行算术运算:

向量(‘king’)+向量(‘woman’)-向量(‘man’)~向量(‘queen’)

掌握这十大机器学习方法,你就是圈子里最靓的崽

词(向量)嵌入的数字运算

有了单词表示,可以计算两个单词的向量表示之间的余弦相似性,以此发现单词之间的相似性。余弦相似性测量的是两个矢量的夹角。

机器学习方法可用来计算单词嵌入,但这往往是在顶部应用机器学习算法的前提步骤。例如,假设我们能访问数千名推特用户的推文,并知道这些用户中哪些人买了房子。为预测新用户买房的概率,可以将Word2Vec与逻辑回归结合起来。

你可以训练单词嵌入或使用预训练(迁移学习)单词向量集。若需下载157种不同语言的预训练单词向量,可查看FastText。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读