加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一文详解数据科学家的必备技能(附学习资源)

发布时间:2019-01-18 07:14:21 所属栏目:教程 来源:陈之炎翻译
导读:数据科学家需要涉猎的知识面很广,包括:机器学习、计算机科学、统计学、数学、数据可视化、沟通和深度学习,那么数据科学家应如何制定他们的学习预算,才能最大限度地满足雇主的需要? 我浏览了一些求职网站,想找出哪些技能是数据科学家最需要掌握的技能
副标题[/!--empirenews.page--]

数据科学家需要涉猎的知识面很广,包括:机器学习、计算机科学、统计学、数学、数据可视化、沟通和深度学习,那么数据科学家应如何制定他们的学习预算,才能最大限度地满足雇主的需要?

我浏览了一些求职网站,想找出哪些技能是数据科学家最需要掌握的技能,并对普通数据科学技能以及特定的语言和工具的特殊技能分别做了一些研究。2018年10月10日,我在LinkedIn,Indeed,SimplyHired,Monster上搜索了求职名单,下面这个图表,显示了每个网站列出的数据科学家职位的数目。

一文详解数据科学家的必备技能(附学习资源)

通过阅读这些职位清单,经过一番调查研究,我找出了数据科学家最常用的技能。像“管理”这样的术语没有进行比较,因为它们在职位清单中被太多的上下文所引用。

所有搜索都是用“数据科学家”这个关键字在美国本土进行的,采用精确匹配搜索的话,会使得搜索结果的数量大为减少。精确匹配搜索确保了搜索结果均与数据科学家的职位相关,并受到类似搜索条件的影响。

AngelList列出了需要数据科学家的上市公司的数量,而不是列出了数据科学家职位数量。我将AngelList从这两种分析中排除,因为它的搜索算法似乎是一种OR(或)类型的逻辑搜索,没有将其转换为AND(与)逻辑。

如果你搜索的关键字是 “数据科学家”“ TensorFlow”,那么只会列出需要数据科学家的公司,AngelList的搜索效果不错。但是如果你的关键词是“数据科学家” “react.js”,它会返回许多需要非数据科学家公司的列表。

Glassdoor 也被排除在我的分析之外。该网站声称,它在美国有26263个“数据科学家”职位,但能让我看到的职位不超过900个。此外,数据科学家的职位数量不可能超过其他主要平台的三倍以上。最后的分析中包括了在LinkedIn上列出400多个普通技能和200多个特殊技能,当然这其中会有一些交叉。

结果记录在下面链接的Google Sheet表格中。我下载了.csv文件并将它们导入JupyterLab中。然后,计算出了百分比,并在职位列表网站上对它们进行了平均计算。

Google Sheet表格链接:https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing

我还将软件的计算结果与JupyterLab针对2017年上半年数据科学家职位列表进行了比较。结合KDNuggets’ usage survey的信息,似乎有些技能变得越来越重要,而另一些则变得越来越不重要。我们一会儿再谈。

KDNuggets’ usage survey

https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2

请参阅我的Kaggle Kernel以获得交互式图表和其他的分析。我用Plotly对数据进行可视化。在编写这篇文章时,对使用JupyterLab的Ploly出现了一些争论-指令在我的Kaggle Kernel的结尾的Plotly’s docs之中。

Plotly’s docs

https://github.com/plotly/plotly.py

普通技能

以下是雇主最常搜索的数据科学家技能图表。

一文详解数据科学家的必备技能(附学习资源)

结果表明,分析和机器学习是数据科学家工作的核心。从数据中收集有用信息是数据科学的主要功能。机器学习的全部内容是创建系统来预测性能,这个需求非常大。

数据科学需要统计学和计算机科学技能——这一点也不奇怪。统计学、计算机科学和数学也都是大学的专业,可能有助于加大它们出现的频度。

有趣的是,在近一半的职位列表中提到了沟通,数据科学家需要能够交流见解并与他人密切合作。

人工智能和深度学习不像其他术语那样频繁出现。然而,它们是机器学习的子集。深度学习正被越来越多的机器学习任务所使用,而这些任务以前是由其他算法完成的。例如,对于大多数自然语言处理问题,最好的机器学习算法都是当前的深度学习算法。我预计,在未来,人们将更加明确地寻求深度学习技能,而机器学习将成为深度学习的代名词。

雇主们都在寻找掌握哪些特定的软件工具的数据科学家?接下来我们来解决这个问题。

技术技能

雇主们正在寻找的具备以下技能的数据科学家,其中名列前20位的特定语言、库和技术工具如下。

一文详解数据科学家的必备技能(附学习资源)

我们来简要地看看最常见的技术技能。

1. Python

Python是最受欢迎的语言。这种开源语言的受欢迎程度已广为所知。初学者容易接受,而且有很多支持资源。绝大多数新的数据科学工具都与它兼容。Python是数据科学家的主要语言。

2. R

R不逊于 Python,它曾经是数据科学的主要语言。我惊讶地看到它目前仍然很受欢迎。这种开源语言的根源在于统计学,它目前仍然很受统计学家的欢迎。Python或R对于几乎每一个数据科学家职位来说都是必须的。

3. SQL

SQL也很受欢迎。SQL是结构化查询语言,是与关系型数据库交互的主要方式。在数据科学领域,SQL有时会被忽视,但是如果您打算进入就业市场,这是一项值得展示的技能。

4. Hadoop和Spark

接下来是Hadoop和Spark,它们都是Apache提供的用于大数据的开源工具。Apache Hadoop是一个开源的软件平台,用于分布式存储和分布式处理由商业硬件构建的计算机集群上的大型数据集。

Apache Spark是一个快速、内存数据处理引擎,它具有优雅的、有表现力的开发API,使数据工作者能够高效地执行需要快速迭代访问数据集的流、机器学习或SQL工作负载。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读