加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

想当数据科学家的你这13个错误可别犯

发布时间:2018-08-16 08:47:30 所属栏目:教程 来源:佚名
导读:技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战 前言 当你看这篇文章的时候,我们知道你已经决定把数据科学当作你的工作。当下越来越多的企业需要数据支持其决策,世界也变得越来越紧密,几乎每个企业都需要大量的数据科学实践。

这是近来数据科学家们最大误解之一。竞赛和黑客马拉松提供了相当干净、一尘不染的数据集(好吧,说得是有点过了,懂我的意思就好)。你下载它们然后着手解决问题。即使这些数据集有一些缺失数值的数据列也不会多么麻烦,找到一种插补技术然后填空就好。

不幸的是真实世界里的项目并不这样。真实世界中有一条涉及与一群人一起工作的端到端的流程。你几乎总得和混乱、未清洗的数据打交道。俗话说得好,“花费你 70-80% 的时间,收集、清洗数据”是一点也不为过的。你会(很可能)不喜欢这个令人筋疲力尽的过程,但它最终会变成你日常工作的一部分。

此外还有一点我们将在下文中详谈,那就是简单的模型要优先于任何复杂的、堆砌的集成模型。准确性不总是最终目标,这是你会在工作中学到的最矛盾的事。

如何避免这个问题?

令人尴尬的是避开这个误区的重要因素是经验,你获得越多经验(这种情况下实习会大有助益),你越能区分这两者。这就是社交媒体的方便之处:多跟数据科学家们聊聊,问问他们的经验。

另外,我建议看看这个 Quora 问题,来自世界各地的科学家就这个问题在上边表达了他们的看法。竞赛排行榜确实适合衡量你的学习进度,但面试官想知道的是你怎样去优化一个算法来产生影响,而不是为优化而优化。学习一个数据科学项目如何运转,一个团队里有哪些不同的角色(从数据工程师到数据架构师),基于你的理解构建你的回答。

5. 注重模型的精度胜过其适用性和可解释性

想当数据科学家的你这13个错误可别犯

来源:Design Shack

正如以上所述,精确度并不总是业务所追求的。固然一个能以 95% 的精确度预测贷款违约的模型相当不错,但若你无法解释这个模型如何做到这一点,什么特性使其如此,以及你在建构模型时的思路是什么,你的客户就会拒绝这个模型。

极少地,如果有的话,你会看到深度神经网络用于商业应用中。向客户解释一个神经网络(更别说深度神经网络)是如何利用其隐藏层、卷积层等来得到其结果是不可能的。首要且必须考虑应该是我们能够理解模型之下发生着什么。如果你没法判断年龄、家庭成员数目、抑或此前的信用记录是否与拒绝信贷申请有关,你该如何向你的客户做出建议让他们能改进他们的业务?

另一个关键方面是你的模型能否契合组织业已存在的框架。如果开发环境不能支持你使用的 10 种不同的工具和库,这将相当失败,你将不得不用一种更简单的方法从零开始重新设计并重建模型。

如何避免这个问题?

避免这个错误的最好方法便是与业界人士交流,没有比经验更好的老师。选择一个领域(金融,人力资源,销售,运营等)并与他们联系,了解他们的项目是如何运转的。

除此之外,练习构建简单的模型并向非技术人员解释它们。随后提升模型的复杂度并继续这么做,直到即使是你也不能理解其表层之下发生着什么。这将教会你何时停止,以及为何现实世界的应用中简单的模型总是更受青睐。

6. 在简历中使用过多的数据科学术语

想当数据科学家的你这13个错误可别犯

如果你之前这么干过,你就应该知道我指的是什么。如果你的简历现在就有这个问题,请立即修正!你或许清楚一堆技术和工具,但只是简单地罗列他们无异于使潜在的招聘经理对你失去兴趣。

你的简历是对你取得的成就以及你如何做到的概括,而不是不是简单罗列的事情清单。当招聘官查看简历的时候,他/她希望能以简洁明快的方式了解你的背景知识以及你所取得的成就。如果半页简历都充斥着模糊的数据科学术语,例如线性回归、XGBoost、LightBGM,却没有任何解释,你的简历可能通不过筛选轮。

如何避免这个问题?

使简历变得整洁的最简单方法便是使用项目符号。只列出你用来完成某件事情(可以是项目或竞赛)的技术。扼要地阐述你是如何使用它们的,这将帮助招聘官理解你的想法。

当你申请对经验要求较少或入门级的工作时,你的简历需要反映你能给业务带来何种潜在影响。你可能会申请不同领域的工作角色,因而有一个固定的简历模板是非常有帮助的,你只要对应于不同的岗位要求对你的简历稍作调整以反应出你对此行业的兴趣就可以了。

7. 优先考虑该使用的工具和各种库而不是业务本身要解决的问题

想当数据科学家的你这13个错误可别犯

来源:Data Science Lab

让我们通过一个例子来理解一下为何这是一个错误。想象你有一个房价数据集,而且你要预测未来房地产的价值。数据库中有超过 200 个变量,包括建筑物数量、房间数量、租户数量、家庭规模、庭院大小、是否有水龙头等。你很可能无法理解某些变量的意义,但你依然可以建构一个准确的模型,只是关于为何某个特定变量不产生影响,你可能完全没有头绪。

随后事实证明,那个变量是现实世界中的关键要素。这是个灾难性的错误。

有着库和工具的坚实基础是件好事,但这也只能在一定程度上帮到你。将这些知识与领域提出的业务问题结合起来才是真正的数据科学家所做的,你应该了解你感兴趣(或正谋求职位)的领域中的基本挑战。

如何避免这个问题?

这里有不少选择:

• 如果你正在谋求某个特定领域中的数据科学家职位,去关注该领域的公司如何应用数据科学。

• 若可行,寻找特定领域的数据集并着手处理它们。这会是你的简历中一个非常突出的要点。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读