加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

“老司机”划重点!搞定这120个真实面试问题,杀进数据科学圈

发布时间:2019-03-07 19:59:33 所属栏目:教程 来源:Github 编译:陆震、张秋玥、蒋宝尚 直到今天,在各类媒
导读:大数据文摘出品 来源:Github 编译:陆震、张秋玥、蒋宝尚 直到今天,在各类媒体口中,数据科学家依然是21世纪最性感的职业。但事实上,希望进入这个行业的初级数据科学家已经供过于求。 可以预见的是,各种高校相关专业的毕业生,在完成coursera或者fast.
副标题[/!--empirenews.page--]

数据科学

大数据文摘出品

来源:Github

编译:陆震、张秋玥、蒋宝尚

直到今天,在各类媒体口中,数据科学家依然是“21世纪最性感的职业”。但事实上,希望进入这个行业的初级数据科学家已经供过于求。

可以预见的是,各种高校相关专业的毕业生,在完成coursera或者fast.ai的课程后,都希望得到一份跟“数据”相关的岗位。据统计,部分职位的供求比已经达到了1:200。

那么,如何能在这条独木桥上杀出重围、脱引而出呢?

金三银四求职季,江湖传言在三月份和四月份找工作和跳槽成功的概率最大。不同于程序员这样的纯技术工种,求职成为一名数据科学家似乎需要“上知天文,下知地理”。

毕竟,数据科学领域集成了多种不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机编程,统计学,数据工程,模式识别和学习,可视化,不确定性建模,数据仓库,以及从数据中析取规律和产品的高性能计算。

今天文摘菌会给大家推荐一份数据科学面试资料,资料收集了来自顶级技术公司的访调员和数据科学家。从浅入深的囊括了沟通、数据分析、模型预测、编程、概率、产品指标等7个部分的共120个面试问题。

根据官方网站,这份资源由Max、Carl、Henry以及William四位合作编写,这四位好基友都有数学科学以及数据分析的背景,也非常互补,也因此让这份资料变得弥足珍贵。

这份资料,在官方网站上需要付19美元可以获取完整版(包括问题和答案)。

先放上资料官网,非常需要的读者请购买支持正版哦:

https://www.datasciencequestions.com/

当然,如果你只是想了解这份资料的大概内容,或者测试一下自己是否掌握了数据科学家需要的知识,文摘菌在github上也找到了这份资料的缩略问题版,少部分概念以及定义性的问题有答案,对于开放性的问题,欢迎大家在留言区给出你的答案哦。

文摘菌精选了这份资料中的部分问题和答案,完整版戳下边链接自取。

github地址:

https://github.com/kojino/120-Data-Science-Interview-Questions

沟通

(1) 向我解释一个与你正在面试的角色相关的技术概念。

(2) 向我介绍你所热爱的事情。

(3) 你会如何向没有统计背景的工程师解释A/B测试,线性回归呢?

A/B测试,也就是多变量测试,通过测试用户的不同体验,来确定哪种改变有助于企业更加有效地实现其目标(如增加转换等)。它可以是网站上的文本信息,按钮的颜色,不同的用户界面,不同的电子邮件主题行,号召性用语,优惠等。

(4) 你会如何向没有统计背景的工程师解释置信区间以及95%的置信度的意思?

参考链接:https://www.quora.com/What-is-a-confidence-interval-in-laymans-terms

(5) 你会如何向一组高级管理人员解释为什么数据很重要?

数据分析

(1) 给定一个数据集,分析这个数据集并告诉我你可以从中了解到什。

(2) 什么是R2?可能比R2更好的指标有哪些,为什么?

答:拟合良好,是由该回归/总方差解释的那部分方差;你添加的预测变量越多,R^2越大;因而使用因自由度调整的R ^ 2;或着训练误差指标。

(3) 什么是维度灾难?

  • 高维度使得聚类变得困难,因为拥有大量维度意味着彼此相差很大。例如,为了覆盖一小部分数据,随着变量数量的增加,我们需要处理每个范围广泛的变量;
  • 所有样本都靠近样本的边缘。这非常糟糕,因为在训练样本的边缘附近做出预测要更加困难;
  • 随着维度 p的增加,采样密度呈指数下降,因此在没有更多的数据量的情况下,该数据会变得更加稀疏;我们应该进行PCA分析以降低维度。

(4) 更多的数据就总是更好么?

从统计来说,它取决于你的数据的质量,如果您的数据有偏差,获取再多数据也毫无用处;它取决于你的模型。如果你的模型能够承受高偏差,获取更多数据不会太过明显地提高你的测试结果。你需要添加更多特征,或者做别的处理。从实战来说,也需要在拥有更多数据和额外存储,计算能力以及所需内存之间进行权衡。因此,始终要考虑拥有更多数据的成本。

(5) 分析数据之前绘制图表有什么好处?

数据集会有错误。你不会找到全部的错误,但你或许能够找到其中的一些。比如那个212岁的男人以及那个9英尺高的女;变量会有偏度,异常值等。算术平均值可能用不了,这也意味着标准差用不了;变量可以是多峰的!如果变量是多峰的,那么任何基于其的均值或着中位数的都是可疑的。

模型预测(19个问题)

(1) 给定一个数据集,分析这个数据集并给出一个可以预测这个响应变量的模型。

由拟合简单的模型(多元回归,逻辑回归)开始,相应地选取一些特征,然后尝试一些复杂的模型。要始终将数据集拆分为训练集,验证集和测试集并使用交叉验证来观察模型的表现;确定问题是分类问题还是回归问题;倾向于选用运行快速可以轻松解释的简单模型;提及交叉验证作为评估模型的一种方法;绘制图表且将数据可视化。

(2) 如果测试数据的分布与训练数据的分布明显不同,可能会出现什么问题?

  • 训练时具有高精度的模型在测试时可能具有较低的精度。在没有进一步了解的情况下,很难知道哪个数据集代表了总体的数据,因而很难测量算法的泛化程度;
  • 这应该可以通过重复划分训练集和测试集来缓解(如交叉验证);
  • 当数据分布发生变化时,称为数据集漂移。 如果训练数据和测试数据的分布不同,分类器可能会过度拟合训练数据。

(3) 有什么方法可以让我的模型对异常值的鲁棒性更高?

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读