加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

“老司机”划重点!搞定这120个真实面试问题,杀进数据科学圈

发布时间:2019-03-07 19:59:33 所属栏目:教程 来源:Github 编译:陆震、张秋玥、蒋宝尚 直到今天,在各类媒
导读:大数据文摘出品 来源:Github 编译:陆震、张秋玥、蒋宝尚 直到今天,在各类媒体口中,数据科学家依然是21世纪最性感的职业。但事实上,希望进入这个行业的初级数据科学家已经供过于求。 可以预见的是,各种高校相关专业的毕业生,在完成coursera或者fast.

MSE对异常值更加严格。在这个意义上MAE鲁棒性更好,但也更难以拟合模型,因为它无法在数值上进行优化。因此,当模型的可变性较小且在计算上容易拟合时,我们应该使用MAE,否则应该使用MSE。

  • MSE:更容易计算梯度
  • MAE:计算梯度需要线性编程MAE对异常值更加稳健。

如果较大错误造成的后果很严重,使用MSEMSE相当于最大化高斯随机变量的可能性。

(5) 你会什么误差指标来评估二分类器的好坏?如果类别不平衡怎么办?如果超过2组怎么办?

  • 准确性:你正确预测的情况的比例。优点:直观,易于解释,缺点:当类标签不平衡且数据信号较弱时效果不。
  • AUROC:在x轴上绘制fpr,在y轴上绘制tpr以获得不同的阈值。给定随机正例和随机负例,AUC是你能可以识别类别的概率。优点:在测试分类能力时效果很好,缺点:不能将预测解释为概率(因为AUC由排名决定),因此无法解释模型的不确定性。
  • logloss/deviance:优点:基于概率的误差度量,缺点:对假阳性,假阴性非常敏感。当有超过2组时,我们可以使用k个二分类并将它们添加到logloss中。 像AUC这样的一些指标仅适用于二分类情况。

概率

(1) 阿米巴虫波波生0个、1个或2个小阿米巴虫的概率分别是25%、25%以及50%。这些小阿米巴虫们的繁殖能力也都一样。请问波波的后代灭绝的概率是多少?

  • p=1/4+1/4p+1/2p^2 => p=1/2

(2) 任何15分钟时间段内,你看到至少一颗流星的概率是20%。请问在一小时内你看到至少一颗流星的概率是多少?

  • l 1-(0.8)^4。 或者我们用泊松过程也可以解。

(3) 仅使用一枚色子,你如何生成一个1-7内随机数?

  • 丢三次色子:每一次丢的都是结果的第n位
  • 每次丢色子时,如果值为1-3,则记录0,否则记录1。结果会位于0(000)与7(111)之间,均匀分布(因为这三次抛掷互相独立)。如果得到0则重复抛掷:该过程会终止于均匀分布的值。

(4) 有一个数据集包含来自两个正态分布的数值。两个分布的标准差相同。来自两个分布的数据点个数相同。请问如果想要该数据集呈双峰分布,两个分布的均值应当至少差多少?

  • 多于两个标准差

(5) 提供已知正态分布的样本值,请问你能如何模拟一个均匀分布的样本值?

  • 将值代入同一随机变量的累计分布函数

(6) 一对夫妻告诉你他们有两个小孩,其中至少有一个是女孩。请问他们拥有两个女儿的概率是多少?

  • 1/3

产品指标

(1) 对于一个广告驱动的消费者产品(比如Buzzfeed,YouTube,Google搜索等),什么可以称为好的成功衡量指标?服务驱动的消费者产品(比如优步,Flickr,Venmo等)呢?

  • 广告驱动:页面浏览量与每日活跃量,点击率,每次点击成本
  • 服务驱动:购买量,转化率

(2) 对于一个效率工具(比如印象笔记,Asana,Google文档等),什么可以称为好的成功衡量指标?线上课程平台(比如edX,Coursera,Udacity等)呢?

  • 效率工具:付费订阅用户数
  • 线上课程平台:付费订阅用户数,课程完成率

(3) 对于一个电商产品(比如Etsy,Groupon,Birchbox等),什么可以称为好的成功衡量指标?订阅产品(比如Netflix,Birchbox,Hulu等)呢?高级付费订阅(比如OKCupid,领英,Spotify等)呢?

  • 电商产品:购买量,转化率,时/日/周/月/季/年销售额,,售出产品成本,存货量,网站流量,净回头客量,客服电话量,平均解决问题时长
  • 订阅产品:流失量,(不知道接下来这几个都是啥)
  • 高级付费订阅:(无解答)

(4) 对于高度依赖于用户投入与交互的消费者产品(比如Snapchat,Pinterest,Facebook等),什么可以称为好的成功衡量指标?通讯产品(比如GroupMe,Hangouts,Snapchat等)呢?

  • 高度依赖于用户投入与交互的消费者产品:user AU ratios,分类型邮件汇总,分类型推送通知汇总,复活率。
  • 通讯产品:(无解答)

(5) 对于拥有app内购服务的产品(比如Zynga,愤怒的小鸟以及许多其他游戏),什么可以称为好的成功衡量指标?

  • 用户/付费用户平均营收

编程(14题)

(1) 编写一个函数,计算2n个用户所有可能分配向量,其中n个用户为控制组,n个用户为治疗组。

  • 递归编程

(2) 提供一个包含推特消息的列表,求十个最常用的的标签。

  • 在字典中存储所有标签然后求前十值

(3) 在给定时间内写出算法求解背包问题的最佳近似解。

  • 贪婪算法

(4) 在给定时间内写出算法求解旅行商问题的最佳近似解。

  • 贪婪算法

(5) 你将得到一个大小为n的数据集,但你无法提前知道n具体有多大。写出一个占据O(k)的算法来随机抽取k个元素。

  • 水塘抽样

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读