加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

数据科学中的强大思维

发布时间:2019-08-28 18:32:45 所属栏目:教程 来源:栗峰
导读:如果你参加过统计学入门课程,就会知道数据点可以用来激发灵感,也可以用来测试理论,但两者却不能兼顾,这是为什么呢? 图1 人类擅长在所有的事物中寻找对应的模式。 真模式,假模式,命名的模式。 我们是那种能在薯片上找到猫王的脸的生物。 如果你倾向于
副标题[/!--empirenews.page--]

如果你参加过统计学入门课程,就会知道数据点可以用来激发灵感,也可以用来测试理论,但两者却不能兼顾,这是为什么呢?

数据科学中的强大思维

图1

人类擅长在所有的事物中寻找对应的模式。 真模式,假模式,命名的模式。 我们是那种能在薯片上找到猫王的脸的生物。 如果你倾向于将模式与洞察力等同起来,请记住有三种数据模式:

  1. 存在于你的数据集中和数据之外的模式/事实
  2. 仅存在于数据集中的模式/事实
  3. 只存在于你想象中的模式/事实 

数据科学中的强大思维

图2:A data pattern can exist (1) in the entire sample, or (3) only in xkcd

数据模式可以存在于(1)所有感兴趣的人群中,(2)仅仅在样本中,或者(3)只存在于你的头脑中。

哪一种对你来说更有用,取决于你的目标是什么。

一、追求灵感

你追求的是纯粹的灵感,那么它们都非常适用。即使是来自术语apophenia中的奇特的定义apopheny(人类有错误地感知不相关事物之间的联系和意义的倾向)也可以激发你(文章里面的称呼统一一下,要么都你,要么都你吧)的创意。 创造力是没有特定的答案的,所以你需要做的就是查看你的数据,并享受它带来的乐趣。 创造力是一种额外的收获,尽量不要在这个过程中浪费太多时间。

二、崇尚事实

政府想要向你征税的时候,它一点也不关心你这一年除了财务数据之外的模式。 基于事实的决定是,通过你的欠债情况,分析去年的数据得出应该采取的方法。它会基于事实对你所欠下的债务做出决定,而做出决定的方法就是分析去年的数据。换句话说,查看数据并使用公式进行评估。你只需要对手头的数据进行描述性统计分析。前面两种模式都可以很好地做到这一点。

三、在不确定的情况下做出决策

腾讯视频:统计思维-1-什么是统计数据

YouTube:https://youtu.be/OJt-k9h9pmk

有时,理想和现实是有差距的,当你不具备做决定所需要的全部信息时,你就需要在不确定性中寻找方向,选择一个合理的行动方案。

这就是统计学,它是一门会改变你在不确定情况下思维方式的科学。它的目的是能产生一个像icarus一样的飞跃,突破你的知识局限,而不是遇到短板就突然结束。

这就是数据科学的核心挑战:如何应对数据不足的情况。

在你离开一个断崖式的障碍之前,你当然会希望你在现实中可以运用的模式是可以突破它的。换句话说,模式必须一般化才能真正有用。

数据科学中的强大思维

图3:Source: xkcd

在三种类型中,如果你是在不确定的情况下做出决策,那么只有第一种(可推广的)模式是安全的。 不幸的是,你还会在数据中发现其他类型的模式,这也是数据科学的核心问题: 如何应对数据不足的情况。

四、泛化

如果你认为从数据中提取无用的模式纯粹是人类才会做出的事情,那就大错特错了!如果你不小心,机器也会自动为你做出同样的蠢事。

ML / AI的全部要点是对出现的新情况进行正确的归纳。

机器学习是一种能做出,许多类似决策的方法,这些决策涉及在算法中查找数据中的模式,并使用这些模式对全新数据做出正确决策。 在ML / AI术语中,泛化是指这个模型能够很好地处理以前从未见过的数据。 基于模式的方法如果只能在原来的数据上起作用,那又有什么用处呢?ML / AI的全部要点是对出现的新情况也能通用。

数据科学中的强大思维

图4

这就是为什么我们列表中的第一种模式是唯一适合机器学习的模式。它是信号的一部分,其余部分只是干扰信息(这些干扰只存在于旧数据中,分散了你对于可泛化模型的注意力)。

  • 信号:存在于你的数据集中以及它之外的模式。
  • 噪声:仅存在于数据集中的模式。

事实上,在机器学习中,“过拟合”指的是获得一个处理原始干扰而不是新数据的解决方案。我们在机器学习中所做的几乎所有工作都是为了避免过度拟合。

五、寻找合适的模式

假设你(或你的机器)从数据中提取的模式超出了你的想象,那么它是哪种模式呢?它是存在于感兴趣的对象(“信号”)中的真实现象,还是当前数据集的特性(“噪声”)。如何判断在访问数据集时发现了哪种模式?

如果你已经查看了所有可用的数据,那么你就被困住了,无法判断你的模式是否存在于其他地方。统计性假设检验的分析手段取决于出现的意外情况,而对数据中已经存在的模式可能会出现的意外进行模拟,效果会差异性很大。

数据科学中的强大思维

图5

这有点像在云中看到兔子的形状,然后使用相同的云测试所有的云是否都像兔子。我希望你们需要一些新的云来验证你们的理论。

  • 任何用来激发理论或问题的数据点都不能用来测试同一理论
  • 在查看数据之前要先提出问题
  • 数学从来都不是基本常识的反制

我们在这里得到了一个结论。 如果你在寻求灵感的时候用光了你的数据集,你就不能再用它来严格测试它所带来的理论(无论你多么充分的使用数学,因为数学绝不是基本常识的反制)。

六、进行艰难的选择

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读