加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

数据科学中的强大思维

发布时间:2019-08-28 18:32:45 所属栏目:教程 来源:栗峰
导读:如果你参加过统计学入门课程,就会知道数据点可以用来激发灵感,也可以用来测试理论,但两者却不能兼顾,这是为什么呢? 图1 人类擅长在所有的事物中寻找对应的模式。 真模式,假模式,命名的模式。 我们是那种能在薯片上找到猫王的脸的生物。 如果你倾向于

这里的问题是,你只有一个数据集,而你需要不止一个数据集。如果你有很多数据,那么我会为你模拟一个黑客攻击,扰乱你的思路。

数据科学中的强大思维

图6

七、奇特的技巧

要想在数据科学中胜出,只需通过拆分数据将一个数据集转换为(至少)两个数据集。然后用一个获取灵感,另一个用于严格的测试。如果最初启发你的模式也存在于那些没有机会影响你的观点的数据中,那么这将是一个更有希望的选择,这种模式就像是存在于猫砂里的东西,你要从中挖出你的数据。

如果相同的现象存在于两个数据集中,也许这是一个普遍的现象,它也存在于这些数据集中的任何地方。

八、令人惊叹

如果未经审视的生活不值得过下去,那么以下四个词就是生活的准则:把该死的数据拆开。

如果每个人都能分享自己的数据,世界会变得更好。我们会有更优的答案(从统计学)到更好的问题(从分析学)。人们不把数据分割作为一种强制性习惯的唯一原因是,在上个世纪,它是一种奢侈的事情,很少有人能负担得起;数据集非常小,如果你试图拆分它们,那么可能就什么都没有了。(在这里可以了解更多关于数据科学史的信息。)

数据科学中的强大思维

图7

将你的数据拆分为一个探索性数据集,每个人都可以挖掘灵感和测试数据集,以后专家可以使用这些数据集严格确认在探索阶段发现的任何“见解”。

如果你没有拆分数据的习惯,你可能会被困在20世纪。

如果你有大量的数据,但是你看到的是未分割的数据集,那么你的瓶颈可能就是会受到老式视角的影响。每个人都习惯了陈旧的思维方式,却忘记了与时俱进。

九、机器学习是数据分裂的产物

说到底,这里的想法很简单。使用一个数据集来形成一个理论,发号施令,然后开始执行,证明你知道你在一个全新的数据集中谈论的是什么。

为了更健康的数据文化,数据分割是最简单且快速解决方案。

这就是你如何在统计数据中保持安全,以及你如何避免因过度拟合ML / AI而被活活吃掉的方法。 事实上,机器学习的历史就是数据分裂的历史。

十、如何在数据科学中运用最好的理念

为了利用数据科学中优秀创意,雷锋网认为你所要做的就是确保将一些测试数据放在窥探者无法触及的地方,然后对其余的数据进行充分的分析。

要赢得数据科学,只需通过拆分数据将一个数据集转换为(至少)两个。

如果你认为他们为你提供了超出他们所探索信息的可操作洞察力,请使用你的秘密测试数据来检查他们的结论。 就这么简单!

小结:数据科学需要强大的思维逻辑,与时俱进的洞察力,还要能胆大心细摒弃一系列的干扰信息。即使是机器也并不能脱离人脑自行工作,还需要在理论与精准模式的加持下不断探索,这可真不是一项简单的工作。

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读