加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

这就是您在数据科学中获得数据的方式

发布时间:2019-12-26 01:11:19 所属栏目:移动互联 来源:站长网
导读:副标题#e# 数据科学已经发展。 这2000万个数据集就是证明。 (Er, wrong Data search tool.) 我最近最喜欢的Google搜索系列产品之一是数据集搜索。 是的,你听到的是对的。 您可以像搜索图像一样搜索数据集! 您现在可以像搜索图像一样搜索数据集! You can pl
副标题[/!--empirenews.page--]

数据科学已经发展。 这2000万个数据集就是证明。

这就是您在数据科学中获得数据的方式


(Er, wrong Data search tool.)

我最近最喜欢的Google搜索系列产品之一是数据集搜索。 是的,你听到的是对的。 您可以像搜索图像一样搜索数据集!

您现在可以像搜索图像一样搜索数据集!

这就是您在数据科学中获得数据的方式


You can play with Dataset Search here.

数据集搜索如何评价公众的数据素养

如果没有人使用Google的垂直搜索引擎(如Google Images或Google Scholar),它们将不会持续很长时间,因此它们的种类告诉您人们倾向于在互联网上寻找什么的一些信息。 图片,视频和新闻不足为奇。 但是数据集? 您的提示是,不仅要为遥远的冰屋中的三位孤立的教授使用数据集。 好大 …而且越来越大。

有什么收获? 没有一个。 这实际上与使用Google图片或Google学术搜索进行搜索相同,只是针对数据集。 当前已建立索引并可以使用超过2000万(!)数据集……并且该索引正在快速增长。

今天,您可以轻松触及2000万个数据集……明天还会有更多。

现在您已经知道它的存在,您可以在这里试用它,也可以继续讨论"数据集搜索"的工作原理以及它对数据科学专业和整个人类的意义。

这就是您在数据科学中获得数据的方式

我最近的数据集搜索会话的屏幕截图。 早在我读研究生时,我就会毫无顾虑地寻找有关在何处乞求访问此类数据的线索。 (从字面上看,这是我们要做的事情:写一封长长的电子邮件,恳求其他实验室回应,通常无济于事。请耐心等待新方法的简易性。)

加速分析的一场革命

Analytics(分析)是数据科学的一部分,旨在迅速激发灵感。 与统计或机器学习不同,分析的最高优点是速度。 (为安全起见,优秀的分析人员可避免在得出新数据之前就得出结论。)

更快地访问数据可为您提供更强大的分析功能。

您知道容易找到数据集时会得到什么吗? 更快的分析! 数据集搜索代表了您所有专业分析师和数据科学家的不可思议的速度提升。 (但是,如果您有认真对待灵感的危险,请务必谨慎地采用统计方法进行跟进。)

是的,但是真正的收获是什么?

如果您是在一个数据集非常稀有,珍贵并且经常由教授或数据提供者策划的世界中长大的,就像我们大多数人一样! —您可能会出现一些无意识的偏见:您假设提供数据的人应对数据质量负责(并且可能在某处藏了一两个博士学位)。 如果您主要是在学习或科学的背景下使用数据集,则可能会给人一种印象,即数据集在到达您之前就受到了精心的按摩。

现实生活中的数据科学是一个丛林,而不是您的教授策划的神圣空间。

暂时搁置这一偏见,然后考虑另一种偏见:外行人之间数据崇拜的毒性作用。 任何倾向于用大写" D"表示数据的人都可能会认为,以结构化形式打包的所有信息都是有用且真实的。 嘿,这不是魔术。 不要相信您阅读的所有内容,也不要相信每个数据集。 在此处了解有关数据性质和数据崇拜的更多信息。

如果您过着大多数为您提供数据的人享有声誉的生活,并且/或者被教导您崇拜数据和科学,那么您将感到震惊。 你猜怎么了! 数据集可能是一堆结构化的垃圾。 可能会坏掉。 它可以弥补, 可能是60亿个零。 可能什么都没有。 就像文字一样!

"如果是写在书上,那一定是真的……"

说到文字:"如果是写在书上,那一定是真的……"对吗? 错误! 更糟糕的是:"如果是在网上写的,那一定是真的……"我看到你刚刚拉过的脸,我很喜欢。 好。 您对此表示怀疑。 你应该。 现在,"如果它写在数据集中,那一定是真的……"

这就是您在数据科学中获得数据的方式


A book! It must be true.

那里有很多垃圾,因为任何人都可以写他们想要的东西。 与其相信它, 相反,您需要花一点时间来考虑数据源。 很好,因为这种习惯也将使您在数据领域中保持安全。

如果您习惯于信任数据而不是书面数据,请当心。

您可能有这种习惯,而没有意识到。 不要将数据视为大写字母D的缩写。 重新定向您的街头网络习惯,即您在搜索Google图片或整个网络时经常使用的习惯。 您知道,当您问得好时,Google不会拥有或编辑这些猫图片或它提供的隐形药水配方。 (您知道那些隐形药水是行不通的,对吗?)您知道质量会有所不同,并且要由您来认真考虑一下来源,然后再相信所有阅读内容。 您知道互联网上有各种各样的东西,而且您已经很容易受到欺骗。 好吧,主要是。 即使是我们最好的人,也偶尔会点击那些"一个怪诞的把戏"链接或古怪的新闻报道。

如果您将通常的街头互联网搜索怀疑度应用于数据集搜索,则不会有任何收获。

这就是您在数据科学中获得数据的方式

像对待任何其他Internet搜索结果一样对待Dataset Search结果。 该工具将帮助您大海捞针,但您需要仔细检查猫所拖入物体的质量。

但是,如果要在质量各异的巨大可搜索的聚宝盆猫图片和3张精美策划的猫图片的小相册之间进行选择,我会每天选择前者。 (嗯,我实际上会选择这两个,因为我很贪婪……您也可以。这些搜索工具没有一夫一妻制。)

互联网主要是垃圾邮件

并非所有事物都对您有好处。 也就是说,Google会竭尽全力打击垃圾邮件并优先考虑合法结果。 是的,人们会把垃圾数据集放到那里来吸引您的注意力,是的,我们将其排名以尝试为您提供优质的服务。 就像常规搜索一样。 但是您不应该期望这些东西是完美的。

要使您的数据集可搜索,只需将schema.org中的元数据添加到描述数据集的每个网页上。

任何人都可以做到,就像任何人都可以写博客文章一样。 可能是垃圾(也许此博客文章是……呃,哦),所以请认真考虑来源。

如果您要使用自由数据,则需要保持智慧。 不要相信您阅读的所有内容。

它是如何工作的,schema.org是什么?

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读