加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

这就是您在数据科学中获得数据的方式

发布时间:2019-12-26 01:11:19 所属栏目:移动互联 来源:站长网
导读:副标题#e# 数据科学已经发展。 这2000万个数据集就是证明。 (Er, wrong Data search tool.) 我最近最喜欢的Google搜索系列产品之一是数据集搜索。 是的,你听到的是对的。 您可以像搜索图像一样搜索数据集! 您现在可以像搜索图像一样搜索数据集! You can pl

schema.org的构想由一个财团于2011年提出:Google,Bing,Yandex,Microsoft和Yahoo。 他们厌倦了猜测已爬取网页的内容,因此他们决定创建一个通用词汇表,供提供者用来告诉他们什么。 该词汇表已嵌入HTML中,以指示哪些位描述了事件,地址,配方等。 它是一个描述不同类型信息的小模式(因此得名!)。 当您选择将schema.org添加到页面并告诉它页面包含数据集时,该数据集将有资格显示在"数据集搜索"结果中。

数据提供商使用schema.org告诉我们他们的页面上有一个数据集,并描述了一些有关它的元数据。

这不是Google特有的魔法; 这是任何人都可以贡献的开放社区标准。 许多公司已经在后台使用了多年。 Google专有的功能是您可以使用"数据集搜索"搜索这些数据集的新功能。 我们让数据提供商使用schema.org告诉我们他们的页面上有一个数据集,并描述一些有关它的元数据。 数据集搜索与常规搜索非常相似,但是结果仅限于声称拥有数据集的页面。 简单实用。

如何参与共享数据

当数据仅来自负责精心策划每个人的少数大型提供商(例如政府和大学)时,较小的参与者就没有共享它们的途径。

想象一下这种情况:一群高中女生正在从事课外机器人项目。 他们正在收集大量数据,这些数据可能对具有相似爱好的人非常有用。 他们甚至愿意分享它(他们多么友好)。 他们已经在高中网站上添加了指向该网站的链接。 恰好它们的数据恰好是帮助您进行原型制作所需的。 现在怎么办?

这就是您在数据科学中获得数据的方式


All-girls Afghan robotics team. Image: SOURCE.

如果他们的数据集不可搜索,那么您将永远找不到。 如果必须由策展人(如政府)托管他们的数据以便访问,则会被告知要排队……而且他们可能永远也不会出现在前列。 那些花费大量资源进行大量策展的提供者只有有限的时间和注意力集中在优先资源上。 结果如何? 您永远不会知道错过了什么。

这就是为什么我觉得整个数据集搜索范式非常漂亮的原因。 共享数据(无需中间人告诉您迷路)意味着即使人们有小众口味,也可以找到并提供丰富的资源……或者使高中网站晦涩难懂。

参与共享可搜索数据:

您需要数据。

您需要通过schema.org指示您有数据。 (您可以自己执行此操作,也可以将其放入Zenodo这样的存储库中,为您执行此操作。)

其他

希望同时满足这两个条件的意愿因地而异,这并不使您感到惊讶。 政府是率先索引其数据集的政府之一,因此,他们倾向于收集的数据集(天气数据,有人吗?)是您疯狂进食的最佳人选,而稀疏收集的专有数据将很少出现。 也就是说,每天都在添加更多数据,搜索为免费和付费数据提供了方便。 (有点像Google图片中带有水印的专有图片。)您可以根据自己的意愿选择要经过的门,以及收费是否值得。

人类的大局

诸如数据集搜索之类的庞大用户群,是人类在数据科学和数据素养方面的发展的象征。 我们正在成长为一个物种,并且正在扩展我们部署感官的方式,以及与信息进行交流的方式。

数据分析正在成为每个人的游戏。

过去,我们曾经在Internet上打开单个页面的能力给人留下了深刻的印象,然后在浏览器中打开50个选项卡(每个数据点一个)的能力给人留下了深刻的印象。 现在我们渴望更多。 我们希望数据集可以使用为这项工作而构建的代码工具(例如Python和R)快速定型和汇总。 精通数据的社区现在已达到临界规模。 我们中足够的人具有理解数据的技能,而我们不再满足于图片覆盖的书面页面。 (您现在正在凝视的那种。哈。)

这就是您在数据科学中获得数据的方式


Image: SOURCE.

素养的演变

要使用当前正在阅读的资源(例如您正在阅读的资源)中的信息,您需要特殊的读写能力。 您的思维需要能够将自己包裹在文字周围。 这是您理所当然的技能。 如果只有很少的人掌握这项技术,那么此博客文章将不存在。 Google可能也不存在。

同样,数据集搜索代表着数据素养民主化的上升趋势。 如果说山峰和犹豫不决的话,那么整个开发过程就是一种攀登顶峰的方式,"处理数据不再是一种完全利基的技能!"它不再局限于少数抄写员将象形文字雕刻成粘土片。 (哦,等等,那是写作。尽管是相同的想法。)

在线数据集提供了一种新的自我表达工具,它遵循了与互联网其他部分相同的规则。

数据集搜索可帮助您在聊天中找到宝石。

数据集正在成为一种广泛的交流形式-一种美丽的新语言,我们许多人都能说流利,而且每天都有很多人在学习。 对于那些从小就开始讲数据的人来说,能够以我们的语言获得搜索结果真是令人欣慰。

这就是为什么我对数据集搜索的感受直截了当的原因。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读