加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据究竟有多大?谷歌搜索的规模为62PB,排名倒数榜首

发布时间:2022-03-10 21:00:32 所属栏目:大数据 来源:互联网
导读:众所周知,算法、算力与数据是人工智能(AI)发展的三驾马车,吴恩达等学者也常说:以数据为中心的AI,或数据驱动的AI。 此外,流数据在大数据市场中也占有一席之地。Netflix 和电子通信等服务产生的流量比单纯的数据生产者要多一到两个数量级。 1 LHC 的数
      众所周知,算法、算力与数据是人工智能(AI)发展的“三驾马车”,吴恩达等学者也常说:以数据为中心的AI,或数据驱动的AI。
 
      此外,流数据在大数据市场中也占有一席之地。Netflix 和电子通信等服务产生的流量比单纯的数据生产者要多一到两个数量级。
 
1 LHC 的数据量
 
      在上一次运行(2018 年)中,LHC 在四个主要实验(ATLAS、ALICE、CMS 和 LHCb)中的每一个实验里,每秒产生大约 24 亿次粒子碰撞,每次碰撞可以提供约 100 MB 数据,因此预计年产原始数据量约为 40k EB(=10亿千兆字节)。
 
     但根据目前的技术和预算,存储 40k EB 数据是不可能的。而且,实际上只有一小部分数据有意义,因此没有必要记录所有数据。记录的数据量也降低到了每天大约 1 PB,2018 年的最后一次真实数据只采集了 160 PB,模拟数据 240 PB。
  
2 大厂数据量对比
     大公司的数据量很难追踪,且数据通常不会公开。对此,Luca Clissa 采用了费米估算法(Fermi estimation),将数据生产过程分解为其原子组成部分,并做出合理的猜测。
 
     比如,针对特定数据源,检索在给定时间窗口内产生的内容量。然后通过对这些内容的单位大小的合理猜测来推断数据总量,例如平均邮件或图片大小,1 小时视频的平均数据流量等等。
 
     他对谷歌搜索、YouTube、Facebook等等数据源进行了估算,结论如下:
 
      谷歌搜索:最近的一项分析估计,Google 搜索引擎包含 30 到 500 亿个网页。根据 Web Almanac 所提供的信息,假设谷歌的年度平均页面大小约为 2.15 MB,截至 2021 年,Google 搜索引擎的数据总规模应约为 62 PB。
 
YouTube:根据 Backlinko 的数据,2021 年用户每天在 YouTube 上上传的视频时长为 72 万小时。假设平均大小为 1 GB(标准清晰度),2021年 YouTube 的数据大小约为 263 PB。
  
电子邮件:根据 Statista 的数据,从 2020 年 10 月到 2021 年 9 月,用户大约传送了近 131,000 亿次电子通信(包含 71,000 亿封电子邮件和 60,000 亿封垃圾邮件)。假设标准邮件和垃圾邮件的平均大小分别为 75 KB 和 5 KB ,我们可以估计电子邮件的总流量约为 5.7k PB。
 
Netflix:Domo 估计,2021 年 Netflix 用户每天消耗 1.4 亿小时的流媒体播放,假设每小时 1 GB(标准定义),总计大约 51.1k PB。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读