加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

六个超大规模Hadoop部署分析

发布时间:2021-08-11 13:09:13 所属栏目:大数据 来源:互联网
导读:虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来

    这家公司的首席软件工程师Jnathan Seidman和另一名工程师Ramesh Venkataramiah一向乐于讨论这家旅游网站的基础设施如何加以管理。他们俩在最近面向多位听众的一次交流中讨论了Hive的作用,尤其是对一些关键搜索功能所起的作用。

 

 

    Hadoop和Hive帮助这家在线旅游中心处理各项事务:改进让游客可以迅速筛选和分类酒店的功能,到查看更宏观内部趋势的功能,不一而足。据这两位工程师声称,rbitz的大数据问题让它成为运用Hadoop的“典型”.他们俩表示,面对很分散的服务网络--这些服务每天生成数百GB大小的当天日志,处理每天数百万的这些搜索和交易,这绝非易事。

 

 

    他们俩演示了如何利用Hadoop和Hive来处理数据;可能更重要的是,演示了什么使得这家公司的特定问题最适合用Hadoop来处理(因为需要提醒的是一点,并非所有业务都有Hadoop的用武之地)

 

 

[page]    案例之四:Facebook更新Hadoop的状态

 

 

    虽然一些公司和机构对其庞大的Hadoop系统秘而不宣,但是就已知存在的系统而言,Facebook的数据仓库Hadoop集群已成为世界上已知规模最大的Hadoop存储集群。

 

 

    下面是关于这个单一HDFS集群的一些详细信息:

 

 

    单一HDFS集群中存储容量达21PB

 

 

    2000个机器

 

 

    每个机器12TB(有几个机器是每个24TB)

 

 

    1200个机器每个有8个处理器核心,800个机器每个有16个核心

 

 

    每个机器有32GB内存

 

 

    每个机器有15个映射/化简(map-reduce)任务

 

 

    已配置存储容量总共超过21PB,大于之前大名鼎鼎的雅虎集群(14PB)。在Hadoop的早期,Facebook就与另外几个互联网巨擘,充分利用这种框架来管理其不断发展的业务。

 

 

    由于每月活跃用户超过4亿个,页面浏览量超过5000亿人次,每个月共享的内容多达250亿则,对于自称能够处理大数据问题的任何技术而言,Facebook是再合适不过的应用环境。

 

 

    Facebook的工程师与雅虎的Hadoop工程小组密切合作,把Hadoop推向更高的可扩展性和性能。Facebook有许多Hadoop集群,其中最大的一个集群用于数据仓库。下面一些统计数字描述了Facebook的数据仓库Hadoop集群的几个特点:

 

 

    每天增加12TB的压缩数据

 

 

    每天扫描800TB的压缩数据

 

 

    每天处理25000个映射/化简作业

 

 

    HDFS里面有6500万个文件

 

 

    30000个客户机同时访问HDFS NameNde

 

 

    Facebook的软件工程师、开源倡导者Jnathan Gray演示了Facebook如何一直使用更庞大Hadoop平台架构的一部分:HBase,支持生产环境下的在线应用程序和离线应用程序。

 

 

    虽然幻灯片有点深奥,又针对特定环境,但是大致描述了HBase适合的那种复杂数据环境;而更重要的是,描述了这个环境需要怎样的一些重大调整和专门知识才加以管理。HBase仅仅是Facebk管理海量数据、为用户提供异常智能化服务的方法之一。

 

 

    案例之五:Infchimps处理一百万倍的混合(mashup)

 

 

    问一下Phillip “Flip” Krmer哪里能找到几乎任何的列表、电子表格或数据集,他会很高兴地向你介绍他的公司InfChimps,这家公司自称是“全世界的数据仓库”.

 

 

    每个月都有成千上万的人访问该网站进行搜索,查询特定的数据。最近,该网站的用户在查询推特和社交网络数据。其较为传统的数据集包括其他热门数据,比如金融、体育比赛和股票数据。

 

 

    Krmer表示,当然,用户们在别的地方也能查询这些数据集,但是他们常常访问InfChimps,未必是由于缺少数据或者很难获得数据,而是由于别处获取数据的成本极其高昂,或者数据采用了不适合使用的格式--至少对Infchimps面向的开发人员这个客户群来说是这样。

 

 

    这家公司正在装配一个数据存储库,里面含有成千上万的公共和商业数据集,许多数据集达到了TB级。现代机器学习算法通过借助数据的一般结构,深入分析数据;即便数据有机地嵌入到链接数据集里面,也是如此。当然,所有这些工作会带来一个复杂的数据环境,势必需要一种能够跨多个对象运行的平台,无论对内部(数据收集和管理方面)来说,还是对平台用户来说,都是如此。

 

 

    Infchimps让用户们可以借助使用Hadoop以及亚马逊云和Rackspace云的基础设施,充分利用数据。你可以看到,这家公司充分利用了弹性Hadoop,还利用了亚马逊网络服务(AWS)和Rackspace,同时在后端上使用Hadoop满足自己的要求。

 

 

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读