加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Hadoop运行在Kubernetes平台实践

发布时间:2018-12-18 12:09:14 所属栏目:教程 来源:店家小二
导读:Hadoop与Kubernetes就好像江湖里的两大绝世高手,一个是成名已久的长者,至今仍然名声远扬,一个则是初出茅庐的青涩少年,骨骼惊奇,不走寻常路,一出手便惊诧了整个武林。Hadoop与Kubernetes之间有很深的渊源,因为都出自IT豪门Google,只不过,后者是亲

当作业执行完成后,可以通过界面看到详细的统计信息,比如wordcount的执行结果如下图所示:

Hadoop 运行在 Kubernetes平台实践

最后,我们进行了裸机版Hadoop集群与Kubernetes之上的Hadoop集群的性能对比测试,测试环境为十台服务器组成的集群,具体参数如下:

硬件:

  • CPU:2*E5-2640v3-8Core
  • 内存:16*16G DDR4
  • 网卡:2*10GE多模光口
  • 硬盘:12*3T SATA

软件:

  • BigCloud Enterprise Linux 7(GNU/Linux 3.10.0-514.el7.x86_64 x86_64)
  • Hadoop2.7.2
  • Kubernetes 1.7.4+ Calico V3.0.1

我们执行了以下这些标准测试项:

  • TestDFSIO:分布式系统读写测试
  • NNBench:NameNode测试
  • MRBench:MapReduce测试
  • WordCount:单词频率统计任务测试
  • TeraSort:TeraSort任务测试

综合测试下来,Hadoop跑在Kuberntes集群上时,性能有所下降,以TestDFSIO的测试为例,下面是Hadoop集群文件读取的性能测试对比:

Hadoop 运行在 Kubernetes平台实践

我们看到,Kubernetes集群上的文件读性能与物理机相比,下降了差不多30%左右,并且任务执行时间也增加不少,再来对比文件写入的性能,测试结果如下下图所示:

Hadoop 运行在 Kubernetes平台实践

我们看到,写文件性能的差距并不大,这里的主要原因是在测试过程中,HDFS写磁盘的速度远远低于读磁盘的速度,因此无法拉开差距。

之所以部署在Kuberntes上的Hadoop集群的性能会有所下降,主要一个原因是容器虚拟网络所带来的性能损耗,如果用Host Only模型,则两者之间的差距会进一步缩小,下图是TestDFSIO测试中Hadoop集群文件读取的性能测试对比:

Hadoop 运行在 Kubernetes平台实践

因此我们建议在生产环境中采用Host Only的网络模型,以提升Hadoop的集群性能。

攻下Hadoop在Kubernetes上的部署,并且在生产中加以验证,我们可以很自豪的说,现在没有什么能够难倒应用向Kubernetes的迁移的步伐,采用统一的PaaS构建企业的应用集群和大数据集群,实现资源的共享和服务的统一管理将会大大的提升企业的业务部署速度和管理的效率。

【编辑推荐】

  1. 如何将传统关系数据库的数据导入Hadoop?
  2. Hadoop,Zookeeper这些名字都是怎么来的呢?
  3. 如何将kafka中的数据快速导入Hadoop?
  4. 三大方法保护Hadoop集群免遭攻击!
  5. Hadoop架构已凋谢吗 ?
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读