加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

耗时两个月,国内传统企业对Hadoop到底什么态度?

发布时间:2018-08-16 08:46:21 所属栏目:教程 来源:赵钰莹
导读:技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战 年初,笔者开始调研Hadoop在国内企业的应用现状,在前期的互联网企业应用现状调研中,笔者发现目前比较知名的互联网企业基本都在使用Hadoop,其生态组件,比如HDFS、Zookeeper、Map

Itpub网友renxiao2003 (传统医疗制造) : Hadoop 可以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。

不足之处:

  • 全量场景,任务内串行
  • 重吞吐量,响应时间完全没有保证
  • 中间结果不可见,不可分享
  • 单输入单输出,链式浪费严重
  • 链式MR不能并行
  • 粗粒度容错,可能会造成陷阱
  • 图计算不友好
  • 迭代计算不友好

Hadoop和Spark解决问题的层面不一样:Hadoop和Apache Spark都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多的是一个分布式数据基础设施,它将巨大的数据集分派到由普通计算机组成的集群中的多个节点进行存储,意味着用户不需要购买和维护昂贵的服务器硬件。Spark专门用于对分布式存储数据进行处理,并不会进行分布式数据存储。

Hadoop和Spark可合可分:Hadoop除了提供HDFS之外,还提供了叫做MapReduce的数据处理功能,因此可以完全抛开Spark进行数据处理。相反,Spark也不是非要依附在Hadoop身上才能生存。如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他分布式文件系统集成才能运作。

三、Hadoop生态中哪些组件表现较好?哪些是时候淘汰了?

耗时两个月,国内传统企业对Hadoop到底什么态度?

总结

大部分用户认可Hadoop在国内传统企业的应用状况与互联网企业不同,并更倾向于传统企业不如互联网企业应用广泛的观点,主要考虑到传统企业的数据量不如互联网企业多,且传统企业部署Hadoop的成本较高。至于Hadoop与Spark的关系,大多数网友倾向于将Spark与Hadoop集成,以弥补Hadoop的劣势,但是相比较而言,Hadoop略占上风,Spark需要在HDFS之上运行,虽然找到一个替代HDFS的组件并不难,但要想完全还原甚至超越其功能的组件目前还未曾出现在大规模生产验证环境中。

【编辑推荐】

  1. 大数据处理引擎Spark与Flink大比拼
  2. 干货:如何将Hadoop存储容量提升4倍?
  3. Hadoop生态组件Yarn之长期运行服务支持篇!
  4. Oracle与Hadoop对比:一致性和高性能不可兼得!
  5. 对Spark的那些【魔改】
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读