耗时两个月，国内传统企业对Hadoop到底什么态度？

发布时间：2018-08-16 08:46:21 所属栏目：教程来源：赵钰莹

导读：技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战年初，笔者开始调研Hadoop在国内企业的应用现状，在前期的互联网企业应用现状调研中，笔者发现目前比较知名的互联网企业基本都在使用Hadoop，其生态组件，比如HDFS、Zookeeper、Map

Itpub网友renxiao2003 (传统医疗制造) ： Hadoop 可以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。

不足之处：

全量场景，任务内串行
重吞吐量，响应时间完全没有保证
中间结果不可见，不可分享
单输入单输出，链式浪费严重
链式MR不能并行
粗粒度容错，可能会造成陷阱
图计算不友好
迭代计算不友好

Hadoop和Spark解决问题的层面不一样：Hadoop和Apache Spark都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多的是一个分布式数据基础设施，它将巨大的数据集分派到由普通计算机组成的集群中的多个节点进行存储，意味着用户不需要购买和维护昂贵的服务器硬件。Spark专门用于对分布式存储数据进行处理，并不会进行分布式数据存储。

Hadoop和Spark可合可分：Hadoop除了提供HDFS之外，还提供了叫做MapReduce的数据处理功能，因此可以完全抛开Spark进行数据处理。相反，Spark也不是非要依附在Hadoop身上才能生存。如上所述，毕竟它没有提供文件管理系统，所以，它必须和其他分布式文件系统集成才能运作。