耗时两个月,国内传统企业对Hadoop到底什么态度?
Itpub网友renxiao2003 (传统医疗制造) : Hadoop 可以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。 不足之处:
Hadoop和Spark解决问题的层面不一样:Hadoop和Apache Spark都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多的是一个分布式数据基础设施,它将巨大的数据集分派到由普通计算机组成的集群中的多个节点进行存储,意味着用户不需要购买和维护昂贵的服务器硬件。Spark专门用于对分布式存储数据进行处理,并不会进行分布式数据存储。 Hadoop和Spark可合可分:Hadoop除了提供HDFS之外,还提供了叫做MapReduce的数据处理功能,因此可以完全抛开Spark进行数据处理。相反,Spark也不是非要依附在Hadoop身上才能生存。如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他分布式文件系统集成才能运作。 三、Hadoop生态中哪些组件表现较好?哪些是时候淘汰了? 总结 大部分用户认可Hadoop在国内传统企业的应用状况与互联网企业不同,并更倾向于传统企业不如互联网企业应用广泛的观点,主要考虑到传统企业的数据量不如互联网企业多,且传统企业部署Hadoop的成本较高。至于Hadoop与Spark的关系,大多数网友倾向于将Spark与Hadoop集成,以弥补Hadoop的劣势,但是相比较而言,Hadoop略占上风,Spark需要在HDFS之上运行,虽然找到一个替代HDFS的组件并不难,但要想完全还原甚至超越其功能的组件目前还未曾出现在大规模生产验证环境中。 【编辑推荐】
点赞 0 (编辑:核心网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |