加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

深度:Hadoop对Spark五大维度正面比拼报告!

发布时间:2018-06-29 21:06:43 所属栏目:大数据 来源:网络大数据
导读:每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你? 如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和

Spark的容错主要是通过RDD操作来实现的。最初,静态数据存储在HDFS中,通过Hadoop的体系结构进行容错。随着RDD的建立,谱系也是如此,它记住了数据集是如何构建的,并且由于它是不可变的,如果需要可以从头开始重建。跨Spark分区的数据也可以基于DAG跨数据节点重建。数据在执行器节点之间复制,如果执行器和驱动程序之间的节点或通信失败,通常可能会损坏数据。

Spark和Hadoop都可以支持Kerberos身份验证,但Hadoop对HDFS具有更加细化的安全控制。 Apache Sentry是一个用于执行细粒度元数据访问的系统,是另一个专门用于HDFS级别安全性的项目。

Spark的安全模型目前很少,但允许通过共享密钥进行身份验证。

5. 机器学习

Hadoop使用Mahout来处理数据。 Mahout包括集群,分类和基于批处理的协作过滤,所有这些都在MapReduce之上运行。目前正在逐步推出支持Scala支持的DSL语言Samsara,允许用户进行内存和代数操作,并允许用户编写自己的算法。

Spark有一个机器学习库MLLib,用于内存迭代机器学习应用程序。它可用于Java,Scala,Python或R,包括分类和回归,以及通过超参数调整构建机器学习管道的能力。

总结

那么它是Hadoop还是Spark?这些系统是目前市场上处理数据最重要的两个分布式系统。 Hadoop主要用于使用MapReduce范例的大规模磁盘操作,而Spark则是一种更灵活,但成本更高的内存处理架构。两者都是Apache的顶级项目,经常一起使用,并且有相似之处,但在决定使用它们时,了解每个项目的特征是非常重要的。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读