大数据处理框架的类型、比较和选择

发布时间：2018-04-03 01:53:51 所属栏目：大数据来源：站长网

导读：前言说起大数据处理，一切都起源于Google公司的经典论文：《MapReduce:Simplied Data Processing on Large Clusters》。在当时(2000年左右)，由于网页数量急剧增加，Google公司内部平时要编写很多的程序来处理大量的原始数据：爬虫爬到的网页、网页请求日

如果企业仅进行流处理，并且对低延迟有着较高要求，Storm更加适合，如果对延迟不非常敏感，可以使用Spark Streaming。而如果企业内部已经存在Kafka和Hadoop集群，并且需要多团队合作开发(下游团队会使用上游团队处理过的数据作为数据源)，那么Samza是一个很好的选择。

如果需要同时兼顾批处理与流处理任务，那么Spark是一个很好的选择。混合处理框架的另一个好处是，降低了开发人员的学习成本，从而为企业节约人力成本。Flink提供了真正的流处理能力并且同样具备批处理能力，但商用案例较少，对于初次尝试数据处理的企业来说，大规模使用Flink存在一定风险。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

7/7

首页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建