加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据生态圈到底是一个什么概念?

发布时间:2018-10-17 19:10:37 所属栏目:大数据 来源:51CTO
导读:大数据这个概念本身就太大而且太宽,如果一定要严格定义是非常困难的一件事,不过Hadoop生态圈或者由其延伸的泛生态系统,基本上都是为了处理大量数据诞生的一般而言,这种数据依赖单机很难完成。 这个圈子里的工具,就像是我们厨房里的各种厨具各自都有不

这时候,另一个工具即将登场——Streaming计算模型。这种模型通常被称为流计算模型,使用最多的平台式Storm。这种模型会在数据开始搜集的时候进行计算,而不是在搜集完成后——你每获得一个数据都会加入到实时计算中成为最终成果的一份子。这种方式处理的数据基本不会存在延迟问题。

但它并不是尽善尽美。在使用流计算之前,我们必须预先找到统计的核心,因为一段数据经过处理就会放在一边——正如流过的河水无法倒回一样——未能提前找到统计核心的时候数据就被浪费掉了。这也是流计算无法完全替代我们前文讲过的工具的原因。

另一个比较独立的工具是KV Store,类似于Cassandra,HBase,MongoDB等等非常非常多的其他东西。他是什么意思呢,假如你有一堆键值,你就能通过某种方式快速获得键值背后的一大堆数据。就好像你去银行插入银行卡就能取到钱一样。

假如你特立独行,使用MapReduce完成也没有任何问题,但是由此带来的不便就是扫描数据库的时间会很长。如果我们采用了KV Store,这种专门为了键值存取而设定的工具,那这个速度就会非常快。这个工具的核心就是快,其他的事情他一概不管,就是要快。

除此之外,还有一些更特制的系统/组件,比如Mahout是分布式机器学习库,Protobuf是数据交换的编码和库,ZooKeeper是高一致性的分布存取协同系统,等等。

当你拿到这么多工具(甚至多到连很多东西的名字都写不熟练)之后,你把他们拼装在一起,如果没有一个完美的安排大家就会互相打架,造成效率低下,所以这个时候还要引入一个调度系统,专门给大家安排任务、安排时间,使系统能够良好运转。

相关阅读:

大数据学习:Spark是什么,如何用Spark进行数据分析

大数据的特点是什么,大数据与Hadoop有什么关系?

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读