大数据生态圈到底是一个什么概念？

发布时间：2018-10-17 19:10:37 所属栏目：大数据来源：51CTO

导读：大数据这个概念本身就太大而且太宽，如果一定要严格定义是非常困难的一件事，不过Hadoop生态圈或者由其延伸的泛生态系统，基本上都是为了处理大量数据诞生的一般而言，这种数据依赖单机很难完成。这个圈子里的工具，就像是我们厨房里的各种厨具各自都有不

这时候，另一个工具即将登场——Streaming计算模型。这种模型通常被称为流计算模型，使用最多的平台式Storm。这种模型会在数据开始搜集的时候进行计算，而不是在搜集完成后——你每获得一个数据都会加入到实时计算中成为最终成果的一份子。这种方式处理的数据基本不会存在延迟问题。

但它并不是尽善尽美。在使用流计算之前，我们必须预先找到统计的核心，因为一段数据经过处理就会放在一边——正如流过的河水无法倒回一样——未能提前找到统计核心的时候数据就被浪费掉了。这也是流计算无法完全替代我们前文讲过的工具的原因。

另一个比较独立的工具是KV Store，类似于Cassandra，HBase，MongoDB等等非常非常多的其他东西。他是什么意思呢，假如你有一堆键值，你就能通过某种方式快速获得键值背后的一大堆数据。就好像你去银行插入银行卡就能取到钱一样。

假如你特立独行，使用MapReduce完成也没有任何问题，但是由此带来的不便就是扫描数据库的时间会很长。如果我们采用了KV Store，这种专门为了键值存取而设定的工具，那这个速度就会非常快。这个工具的核心就是快，其他的事情他一概不管，就是要快。

除此之外，还有一些更特制的系统/组件，比如Mahout是分布式机器学习库，Protobuf是数据交换的编码和库，ZooKeeper是高一致性的分布存取协同系统，等等。

当你拿到这么多工具(甚至多到连很多东西的名字都写不熟练)之后，你把他们拼装在一起，如果没有一个完美的安排大家就会互相打架，造成效率低下，所以这个时候还要引入一个调度系统，专门给大家安排任务、安排时间，使系统能够良好运转。

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建