加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

如今的大数据究竟发展到了什么阶段

发布时间:2019-03-20 09:08:16 所属栏目:教程 来源:CDA数据分析师
导读:大数据时代,大数据分析与应用大肆盛行。越来越多的大公司大企业大集团,都越来越重视大数据的影响和作用。可以说,谁想抢得大数据的一手可靠资料,谁就在未来的业务发展和拓宽中占据优势,谁就会在相关领域首先拔得头筹。但是,大数据发展前景现在到底如

接下来的一波大公司(称之为传统技术采用周期的 “早期多数使用者”)大多数时候对大数据技术是持观望态度的,对于整个大数据方面的东西,他们还在心存一定程度困惑中观望。直到最近,他们还在指望某个大型供应商(比如 IBM)会提供一个一站式的解决方案,不过现在看来这种情况近期内并不会出现。他们看待这个大数据版图的态度是心怀恐惧,在想自己是不是真的需要跟这一堆看起来并没有什么不同的初创企业合作,然后修补出各种解决方案。

生态体系正在成熟

与此同时,在初创企业 / 供应商这一块,整个第一波的大数据公司(2009 至 2013年间成立的那批)现在已经融了数轮的资金,企业规模已经得到了扩大,并且从早期部署的成功或失败中学到了东西,现在他们已经能够提供更成熟的、经受过考验的产品了。少数一些已经成为了上市公司(包括 2015年上市的 HortonWorks 和 New Relic),而有的(比如 Cloudera、MongoDB 等)融资已经达上亿美元了。

这个领域的 VC 融资活动仍然很有生气,2016年 的前几周我们见证好几轮相当可观的后期阶段大数据融资事件:DataDog(9400 万美元),BloomReach(5600 万美元),Qubole(3000 万美元),PlaceIQ(2500 万美元)等。2015年 大数据初创企业拿到的融资额达到了 66.4 亿美元,占整个技术 VC 总融资额额 11%。

并购活动则开展得中规中矩(自从上一版大数据版图发布以来完成了 34 项并购,具体可参见附注)

随着该领域的创业活动持续进行以及资金的不断流入,加上适度的少量退出,以及越来越活跃的技术巨头(尤其是 Amazon、Google、IBM),使得这个领域的公司日益增多,最后汇成了这幅 2018版的大数据版图。

显然这张图已经很挤了,而且还有很多都没办法列进去(关于我们的方法论可以参见附注)

在基本趋势方面,行动开始慢慢从左转到右(即创新、推出新产品和新公司),从基础设施层(开发者 / 工程师的世界)转移到分析层(数据科学家和分析师的世界)乃至应用层(商业用户和消费者的世界),“大数据原生应用” 已经在迅速冒头—这多少符合了我们原先的一些预期。

大数据基础设施:仍有大量创新

Google 关于 MapReduce 和 BigTable 的论文(Cutting 和 MikeCafarella 因为这个而做出了 Hadoop)的诞生问世已有 10年 了,在这段时间里,大数据的基础设施层已经逐渐成熟,一些关键问题也得到了解决。

但是,基础设施领域的创新仍然富有活力,这很大程度上是得益于可观的开源活动规模。

2016年无疑是 Apache Spark 之年。自我们发布上一版大数据版图以来,这个利用了内存处理的开源框架就开始引发众多讨论。自那以后,Spark 受到了从 IBM 到 Cloudera 的各式玩家的拥护,让它获得了可观的信任度。Spark 的出现是很有意义的,因为它解决了一些导致 Hadoop 采用放缓的关键问题:Spark 速度变快了很多(基准测试表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍),更容易编程,并且跟机器学习能够很好地搭配。

除了 Spark 以外,还出现了其他的一些令人兴奋的框架,比如 Flink、Ignite、Samza、Kudu 等,这些框架的发展势头也很好。一些思想领袖认为,Mesos(数据中心资源管理系统,把数据中心当作一台大计算资源池进行编程)的出现也刺激了对 Hadoop 的需求。

即便在数据库的世界里,新兴的玩家似乎也越来越多。多到市场已经难以承受的地步,这里发生了很多令人兴奋的事情,从图形数据库(如 Neo4j )的成熟,到专门数据库的推出(如统计时序数据库 InfluxDB),乃至于 CockroachDB 的出现(受 Google Spanner 灵感启发诞生的融合了 SQL 与 NoSQL 长处的新型数据库)。数据仓库也在演变(如云数据仓库 Snowflake)。

大数据分析:现在跟 AI 结合了

大数据分析过去几个月出现的一股趋势是,越来越关注利用人工智能(形式和风格各异)来帮助分析大规模的数据,从而获得预测性的洞察。

其实最近出现复兴的 AI 很大程度上算是大数据的产物。深度学习(最近受到关注最多的 AI 领域)背后的算法基本上是几十年前就诞生了的,但直到最近能够以足够便宜、足够快速地应用到大规模数据之后才发挥出了它的最大潜能。AI 与大数据之间的关系如此紧密,以至于业界专家现在认为 AI 已经令人懊恼地 “与大数据陷入了热恋当中”。

不过反过来,AI 现在也在帮助大数据实现后者的承诺。分析对 AI/ 机器学习越来越多的关注也符合大数据下一步演进的趋势:现在数据我都有了,但究竟从中能得到什么样的洞察呢?当然,这件事情可以让数据科学家来解决,从一开始他们的角色就是实现机器学习,否则的话就得想出模型来发现数据的意义。但是机器智能现在正在逐渐发挥辅助数据科学家的作用—只需要倒腾数据,新兴的产品就能从中提炼出数学公式(如 Context Relevant)或者自动建立和推荐最有可能返回最佳结果的数据科学模型(如 DataRobot)。一批新的 AI 公司提供的产品能够自动识别像图像这样的复杂实体(如 Clarifai、Dextro),或者提供强大的预测性分析(如 HyperScience)。

同时,随着基于无监督学习的产品的传播和改善,,看看它们与数据科学家之间的关系如何演变将非常有趣—将来这两者是敌还是友呢?AI 当然不会很快取代数据科学家的位置,但预计会看到数据科学家通常执行的更简单一点的工作越来越多的自动化,从而可以极大提高生产力。

但不管怎样,AI/ 机器学习绝不是大数据分析唯一值得关注的趋势。大数据 BI 平台的普遍成熟及其日益增强的实时能力也是一个令人兴奋的趋势(如 SiSense、Arcadia Data 等)。

大数据应用:真正的加速

随着一些核心基础设施的挑战得到解决,大数据应用层正在快速构建。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读