加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

漫谈阿里大数据

发布时间:2019-01-18 07:30:19 所属栏目:大数据 来源:大数据深度分析
导读:目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。 一、

分析型数据库服务ADS(AnalyticDB) ,是一套RT-OLAP(Realtime OLAP,实时 OLAP)系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用 SQL进行自由灵活的计算分析,无需预先建模;而利用分布式计算技术,ADS可以在处理百亿条甚至更多量级的数据上达到甚至超越MOLAP类系统的处理性能,真正实现百亿数据毫秒级计算。ADS是采用搜索+数据库技术的数据高度预分布类MPP架构,初始成本相对比较高,但是查询速度极快,高并发。而类似的产品Impala,采用Dremel数据结构的低预分布MPP架构,初始化成本相对比较低,并发与响应速度也相当慢一些。

流计算产品(前Galaxy),可以针对大规模流动数据在不断变化运动过程中实时的进行分析 ,是阿里巴巴开源的基于Storm采用Java重写的一套分布式实时流计算框架,也叫JStorm,对比产品是Storm或者是Spark Streaming。最近阿里云会开始公测stream sql,通过sql 的方式来实现实时的流式计算,降低了使用流式计算技术的使用门槛。

除了计算引擎部分,整个阿里大数据技术生态,我在数加的文章中再详细介绍。

未来的大数据底层技术又将会怎么发展呢,个人觉得,会有如下两个要点发展:

1、数据处理云端化与生态化

数据未来一定是互联互通才有价值,目前的私有云大数据解决方案是一个过渡阶段,未来大数据需要的是更大型,更专业的平台。这里才可以实现整个大数据的生态体系(后面的文章会介绍到)。包括了数据本身的交易市场(大数据交易平台),以及加工数据的工具,算法(或基于算法的引擎,接口,产品)的交易市场,类似目前的App Store。

数据生态是一个非常大的市场。

2、云端数仓一体化

未来很多企业将受益于云端数据库/数据仓库一体化的解决方案中,从现在的技术看来,大数据平台越来越具备实时的能力;在线的业务数据

库越来越具备分布式计算的能力。当这些能力整合,统一的时候,在线/离线的界限又将变得不再清晰,整个数据技术体系又会回到当初的数据库/数据仓库一体化。

四、数据应用

讲了这么多的大数据相关定义与相关技术了,那大数据怎么转变为商业价值呢,这又是一个大的话题。阿里在大数据的应用上,最早的提出了存、通、用三个概念,而现在大数据应用更多是在谈数据反馈闭环。根据数据反馈闭环,我们又把数据使用分成如下几个层面来描述:

一、数据化

所谓存,其实就是大数据的采集与存储,必须先有数据,其实前几篇已经介绍过了。很多时候,如果我们连数据都没有,大数据只能是空中楼阁。所以,一个想要做大数据的企业,必须先想办法拥有数据,或者采集、爬取、购买数据。

关于通,前面也讲过了,主要是两个层面的问题:

其一是指数据的互通,比如一个企业内部存在很多信息孤岛,信息孤岛之间必须打通,形成统一的大数据平台。关于通,最好的办法其实就是企业建立一个统一的大数据平台,不管这个大数据平台是基于私有云(如Hadoop生态的解决方案),还是基于公共云(如阿里云数加的解决方案),当所有的数据上传到这个大数据平台,数据天然就打通了。

其二是数据的标准,如果想让不同的数据源可以相互关联,形成更大的效应,就跟我在上文讲到的一样,就得有数据标准。如上文所言,数据标准不仅仅可以指导ETL过程中的数据清洗,数据校验,好的数据标准还可以使得无线的数据跟PC的数据相互关联互通,甚至企业之间的数据关联互通。

这些过程,我们可以把它叫做数据化的过程,也就是大数据的基本要素 -- 数据的形成。

二、算法

用,就是大数据的加工使用,指采用数据科技的相关技术,对大数据进行加工,分析,并最终创造商业价值的过程。这个过程中,最核心就是算法。我们提到算法时,往往也会谈到引擎,仅仅提引擎一词,更多想到的可能是汽车的发动机。汽车引擎不管多复杂,其实输入输出是很简单的,需要的是汽油+空气,输出动力(汽油的能量)。大数据的引擎可能是一组算法的封装,数据就是输入的汽油,通过引擎的转换,输出数据中的能量,提供给更上层的数据产品或者服务,从而产生商业价值。

算法也是“机器学习”的核心,机器学习又是”人工智能“的核心,是使计算机具有智能的根本途径。在过去十年,机器学习促成了无人驾驶车、高效语音识别、精确网络搜索及人类基因组认知的大力发展。

如果你不去利用数据,世界上的数据就不会有用。算法其实指的是如何在业务过程中有效拓展人为管理,利用数据。

从根本上来说,数据是不会说话的,只有数据没有任何价值。如果拥有大量的数据,而不知道怎么使用 ,阿里曾经做过一个比喻,“坐在金山上啃馒头”。大数据真正的价值在算法,算法决定行动。在不远的未来,“所有业务都将成为算法业务”,算法才是真正价值所在,世界上所有大规模的东西都将被数据和算法所管理。

DT时代的智能商业对算法提出了全新的要求:算法的迭代方向、参数工程等等,都必须与商业逻辑、机制设计、甚至是价值观取向融合为一。当算法迭代优化时,决定其方向的不仅是数据和机器本身的特性,更包含了我们对商业本质的理解、对人性的洞察和创造未来商业新样貌的理想。 这就是我们称算法为智能商业的“引擎”而非“工具”的关键理由,它是智能的核心。 基于数据和算法,完成“机器学习”,实现“人工智能”。

三、数据产品(或数据应用)

把用户,数据和算法巧妙地连接起来的,是数据产品(或数据应用),这也是互联网时代特别强调产品重要性的根本原因。因此,智能商业的成功,最关键的一步往往是一个极富想象力的创新产品,针对某个用户问题,定义了全新的用户体验方式,同时启动了数据智能的引擎,持续提升用户体验。

智能化数据产品的要求是非常高的,不仅仅是与最终用户形成个性化,智能化的交互,有完好的用户体验与突破的技术创新之外,最重要的,同时需要再次记录数据,使得用户反馈的闭环得以发生。

整个过程是自动的、智能的、可学习提升的,它是大数据时代的灵魂,是智能商业的根基。智能商业的核心特征就是能主动地了解用户,通过学习不断提升用户体验。智能商业的成功,最关键的一步往往是一个极富想象力的创新产品,针对某个用户问题,定义了全新的用户体验方式,同时启动了数据智能的引擎,持续提升用户体验。智能模块和学习功能将成为应用的大脑

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读