加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

漫谈阿里大数据

发布时间:2019-01-18 07:30:19 所属栏目:大数据 来源:大数据深度分析
导读:目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。 一、

云梯1当时在内部使用也很广泛,所有内部的数据加工,数据应用基本上都是基于云梯1的,而且,云梯1通过5K项目,成功使单集群的规模扩展到了5000台。而云梯2的生态是后来慢慢建立起来的,包括底层计算平台,开发工具/组件,基于各自算法的计算引擎/服务,以及最上层的各种数据应用/产品,是在云梯1迁移到云梯2的过程中,这些工具,引擎,应用才慢慢完善,统一。

当然,现在阿里云的整个系统,包括内部系统,都是应用在数加的技术之上,这个也是阿里历来的习惯,把内部使用、验证过的东西,提供给社会使用。这样的好处在于与单纯做产品的大数据公司相比,胜在有场景,有需求,成熟度更高。

二、数加平台生态的组成

个人觉得,可以用如下几个层面来描述整个数加生态体系:

1、数加底层技术平台

主要包括:

Maxcompute(原名ODPS)是“数加”底层的计算引擎。有两个维度可以看这个计算引擎的性能,1)6小时处理100PB数据,相当于1亿部高清电影。2)单集群规模过万台,并支持多集群联合计算。

Analytic DB是实时多维分析引擎,可以实现百亿量级多维查询只需100毫秒。阿里巴巴内部很多面向海量互联网用户的产品的在线大数据查询,很大程度上依赖于Analytic DB。

流计算(StreamCompute)具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。

计算引擎之上,“数加”提供了最丰富的云端数据开发套件,开发者可一站式完成数据加工。这些产品包含:数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。

整体来看,大数据开发套件的优势包括:支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open API,可二次开发;多个数据实例之间的数据授权机制,确保数据只能使用却不可见;提供白屏化的运维能力,以及字段级数据质量监控、机器预警、资源使用率监控等功能,让用户更好的掌控自己的数据及数据任务。

计算引擎与大数据开发套件相互依赖,组成了数加的底层技术平台,对应到我上文提到的Hadoop技术平台。

阿里云的主要目标应该是做好这个技术平台,并将平台的能力更多更快更好地开放出来,这一层才是阿里云大数据的核心竞争力。

2、数加应用平台生态体系

基于上面的技术平台,阿里在数加上还开放了规则引擎、推荐引擎、文字识别、智能语音交互、DataV可视化等数据引擎、服务、产品。这些产品很多都是从阿里自身的业务中提炼出来的,可以直接提供给企业使用,并组合成各种不同的解决方案。

比如:

“数加”发布的机器学习,可基于海量数据实现对用户行为、行业走势、天气、交通等的预测。图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发。产品还集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等。

规则引擎是一款用于解决业务规则频繁变化的在线服务,可通过简单组合预定义的条件因子编写业务规则,并做出业务决策。比如,银行会设置如果10分钟内用户在两个省份交易,则需要电话确认。

推荐引擎是一款用于实时预测用户对物品偏好的数据工具,它能够帮助客户发现众多物品中用户最感兴趣什么。

文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。

智能语音交互基于语音和自然语言技术构建的在线服务,为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。

数加最终的目的,不是阿里云自己来研发所有这些数据服务,重点是“数加”大数据平台也将向有数据开发能力的团队开放。这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。阿里云计划用3年时间吸引1000家合作伙伴入驻,共同分享1万亿的大数据蛋糕。

基于底层的技术平台,上层开放则可以形成丰富的生态 。通过开放式的平台,凝聚行业的力量,为更多的企业和个人提供大数据服务,这就是普惠的时代。大到行业的数据分析,预测行业发展方向;小到我们每一个个体,都可以享受大数据的服务,方便个人生活。

3、数加交易生态体系

基于技术平台与应用平台,个人觉得,未来可以在数加上构建一个大数据的交易市场,可以包括:

应用交易:上文中,我重点描述了数据生态以及算法经济,算法作为大数据时代的另外一个重要要素,未来也是可交易的。基于算法的各种引擎,服务,应用等,既然可以基于数加来开发,就可以不仅仅是自己用,甚至作为一个公共的服务或者产品来出售。

数据交易:数据是大数据时代的重要基本要素之一,也是大数据时代的基础生产资料,大数据时代的血液。作为如此重要的生产资料,必须流通才能发挥大数据最大的价值。数加通过多租户,可用不可见,担保交易等设计,未来可以解决数据交易上的各种问题。

当然,如果要实现大数据的交易,必须先解决数据的隐私、安全、法律法规、监管等问题。在这些问题没解决之前,仍有很长的路需要尝试。

三、为什么选择数加

小企业不仅自身缺乏数据,自建大数据平台更是折腾不起,往往周期很长,成本非常之高。很多自建的大数据平台又因为没有经过各种实战的检验,没有相应开发工具或者工具偏少而出现各种问题。

不过数加的出现将有望改善这一现状。

根据阿里云披露的测算数据:自建Hadoop集群的成本是数加的3倍多,国外计算厂商AWS的EMR成本更是数加的5倍。

从运算效率来看,去年10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。其中阿里云用377秒完成了100TB的数据排序,打破了此前Apache Spark创造的23.4分钟纪录。

在含金量最高的GraySort和MinuteSort两个评测系统中,阿里云分别在通用和专用目的排序类别中创造了4 项世界纪录。

数加承载了阿里巴巴EB级别的数据加工计算,经历了上万名工程师的实战检验。

借助大数据技术,阿里巴巴取得了巨大的商业成功。通过对电子商务平台上的客户行为进行分析,诞生了蚂蚁小贷、花呗、借呗;菜鸟网络通过电子面单、物流云、菜鸟天地等数据产品,为快递行业的升级提供技术方法。

可以看到,通过数加,企业能获得的不仅仅是可以更方便、更便宜地使用各种开发工具。其实,比开发工具更重要的是未来大数据的生态,在数加上面,他们可以很方便地获取各种自己想要的数据与服务。

“数加”的发布显然降低了大数据的应用门槛。通过 “数加”,任何一个企业、个人都能极为方便地进行大数据的开发和应用,最起码,从速度、成本、开发效率上,有很大提升。

五、数加需要面对的问题

1、基于公共云数加的安全问题

有人担心阿里是否会偷看或利用这些数据,其实就是不相信阿里云。当然阿里云官方的回答是斩钉截铁的:不会!

阿里云大数据事业部资深总监徐常亮强调,数据是客户的宝贵资产,任何云计算平台都不能移作他用。阿里云将严格遵守去年7月份发起的《数据保护倡议书》,也希望全行业能够自律,共同迎接大数据产业的爆发。

2、基于专有云数加的规模问题

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读