加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【TOP100summit】六大技术专家同台:数据平台搭建如何有效“避坑”?

发布时间:2019-02-20 13:42:53 所属栏目:大数据 来源:赵钰莹
导读:副标题#e# 【评论】在数据时代,不少企业学会以数据驱动决策。但是,谈及实践,不少企业又犯了难:如何从海量数据中选择对业务增长有价值的部分?如何清洗并分析数据以驱动决策?如何不让庞大的数据降低整体计算性能?这些问题或许都可以在第七届TOP100全球软
副标题[/!--empirenews.page--]

  【评论】在数据时代,不少企业学会以数据驱动决策。但是,谈及实践,不少企业又犯了难:如何从海量数据中选择对业务增长有价值的部分?如何清洗并分析数据以驱动决策?如何不让庞大的数据降低整体计算性能?这些问题或许都可以在第七届TOP100全球软件案例研究峰会(简称TOP100summit)的【数据平台】专场找到答案。

【TOP100summit】六大技术专家同台:数据平台搭建如何有效“避坑”?

  杨波:Spark系统在Uber的架构设计及大规模实践

  近几年,Spark频频出现在各大企业的大数据架构图中,甚至承载了不少业务关键型数据。Uber是一家数据驱动决策的企业,,杨波从Uber的数据平台、对Apache Spark的使用,应用挑战和改进三方面全面介绍了Spark在Uber内部的架构设计及大规模实践。

【TOP100summit】六大技术专家同台:数据平台搭建如何有效“避坑”?

  Uber资深工程师 杨波

  Uber一直希望为用户提供高可靠的运输体验,通过挖掘用户数据、调研使用习惯不断调整平台功能。在数据驱动的背后,Spark起到了非常重要的作用,这也是Uber在数据处理方面使用较多的工具之一。杨波表示,当数据量非常庞大时,Spark是最简单且开源可用的工具,相较于其他产品,实现同样功能所需的代码量更少,其编程接口和语言的选择也更加丰富。

  Uber通过Marmary将数据从Kafka转入Hadoop平台,Marmary是一个基于Hadoop的通用数据摄取和分散框架。当数据进入Hadoop之后,Uber有三大数据查询工具:Hive(on Spark),Presto,Spark。杨波建议,数据平台可以建立在开源组件之上,目前Uber的批处理工作以Spark为主。Uber对Spark的一些问题也进行了很多改进,并将部分问题反馈到了开源社区。

  吴疆:企业数字化转型案例:Liberty Mutual数字化转型之路

  据调研,国内有七成企业处于数字化转型的关键期,而不少传统企业尚没有很好的方案来迈出数字化转型的第一步,这份Liberty Mutual数字化转型案例绝对值得一看。

【TOP100summit】六大技术专家同台:数据平台搭建如何有效“避坑”?

  Pivotal 资深产品经理 吴疆

  数字化转型时代,新技术正在逐渐颠覆传统行业。传统企业要想扭转颓势,必须了解数字化转型的特点以快速适应迅速变化的市场,比如快速发布应用、移动为先、云原生和大数据驱动。Liberty Mutual是一家全球职业健康与安全服务研究的领导者,是一家非常典型的传统企业。

  Liberty Mutual选择与Pivotal合作,从技术选型、开发流程等多维度开展数字化转型,从应用频次不是很高的摩托车保险在线销售开始,在该业务有效运转并取得了高于行业平均水平的转化率后,Liberty Mutual选择与Pivotal全面合作,开启云原生实践、持续交付和Hackathon。在项目开始两年后,Liberty Mutual运行在公有云上面的应用从5%增加至60%;50%的应用做到按天发布;75%的IT人员要写代码;通过自动化重复性手工工作节省了1亿美元成本,这也体现了Pivotal应用迁移等开源工具的巨大价值。

  吕海:Apache Beam: 领英流式计算平台的最新实践

  在领英内部,大量部署和使用了Apache Samza作为公司的流计算引擎。Samza是由领英开发并开源的大数据流计算系统。目前,Samza在超大数据规模的场景下有很多针对性优化,但其前端API尚未完善,因此领英决定引入Beam并将其运行在Samza之上。

【TOP100summit】六大技术专家同台:数据平台搭建如何有效“避坑”?

  领英实时流计算基础架构团队技术负责人 吕海

  Apache Beam是一套数据处理的编程模型,目前的Beam IO支持Avro,Kafka,HDFS,HBase和JDBC等,并即将对HDFS(Python),Kafka(Python)等提供支持。吕海对如何划分数据-窗口、数据-事件时间以及Samza主要应用场景等内容进行了介绍。未来,领英将继续优化并推广使用Samza,继续整合Samza Table API并整合离线计算与流式计算,在流式计算部分使用Samza,离线计算使用Spark,利用Beam统一API。

  姚依非:The Evolution Path of Spark/Hadoop on the Cloud

  近年来,用户和服务每天生成的数据量呈指数级增长,这意味着需要在云中处理的数据量也会激增,这将给云分析系统带来巨大压力。姚依非介绍了谷歌如何在云平台中集成开源数据处理框架,比如Hadoop和Spark,服务组件和框架如何最佳集成到云生态系统以及谷歌对这些框架和组件进行了哪些改进以实现最佳性能。

【TOP100summit】六大技术专家同台:数据平台搭建如何有效“避坑”?

  Google senior software enginee 姚依非

  姚依非表示,谷歌Dataproc是一个快速的,易于使用的,低成本且全管理的服务,传统的Hadoop和Spark集群在成本、管理等层面存在一些问题,谷歌Dataproc会帮助企业管理集群,比如Hadoop、Spark等;无论节点数量如何,均可以快速部署集群,且按秒付费;可随时增加和减少worker,且没有延迟;可以与其他工具或者包进行集成。

  通过在Google Cloud上成功集成Hadoop/Spark集群,谷歌让许多大客户成功地将其数据处理管道和工作负载迁移上云。与其他云产品的改进性能和紧密集成为谷歌提供了优于其他解决方案的性能和用户体验优势。通过自动扩展,高可用性和存储连接器提高性能和可靠性;通过可调整大小的集群,度量工具和简单的ML集成提供了更好的用户体验,这是谷歌在易用与高性能结合方面的一次成功实践。

  王哲涵:京东大数据平台进化之路

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!