加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

从京东618数据井喷看大数据平台峰值处理制胜关键

发布时间:2018-09-15 07:53:38 所属栏目:教程 来源:博文视点
导读:9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维! 一、大数据综述 随着DT(数据技术)时代的到来,人们能比以往更容易地获取更丰富的数据。数据作为一种新的能源形式,正在源源不断地发挥其巨大的价值,帮助我们激发更多的技术驱

京东大数据离线平台的整体架构如下图:

从京东618数据井喷看大数据平台峰值处理制胜关键

平台详解

离线处理架构为数据存储+数据缓存+数据处理+数据应用。

  • 数据存储:以前数据仓库是LZO,线上业务是SQL Server、Oracle。现在数据仓库是ORC,线上业务是MySQL、HBase。
  • 数据缓存:Alluxio是一个基于内存的分布式文件系统,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件,主要职责是以文件形式在内存或其他存储设施中提供数据的存取服务。
  • 数据处理:混合型引擎,按需按量分配,以及根据不同业务场景,选择不同处理方式,统一由Yarn做资源管理。
  • 数据应用:服务京东消费数据的几乎所有场景,如数据挖掘、分析报告、常规报表、即席查询等。

具体介绍

在京东大数据平台中有多个物理集群、十几个集群应用软件、十几个大数据产品、三十多个数据集市、六千多个平台用户,日运行job数量超过40万,日计算数据量超过15PB。在如此庞大的业务场景、海量数据计算、复杂数据处理流程的场景下,一个高效实用的大数据离线平台显得尤为重要。

为此,我们对大数据平台建设以来支持的各类业务服务,大数据平台自身的升级与运维技术工作进行了梳理分析,对大数据平台从前端服务到后台技术进行了整体服务框架设计。完成了从多出口的臃肿服务到统一服务管理、自助化服务管理、自动化服务实现的有机“瘦身运动”,大数据平台服务时效得到了几倍乃至几十倍的提升。

大数据平台已经实现了海量数据的实时与离线计算,同时也达到高并发、高容错、高扩展、低成本的集团发展需要。同时,在保证现有大数据平台稳定的基础上,通过与京东集市三十多个业务集市的深入接触沟通,在业务发展基础上,结合最新、最适合的前沿技术,不断提高大数据平台的业务实现范围、大数据平台技术创新(如异构集群、多引擎支持、即席查询、多维分析、登月平台等)、大数据平台更好的运营管控机制(如大数据平台运营规范、数据仓库与集市建设规范、运营值班方案、流程中心等),不断满足业务高速发展对未来大数据平台的技术需要,实现战略价值目标。

作者介绍

京东集团618作战指挥中心,成员来自于京东各个技术体系,包括核心系统架构师、一线运维专家、科研学者等。近200位成员在618时共同努力,确保流量洪峰来临时系统安全、稳定、可靠,致力于提供最佳的用户体验。

【编辑推荐】

  1. 如何选择数据平台的建设方案
  2. 基于Hadoop的大数据平台实施——整体架构设计
  3. 企业构建大数据平台的痛点、思路与解决路径
  4. Amas:基于大数据平台技术开发的统一监控平台
  5. 实时数据平台设计:解决从OLTP到OLAP实时流转缺失
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读