加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

每秒几十亿实时处理,大厂超大规模 Flink 集群运维分析

发布时间:2021-05-30 01:15:28 所属栏目:创业 来源:互联网
导读:说一下阿里的流计算引擎,2015年在 Galaxy 自研的流计算,2014年的时候阿里就有了流计算,那个时候还有JStorm和Flink,分别分布在搜索和中间件其他的部门。 之后

说一下阿里的流计算引擎,2015年在 Galaxy 自研的流计算,2014年的时候阿里就有了流计算,那个时候还有JStorm和Flink,分别分布在搜索和中间件其他的部门。

之后经常在内网上PK,这几套引擎谁最牛逼。2017年左右 Flink 以低延时、高吞吐、一致性,从几个流计算引擎里面脱颖而出,后来整个集团做了技术统一,其他引擎全部抛弃,用Flink来做,Flink是阿里统一的流计算引擎。有了这样的基础之后,业务不断发展,所有的流计算引擎往 Flink 上迁移。

另外一个方面,我们对于数据的处理要求越来越高,现在尽可能往实时化,现在越来越多的Flink本身已经有很多批计算的逻辑和机器学习,综合这三点,导致阿里的 Flink 集群发展非常大。

据我了解,像谷歌、Facebook 没有用。只要用 Flink,阿里的 Flink 集群是全世界最大的。

现在我们的集群规模有几万个计算节点,大部分还是传统的物理机,还有大部分是 ECS和容器;有几百个集群,Flink 一部分用户是阿里内部的,集群最大的规模可能是五六千台,但是对外阿里云上售卖的,一个用户可以开通一个集群。

所以有上百个集群,一个集群可以有成百上千台机器,整个系统非常复杂,因为 Flink是一个计算的,不负责数据的源和目标存储,所以要从上游读数据,然后写到下游的数据库或者其他系统里面去,大概几十个上下游,而且整个 Flink 的底座也很多。

最早有基于 Hadoop 的底座和阿里飞天系的底座,还有现在基于云原生 Kubernetes 的底座。另外,出口非常多,基本上分布在全世界各地都是可以看到 Flink 的应用。

现在仅阿里内部的 Flink,每秒处理几十亿条数据,这个数据量非常庞大,一条数据1K,你想想这个数据有多大。规模这么大,运维上碰到了很多问题,挑战分为下面几部分:

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读