Spark on Kubernetes 的现状与挑战

发布时间：2019-08-03 04:06:25 所属栏目：移动互联来源：尼不要逗了

导读：云原生时代，Kubernetes 的重要性日益凸显，这篇文章以 Spark 为例来看一下大数据生态 on Kubernetes 生态的现状与挑战。 1. Standalone 模式 Spark 运行在 Kubernetes 集群上的第一种可行方式是将 Spark 以 Standalone 模式运行，但是很快社区就提出使用

Spark on Yarn 的模式下，我们可以将日志进行 aggregation 然后查看，但是在 Kubernetes 中暂时还是只能通过 Pod 的日志查看，这块如果要对接 Kubernetes 生态的话可以考虑使用 fluentd 或者 filebeat 将 Driver 和 Executor Pod 的日志汇总到 ELK 中进行查看。

5.Prometheus 生态。

Prometheus 作为 CNCF 毕业的第二个项目，基本是 Kubernetes 监控的标配，目前 Spark 并没有提供 Prometheus Sink。而且 Prometheus 的数据读取方式是 pull 的方式，对于 Spark 中 batch job 并不适合使用 pull 的方式，可能需要引入 Prometheus 的 pushgateway。

5. 结语

被称为云上 OS 的 Kubernetes 是 Cloud Native 理念的一种技术承载与体现，但是如何通过 Kubernetes 来助力大数据应用还是有很多可以探索的地方。欢迎交流。

【编辑推荐】

快速安装与配置kubernetes集群搭建
18张儿童插画让你秒懂Kubernetes
微服务架构在Kubernetes上的实现
使用Kubernetes不得不知道的四大神器！
Kubernetes从懵圈到熟练：集群服务的三个要点和一种实现

【责任编辑：未丽燕 TEL：（010）68476606】
点赞 0

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/5

首页

达人魔改秒控鼠标可边	万里征程张万里媒体联
蔡司小蓝标瞩目！vivo	售2999元起！华为首款