加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

k8s故障排查与自动治愈

发布时间:2021-06-03 20:39:49 所属栏目:编程 来源:互联网
导读:组件故障 组件故障可以认为是节点故障的子类,只是故障来源是K8S基础组件的一部分。 DNS故障:6个DNS Pod中的2个出现无法解析外部DNS名称的情况。后果是大量线上

DNS故障:6个DNS Pod中的2个出现无法解析外部DNS名称的情况。后果是大量线上业务因域名解析。

CNI故障:少数几个节点的容器网络和外部断开,节点访问自身的Pod IP没有问题,但是其它节点无法访问故障节点的Pod IP。这种情况下,Pod本机的健康检查无效,导致故障实例持续存在,一定比例的业务请求失败。

kubenurse会对ingress、dns、apiserver、kube-proxy进行网络探测。

使用KubeNurse进行集群网络监控

节点故障

硬件错误: CPU/Memory/磁盘故障

kernel问题: kernel deadlock/corrupted file systems

容器运行时错误: Docker假死

基础设施服务故障: NTP故障

node-problem-detector

根源: 在kubernetes集群上,通常我们只是管制集群本身以及容器的稳定运行。但是这些稳定性都是强依赖节点node的稳定的。可是node的管理,在kubernetes是比较弱的,因为可能对于kubernetes的初始设计来说,这些应该是IaaS的事。但是随着kubernetes的发展,它越来变成了一个操作系统,它管理的内容将越来越多,所以对于node的管理也将纳入kuberntes里管理。所以延伸出了node problem detector这个项目。

Kubernetes支持两种上报机制:

1、NodeCondition(节点状况): 这是指永久性的错误,它将造成pod无法在这个节点运行。这个节点状况只有在节点重启后才会被重置

2、Event(事件): 影响节点的临时性问题,但是它是对于系统诊断是有意义的。NPD就是利用kubernetes的上报机制,通过检测系统的日志(例如centos中journal),把错误的信息上报到kuberntes的node上。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读