摘要:節(jié)點(diǎn)作為承載工作負(fù)載的實(shí)體,是一個(gè)非常重要的對(duì)象,在實(shí)際運(yùn)營過程中,節(jié)點(diǎn)會(huì)出現(xiàn)各種問題,本文簡(jiǎn)要描述下節(jié)點(diǎn)的各種異常狀態(tài)及排查思路。預(yù)防節(jié)點(diǎn)該文檔為預(yù)防節(jié)點(diǎn)的開源方案,不提供,僅做參考,請(qǐng)謹(jǐn)慎使用。
節(jié)點(diǎn)作為承載工作負(fù)載的實(shí)體,是 Kubernetes 一個(gè)非常重要的對(duì)象,在實(shí)際運(yùn)營過程中,節(jié)點(diǎn)會(huì)出現(xiàn)各種問題,本文簡(jiǎn)要描述下節(jié)點(diǎn)的各種異常狀態(tài)及排查思路。
節(jié)點(diǎn)情況 | 說明 | 處理辦法 |
---|---|---|
Ready | True 表示節(jié)點(diǎn)是健康的,F(xiàn)alse 表示節(jié)點(diǎn)不健康,Unkown 表示節(jié)點(diǎn)失聯(lián) | |
DiskPressure | True 表示節(jié)點(diǎn)磁盤容量緊張,F(xiàn)alse 反之 | |
MemoryPressure | True 表示節(jié)點(diǎn)內(nèi)存使用率過高,F(xiàn)alse 反之 | |
PIDPressure | True 表示節(jié)點(diǎn)有太多進(jìn)程在運(yùn)行,F(xiàn)alse 反之 | |
NetworkUnavailable | True 表示節(jié)點(diǎn)網(wǎng)絡(luò)配置不正常,F(xiàn)alse 反之 |
kubectl get nodes
kubectl describe node ${NODE_NAME}
在上述兩個(gè)命令看不出端倪的時(shí)候,還可以借助Linux的相關(guān)命令來輔助判斷,這個(gè)時(shí)候我們就需要登錄節(jié)點(diǎn),通過linux相關(guān)命令來檢查節(jié)點(diǎn)狀態(tài)。
3.1 網(wǎng)絡(luò)檢查: 我們可以從集群的Master節(jié)點(diǎn),使用 Ping 命令去檢查該節(jié)點(diǎn)的網(wǎng)絡(luò)是否可達(dá);
3.2 健康檢查: 登錄UCloud控制臺(tái),從云主機(jī)頁面查看該節(jié)點(diǎn)是否處于Running狀態(tài),包括查看CPU、內(nèi)存使用率,確認(rèn)節(jié)點(diǎn)是否處于高負(fù)載;
system status kube-proxy
system status kubelet
journalctl -u kubelet
journalctl -u kube-proxy
通過上述命令來查看節(jié)點(diǎn)中的兩個(gè)核心組件,kube-proxy 和 kubelet 的狀態(tài)是否正常,如果不正常,錯(cuò)誤原因是什么。
該文檔為預(yù)防節(jié)點(diǎn)OOM的開源方案,不提供SLA,僅做參考,請(qǐng)謹(jǐn)慎使用。
在用戶態(tài)實(shí)時(shí)獲取available內(nèi)存,當(dāng)小于閾值時(shí)開始依據(jù)策略發(fā)送sigterm與kill信號(hào)殺死進(jìn)程
根據(jù)oom_score 分值來殺進(jìn)程,如系統(tǒng)上有自行啟動(dòng)的進(jìn)程且oom_score_adj未設(shè)置為-1000,就有被殺死的可能。
備注: 該程序無法阻止瞬時(shí)內(nèi)存暴增引發(fā)的內(nèi)存宕機(jī),依舊需要設(shè)置pod合理的資源requests與limits。
apiVersion: apps/v1
kind: DaemonSet
metadata:
labels:
app: oom-protector
name: oom-protector
namespace: kube-system
spec:
selector:
matchLabels:
app: oom-protector
template:
metadata:
labels:
app: oom-protector
spec:
hostPID: true
containers:
- image: uhub.service.ucloud.cn/uk8s/earlyoom:alpine
name: earlyoom
args:
- -p
- -M
- "307200204800"
- --avoid
- "docker|kubelet|containerd|sshd"
securityContext:
capabilities:
add:
- KILL
resources:
requests:
memory: "32Mi"
cpu: "50m"
limits:
memory: "64Mi"
cpu: "100m"
實(shí)時(shí)文檔歡迎訪問https://docs.ucloud.cn/uk8s/troubleshooting/node_debug_summary
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/126289.html
摘要:鏡像庫常見問題如何在中鏡像的和兩個(gè)版本,目前節(jié)點(diǎn)沒有安裝服務(wù),不支持在節(jié)點(diǎn)鏡像。如果需要讓容器時(shí)間與宿主機(jī)時(shí)間一致,可以使用的方式將宿主機(jī)上的時(shí)區(qū)文件掛載到容器中。一個(gè)可以掛載到多個(gè)嗎不支持多點(diǎn)讀寫,如需要多點(diǎn)讀寫請(qǐng)使用。鏡像庫常見問題如何在UK8S中Build鏡像?UK8S的1.12.7和1.13.5兩個(gè)版本,目前Master節(jié)點(diǎn)沒有安裝Docker服務(wù),不支持在Master節(jié)點(diǎn)Build...
摘要:對(duì)于節(jié)點(diǎn)已經(jīng)登陸不了的情況,如果希望快速恢復(fù)可以在控制臺(tái)找到對(duì)應(yīng)主機(jī)斷電重啟。與綁定完成,插件完成后續(xù)的掛載和等工作。UK8S 人工支持對(duì)于使用 UK8S 遇到的本文檔未涉及的問題,如果需要人工支持,請(qǐng)?zhí)砑酉旅婀€信任,并提供主機(jī)的 uhost-idssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQDGIFVUtrp+jAnIu1fBvyLx/4L4GNsX+6v8...
摘要:存儲(chǔ)插件問題插件導(dǎo)致刪除失敗現(xiàn)象描述使用插件自動(dòng)創(chuàng)建綁定到,刪除時(shí),有可能導(dǎo)致處于狀態(tài),不能正常刪除。版本插件版本問題原因重啟后找不到對(duì)應(yīng)的插件。日志中會(huì)報(bào)的錯(cuò)誤,進(jìn)而導(dǎo)致卡在的狀態(tài)。存儲(chǔ)插件問題Flexv插件導(dǎo)致pod刪除失敗現(xiàn)象描述使用flexv插件自動(dòng)創(chuàng)建pv綁定到pod,刪除pod時(shí),有可能導(dǎo)致pod 處于Terminating狀態(tài),不能正常刪除。kubernetes版本: 1.13...
摘要:對(duì)于存儲(chǔ)資源,的節(jié)點(diǎn)默認(rèn)系統(tǒng)盤。節(jié)點(diǎn)創(chuàng)建時(shí)可選擇數(shù)據(jù)盤掛載亦可在節(jié)點(diǎn)創(chuàng)建完成后在主機(jī)側(cè)掛載,如節(jié)點(diǎn)掛載有數(shù)據(jù)盤,將用于存放本地鏡像的,否則本地鏡像等將保存在系統(tǒng)盤。 集群節(jié)點(diǎn)配置推薦本篇目錄1. Master 配置推薦2. 如何選擇 Node 配置大小1. Master 配置推薦Master 規(guī)格跟集群規(guī)模有關(guān),集群規(guī)模越大,所需要的 Master 規(guī)格也越高,不同集群規(guī)模的,Master ...
摘要:集群誤刪處理前置操作負(fù)載均衡分內(nèi)網(wǎng)和外網(wǎng)兩種,在誤刪情況下,首先需要重建,并且保證原地址不變。集群誤刪創(chuàng)建時(shí)類型需要與的類型相匹配,服務(wù)類型為時(shí)指定報(bào)文轉(zhuǎn)發(fā),為時(shí)指定請(qǐng)求代理類型刪除集群內(nèi)原根據(jù)文檔重新綁定和使用已有創(chuàng)建服務(wù)。集群 ULB 誤刪處理前置操作負(fù)載均衡(ULB)分內(nèi)網(wǎng)和外網(wǎng)兩種,在誤刪情況下,首先需要重建 ULB,并且保證原 ULB IP 地址不變。對(duì)于內(nèi)網(wǎng) ULB,需要聯(lián)系技術(shù)...
閱讀 3514·2023-04-25 20:09
閱讀 3720·2022-06-28 19:00
閱讀 3035·2022-06-28 19:00
閱讀 3058·2022-06-28 19:00
閱讀 3131·2022-06-28 19:00
閱讀 2859·2022-06-28 19:00
閱讀 3014·2022-06-28 19:00
閱讀 2610·2022-06-28 19:00