點擊上方“IT那活兒”公眾號,關注后了解更多內容,不管IT什么活兒,干就完了!??!
由于TiDB-server層是無狀態服務,并且有Haproxy進行流量負載均衡,TiKV和PD層有Raft協議的高可用保障,停止單臺服務器進行維護對整個集群運行沒有太大影響,但是集群會存在有某些SQL訪問、在線DDL延遲抖動的情況,總體影響不是太大。延遲抖動主要有以下原因:
PD層Leader的轉移類似TiKV,TiDB-server層中owner轉移需重新選擇新owner會對正在執行中DDL有影響。
應用檢查業務使用情況。
通常情況下,線上集群對 TiKV 的部署是單機單實例或者單機多實例,在對服務器做臨時維護時,需要根據部署情況來進行相應的處理,由于現網為單機單實例只做對應的描述;在實際維護中TiKV節點下線過程中Leader region調度對集群的服務影響很小,并且Leader region調度速度也較快。
修改 max-store-down-time 超過服務器維護時間,默認 30 min,保證在服務器維護期間不發生補副本行為(需要注意維護完成后將參數恢復。)
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 config set max-store-down-time 60m //
修改為60分鐘,根據實際情況而定
檢查是否有 label,確保沒有標簽(如果存在標簽需要多帶帶分析是否為單機多實例的情況。)
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 label
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 store
遷移該服務器上所有 store 的 leader到其他節點。
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 scheduler add evict-leader-scheduler 2 //
把 store 2 上的所有 region 的 leader 從 store 2 調度出去
檢查 leader 情況:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 store 2 //
檢查該服務器所有 tikv 節點上的 leader count,leader count數量為 0 進行下一步,否則等待為0
停止Tikv組件:
tiup cluster stop tidb-test -N {TiKVIP}:20160
通常大多數的線上集群有3 或5個PD節點,如果維護的服務器上有PD 組件,需要具體考慮節點是 leader 還是 follower(以下1 和 2 兩部分),關閉 follower 對集群運行沒有任何影響,關閉 leader 需要先切換,并在切換時可能存在短暫性能抖動。
檢查當前待操作 PD 集群節點信息:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當前所有成員
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show //顯示當前Leader成員
停止當前待操作 PD follower 節點:
tiup cluster stop tidb-test -N {PDIP}:2379
2. 當前服務器包括一個 PD leader 節點且集群 PD 總數 >= 3
檢查當前待操作 PD 集群節點信息:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當前所有成員
檢查當前待操作 PD 節點角色:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show //顯示當前leader 的信息
遷移 leader 節點:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader transfer pd-id // 將 leader 遷移到指定成員pd-id
檢查遷移結果:
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader show
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member //顯示當前所有成員,遷移成功進行下一步,否則等待
在待維護服務器上執行停PD節點:
tiup cluster stop tidb-test -N {PDIP}:2379
leader 遷回(可選):
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 member leader transfer pd-id // 將 leader 遷移到指定成員
tiup cluster stop tidb-test -N {TiDBIP}:4000
在實際生產環境中,TiDB集群經常會和DM(數據同步工具)配合使用,在停單臺服務器進行維護操作之前需認真梳理DM同步到TiDB的任務,如果DM工具的目標端是直接連接的TiDB-server,在停服務器維護之前需要對DM工具的Task任務進行調整,停掉DM任務連接的TiDB-server節點會導致同步任務失敗。
tiup cluster stop tidb-test -N {grafanaIP}:3000
停alertmanager:
tiup cluster stop tidb-test -N {alertmanagerIP}:9093
tiup cluster stop tidb-test -N {prometheusIP}:9090
檢查集群狀態,對應的服務器的組件是否都完全停掉。
tiup cluster display tidb-test
檢查集群狀態,是否都正常。
tiup cluster display tidb-test
修改 max-store-down-time 超過服務器維護時間,默認 30 min,保證在服務器維護期間不發生補副本行為(需要注意維護完成后將參數恢復。)
tiup ctl:v5.0.0 pd -u http://{PDIP}:2379 config set max-store-down-time 30m // 默認30分鐘
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/129344.html
摘要:作為一個開源的分布式數據庫產品,具有多副本強一致性的同時能夠根據業務需求非常方便的進行彈性伸縮,并且擴縮容期間對上層業務無感知。另外本身維護了數據多副本,這點和分布式文件系統的多副本是有重復的。 作者:鄧栓來源:細說云計算 作為一款定位在 Cloud-native 的數據庫,現如今 TiDB 在云整合上已取得了階段性的進展。日前 Cloud TiDB 產品在 UCloud 平臺正式開啟...
摘要:截至年底,貝殼金服業務已覆蓋全國多個城市及地區,為超過萬用戶提供了金融服務。老機房下線完成則表示數據遷移完成。機房遷移實施過程操作描述配置防火墻,將兩個機房所需端口開通。執行下線命令,一次性下線所有舊機房的??鐧C房遷移,網絡延遲不能高于。 作者介紹 :李振環,貝殼金服數據基礎架構負責人,目前負責數據平臺和企業級數據倉庫開發。 公司介紹 貝殼金服是專注居住場景的金融科技服務商,起步于2...
摘要:中國論壇提案征集月日截止論壇讓用戶開發人員從業人員匯聚一堂,面對面進行交流合作。贊助方案出爐多元化獎學金現正接受申請即將首次合體落地中國 PingCAP將其TiDB數據庫平臺押注在云原生上 showImg(https://segmentfault.com/img/bVbogKp?w=508&h=477); 公司:PingCAP地點:中國北京和加利福尼亞州圣馬特奧行業:軟件 挑戰 流行的...
摘要:中國論壇提案征集月日截止論壇讓用戶開發人員從業人員匯聚一堂,面對面進行交流合作。贊助方案出爐多元化獎學金現正接受申請即將首次合體落地中國 PingCAP將其TiDB數據庫平臺押注在云原生上 showImg(https://segmentfault.com/img/bVbogKp?w=508&h=477); 公司:PingCAP地點:中國北京和加利福尼亞州圣馬特奧行業:軟件 挑戰 流行的...
摘要:智能調度系統實時監測集群所有計算節點計算存儲網絡等負載信息,作為虛擬機調度和管理的數據依據。當有新的虛擬資源需要部署時,調度系統會優先選擇低負荷節點進行部署,確保整個集群節點的負載。智能調度是 UCloudStack 平臺虛擬機資源調度管理的核心,由調度模塊負責調度任務的控制和管理,用于決策虛擬機運行在哪一臺物理服務器上,同時管理虛擬機狀態及遷移計劃,保證虛擬機可用性和可靠性。智能調度系統實...
閱讀 1346·2023-01-11 13:20
閱讀 1684·2023-01-11 13:20
閱讀 1132·2023-01-11 13:20
閱讀 1860·2023-01-11 13:20
閱讀 4100·2023-01-11 13:20
閱讀 2704·2023-01-11 13:20
閱讀 1385·2023-01-11 13:20
閱讀 3597·2023-01-11 13:20