TIDB災難恢復演練三部曲（中）

IT那活兒發(fā)布于2023-01-11 13:20 / 2453人閱讀

TIDB災難恢復演練三部曲（中）

接上回，我們開始對兩副本丟失進行演練。

同時宕掉兩臺機器

從表region的分布圖可以看到，當宕掉tikv2135、tikv5138兩臺主機情況下，整個集群并不會受到影響，因為只有一個region副本分布在這兩臺機器之上，但這僅僅是當數據庫的數據兩較小情況，當數據量增大PD調度將會對region的分布進行調度。對于掛掉一個副本的情況，在此不進行模擬。采用同時宕掉Tikv1134和Tikv3136這兩臺機器，會出現region的兩個副本丟失：

先檢查宕機前測試表的狀況:

MySQL[sbtest2]> select count(*) from t_user;

+----------+

|count(*) |

+----------+

| 3000000 |

+----------+

1row in set (6.98 sec)

同時宕掉Tikv3 136和Tikv 4137兩臺機器后測試表的情況：

MySQL[sbtest2]> select count(*) from t_user;

ERROR9005 (HY000): Region is unavailable

正常的SQL語句出現region不可用的報錯。

檢查宕機的兩臺機器對應的store_id：

[root@tidb1bin]# /root/tidb-v4.0.0-linux-amd64/bin/pd-ctl -i -uhttp://172.16.134.133:2379

?store

…

{

"store": {

"id": 5,

"address": "172.16.134.136:20160",

"labels": [

{

"key": "host",

"value": "tikv3"

}

"version": "4.0.0-rc",

"status_address": "172.16.134.136:20180",

"git_hash": "f45d0c963df3ee4b1011caf5eb146cacd1fbbad8",

"start_timestamp": 1594632461,

"binary_path":"/data1/tidb-deploy/tikv-20160/bin/tikv-server",

"last_heartbeat": 1594700897622993541,

"state_name": "Disconnected"

},…

"store": {

"id": 4,

"address": "172.16.134.134:20160",

"labels": [

{

"key": "host",

"value": "tikv1"

}

"version": "4.0.0-rc",

"status_address": "172.16.134.134:20180",

"git_hash": "f45d0c963df3ee4b1011caf5eb146cacd1fbbad8",

"start_timestamp": 1594632462,

"binary_path":"/data1/tidb-deploy/tikv-20160/bin/tikv-server",

"last_heartbeat": 1594700897744383603,

"state_name": "Disconnected"

向上滑動查看更多內容

可以發(fā)現storeID 4和5狀態(tài)名為“Disconnected”，一段時間后狀態(tài)會成為“DOWN”。

通過 pd-ctlconfig get 獲取region-schedule-limit、replica-schedule-limit、leader-schedule-limit、merge-schedule-limit

[root@tidb1bin]# ./pd-ctl -i -u http://172.16.134.133:2379

?config show

{

"replication": {

"enable-placement-rules": "false",

"location-labels": "host",

"max-replicas": 3,

"strictly-match-label": "false"

"schedule": {

"enable-cross-table-merge": "false",

"enable-debug-metrics": "false",

"enable-location-replacement": "true",

"enable-make-up-replica": "true",

"enable-one-way-merge": "false",

"enable-remove-down-replica": "true",

"enable-remove-extra-replica": "true",

"enable-replace-offline-replica": "true",

"high-space-ratio": 0.7,

"hot-region-cache-hits-threshold": 3,

"hot-region-schedule-limit": 4,

"leader-schedule-limit": 4,

"leader-schedule-policy": "count",

"low-space-ratio": 0.8,

"max-merge-region-keys": 200000,

"max-merge-region-size": 20,

"max-pending-peer-count": 16,

"max-snapshot-count": 3,

"max-store-down-time": "30m0s",

"merge-schedule-limit": 8,

"patrol-region-interval": "100ms",

"region-schedule-limit": 2048,

"replica-schedule-limit": 64,

"scheduler-max-waiting-operator": 5,

"split-merge-interval": "1h0m0s",

"store-balance-rate": 15,

"store-limit-mode": "manual",

"tolerant-size-ratio": 0

}

向上滑動查看更多內容

通過 pd-ctlconfig set 將這 4個參數設為 0

?config set region-schedule-limit 0

Success!

?config set replica-schedule-limit 0

Success!

?config set leader-schedule-limit 0

Success!

?config set merge-schedule-limit 0

Success!

關閉調度主要為將恢復過程中可能的異常情況降到最少，需在故障處理期間禁用相關的調度。

使用pd-ctl 檢查大于等于一半副本數在故障節(jié)點上的Region，并記錄它們的ID（故障節(jié)點為storeid 4，5）：

?region --jq=".regions[] | {id: .id, peer_stores:[.peers[].store_id] | select(length as $total | map(if .==(4,5) then. else empty end) | length>=$total-length) }"

{"id":3080,"peer_stores":[4,6,5]}

{"id":18,"peer_stores":[4,5,6]}

{"id":3084,"peer_stores":[4,6,5]}

{"id":75,"peer_stores":[4,5,6]}

{"id":34,"peer_stores":[6,4,5]}

{"id":4005,"peer_stores":[4,6,5]}

{"id":4009,"peer_stores":[5,6,4]}

{"id":83,"peer_stores":[4,5,6]}

{"id":3076,"peer_stores":[4,5,6]}

{"id":4013,"peer_stores":[5,4,6]}

{"id":10,"peer_stores":[4,6,5]}

{"id":26,"peer_stores":[4,6,5]}

{"id":59,"peer_stores":[4,5,6]}

{"id":3093,"peer_stores":[4,5,6]}

我們可以看到表的兩個regionID均在列表中，另外的兩個region由于只丟失一個副本，并未出現在列表中。

在剩余正常的kv節(jié)點上執(zhí)行停Tikv的操作：

[root@tidb1bin]# tiup cluster stop tidb-test -R=tikv

Startingcomponent `cluster`: /root/.tiup/components/cluster/v0.6.1/clusterstop tidb-test -R=tikv

+[ Serial ] - SSHKeySet:privateKey=/root/.tiup/storage/cluster/clusters/tidb-test/ssh/id_rsa,publicKey=/root/.tiup/storage/cluster/clusters/tidb-test/ssh/id_rsa.pub

+[Parallel] - UserSSH: user=tidb, host=172.16.134.133

+[Parallel] - UserSSH: user=tidb, host=172.16.134.134

+[Parallel] - UserSSH: user=tidb, host=172.16.134.135

+[Parallel] - UserSSH: user=tidb, host=172.16.134.136

+[Parallel] - UserSSH: user=tidb, host=172.16.134.137

+[Parallel] - UserSSH: user=tidb, host=172.16.134.138

+[Parallel] - UserSSH: user=tidb, host=172.16.134.133

+[ Serial ] - ClusterOperate: operation=StopOperation,options={Roles:[tikv] Nodes:[] Force:false SSHTimeout:5 OptTimeout:60APITimeout:300}

Stoppingcomponent tikv

Stopping instance 172.16.134.138

Stopping instance 172.16.134.134

Stopping instance 172.16.134.135

Stopping instance 172.16.134.136

Stopping instance 172.16.134.137

Stop tikv 172.16.134.135:20160 success

Stop tikv 172.16.134.138:20160 success

Stop tikv 172.16.134.137:20160 success

向上滑動查看更多內容

在所有健康的節(jié)點上執(zhí)行(操作需要確保健康的節(jié)點關閉了Tikv)：

[root@tidb3bin]# ./tikv-ctl --db /data1/tidb-data/tikv-20160/db unsafe-recoverremove-fail-stores -s 4,5 --all-regions

removingstores [4, 5] from configurations...

success

[root@tidb5bin]# ./tikv-ctl --db /data1/tidb-data/tikv-20160/db unsafe-recoverremove-fail-stores -s 4,5 --all-regions

removingstores [4, 5] from configurations...

success

[root@tidb6bin]# ./tikv-ctl --db /data1/tidb-data/tikv-20160/db unsafe-recoverremove-fail-stores -s 4,5 --all-regions

removingstores [4, 5] from configurations...

success

向上滑動查看更多內容

當然Region比較少，則可以在給定Region 的剩余副本上，移除掉所有位于故障節(jié)點上的Peer，在這些Region 的未發(fā)生掉電故障的機器上運行：

tikv-ctl--db /path/to/tikv-data/db unsafe-recover remove-fail-stores -s -r ，對于region較多的情況，此操作則較為繁瑣。

停止PD節(jié)點：

[root@tidb1~]# tiup cluster stop tidb-test -R=pd

Startingcomponent `cluster`: /root/.tiup/component

重啟啟動PDtikv節(jié)點：

[root@tidb1~]# tiup cluster start tidb-test -R=pd,tikv

這里需要啟動PD才能連接到數據庫。

檢查沒有處于leader狀態(tài)的region（要保持沒有）：

[root@tidb1~]# pd-ctl -i -u http://172.16.134.133:2379

?region --jq .regions[]|select(has("leader")|not)|{id:.id,peer_stores: [.peers[].store_id]}

這里沒有發(fā)現沒有leader狀態(tài)的region。

重新修改參數：

[root@tidb1~]# pd-ctl -i -u http://172.16.134.133:2379

?config set region-schedule-limit 2048

Success!

?config set replica-schedule-limit 64

Success!

?config set leader-schedule-limit 4

Success!

?config set merge-schedule-limit 8

Success!

檢查查詢數據是否正常

MySQL[sbtest2]> select count(*) from t_user;

+----------+

|count(*) |

+----------+

| 3000000 |

+----------+

1row in set (9.95 sec)

至此恢復操作結束。

我們再看看region的分布：

Region的副本進行了新的復制和分布。

完成了兩副本的丟失的演練，三副本丟失會出現什么情況又該如何恢復？咱下回見。

參考文檔https://book.tidb.io/session3/chapter5/recover-quorum.html

云服務器 GPU云服務器災難恢復災難恢復管理專有網絡災難恢復 sql 災難恢復

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規(guī)行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/130199.html

云計算災難恢復最佳實踐

摘要：為云計算災難做好準備要為云計算災難做好準備，企業(yè)需要不斷測試其數據恢復框架。與內部部署的災難恢復相比，云計算災難恢復更加簡單。云計算災難恢復的最佳實踐選擇合適的災難恢復計劃方法要制定合適的災難恢復計劃，企業(yè)了解其基礎設施非常重要。考慮到當今商業(yè)環(huán)境中采用的云計算技術迅速增加，從導致服務中斷和停機的災難中有效恢復的能力變得更加重要。基于云計算的災難恢復可以確保企業(yè)在盡可能短的時間內恢復其數據和...

wenyiweb 2021-11-15 18:11 評論0 收藏0
“怎么做好云遷移”? 深藍云海資深架構師給你答案

摘要：基于云遷移的三個階段細分為八個主要步驟，評估階段主要包括項目啟動現狀梳理以及應用系統(tǒng)關聯關系分析三個步驟，設計階段包括云架構優(yōu)化設計和云遷移方案設計，實施階段包括目標架構遷移演練及實施和試運行三個步驟。在云計算市場規(guī)模不斷擴大的大背景下，云遷移的需求越來越大且面臨挑戰(zhàn)。云遷移不是一個遷移軟件工具，而是一種服務。前IBM資深架構師姜亞杰從云遷移的三個階段、四個維度到八個步驟的方法，簡述...

kk_miles 2019-06-21 16:47 評論0 收藏0
人們需要了解的數據中心的網絡威脅

摘要：物聯網也影響著數據中心的安全性，主要是隨著資源和數據數量和質量的增長，人們增加了對數據中心安全性的需求。新的物聯網設備是和執(zhí)行數據分析的其他系統(tǒng)的常見補充，這些設備會導致網絡使用和需求增加。網絡威脅對于數據中心來說是一個不幸的現實，這些數據中心在防止違規(guī)事件方面面臨許多挑戰(zhàn)。近年來，這種風險一直在增加，超過40％的受訪者在Carbonite公司進行的調查報告中表示，所面臨的黑客、勒索軟件和其...

CarlBenjamin 2019-04-28 19:37 評論0 收藏0
數據“金”鐘罩，你值得擁有

摘要：日前，廣東華興銀行總行與科華恒盛就總行災備數據中心規(guī)劃建設展開深入合作。項目建成后將全面提升廣東華興銀行數據安全保障及運維服務水平，為其總行全球業(yè)務提供小時不間斷的同城災備服務，為銀行業(yè)務穩(wěn)定運行實現高速增長奠定牢固的信息化基礎。隨著云計算、大數據等新ICT技術的高速發(fā)展，銀行業(yè)信息化建設的步伐愈行愈快。日前，廣東華興銀行總行與科華恒盛就總行災備數據中心規(guī)劃建設展開深入合作。科華恒盛將為其提...

geekzhou 2019-04-29 15:45 評論0 收藏0
為什么云計算在倫敦奧運會無用武之地

摘要：在全世界的聚焦之下，為年倫敦奧運會運行基礎設施的團隊將更多重點放在了可靠性上，而不會展示尖端技術。這意味著熱門技術例如云計算將不會成為奧運會基礎設施的核心部分。表示，每屆奧運會相隔四年，這使確保基礎設施保持狀況成為非常棘手的事情。在全世界的聚焦之下，為2012年倫敦奧運會運行IT基礎設施的團隊將更多重點放在了可靠性上，而不會展示尖端技術。? 這意味著熱門技術(例如云計算)將不會成為奧運會I...

spademan 2019-04-25 16:52 評論0 收藏0