在greenplum數(shù)據(jù)庫運(yùn)維過程中,會出現(xiàn)各種問題,上次分享的是因為磁盤問題導(dǎo)致數(shù)據(jù)庫的數(shù)據(jù)文件損壞,造成一些數(shù)據(jù)不能查詢,假如在上次的情況下,是主機(jī)的磁盤徹底損壞,造成數(shù)據(jù)庫的實例宕機(jī),數(shù)據(jù)無法恢復(fù),且主機(jī)換盤需要很長時間才能完成,但是又不能耽誤第二天的業(yè)務(wù)正常使用,那該怎么做呢,下面就來介紹下greenplum數(shù)據(jù)庫的備機(jī)替換流程,通過備機(jī)替換把有問題的主機(jī)踢出去,把正常的主機(jī)加到集群中,來完成集群的正常使用,根據(jù)集群數(shù)據(jù)量大小、集群規(guī)模大小及集群中業(yè)務(wù)表的使用情況,備機(jī)替換大概需要3到6小時之內(nèi)完成,下面詳細(xì)介紹下備機(jī)替換流程及替換過程中遇到的問題。
備機(jī): sdw4192.168.100.106
問題主機(jī):sdw3192.168.100.105
把備機(jī)的主機(jī)名修改成替換下來的主機(jī)名(源主機(jī)),保持主機(jī)名一致,然后修改/etc/hosts文件,修改需要替換主機(jī)的IP地址,操作如下:
檢查集群狀態(tài),查看問題主機(jī),確定要替換下來的主機(jī)名:
檢查確認(rèn)sdw3主機(jī)為問題主機(jī)。
然后登錄備機(jī)修改主機(jī)名:
hostnamesdw3
vi/etc/sysconfig/network
NETWORKING=yes
HOSTNAME=sdw3
原文件信息:
[root@mdw~]# cat /etc/hosts
127.0.0.1 localhost
#Greenplum hosts start
192.168.100.101 mdw
192.168.100.102 smdw
192.168.100.103 sdw1
192.168.100.104 sdw2
192.168.100.105 sdw3
修改成如下
[root@mdw~]# cat /etc/hosts
127.0.0.1 localhost
#Greenplum hosts start
192.168.100.101 mdw
192.168.100.102 smdw
192.168.100.103 sdw1
192.168.100.104 sdw2
192.168.100.106 sdw3
分發(fā)/etc/hosts文件到所有集群主機(jī)
source/usr/local/greenplum-db/greenplum_path.sh
集群做互信
[root@mdw~]# gpssh-exkeys -f /tmp/all_hosts
分發(fā)
gpscp-f /tmp/all_hosts /etc/hosts =:/etc/hosts
驗證是否分發(fā)成功
[root@mdw~]# gpssh -f /tmp/all_hosts
[root@mdw~]# gpssh -f /tmp/all_hosts
=>cat /etc/hosts|grep sdw3
[sdw3]192.168.100.106 sdw3
[smdw]192.168.100.106 sdw3
[mdw] 192.168.100.106 sdw3
[sdw2]192.168.100.106 sdw3
[sdw1]192.168.100.106 sdw3
cat/etc/sysctl.conf
cat/etc/security/limits.conf
cat/etc/security/limits.d/90-nproc.conf
不一致遷移(若有不一致,將生產(chǎn)節(jié)點的參數(shù)文件scp到當(dāng)前待替換節(jié)點)
scp192.168.100.106:/etc/sysctl.conf /etc/sysctl.conf
scp1192.168.100.106:/etc/security/limits.conf /etc/security/limits.conf
scp192.168.100.106:/etc/security/limits.d/90-nproc.conf/etc/security/limits.d/90-nproc.conf
ulimit-a
使參數(shù)生效
/sbin/sysctl-p
如果備機(jī)中已存在greenplum數(shù)據(jù)庫對應(yīng)的軟件包,且版本一致,則不需要操作,如沒有對應(yīng)的軟件包,則從集群其他主機(jī)把軟件包拷貝到備機(jī)的相應(yīng)目錄下,并賦對應(yīng)權(quán)限,操作如下:
ls -lrt /usr/local
scp -r192.168.100.104:/usr/local/greenplum* /usr/local/
chown -R gpadmin:gpadmin greenplum*
rm -rf greenplum-dbgreenplum-cc-web(將未軟連接的文件刪除)
ln -s greenplum-db-5.23.0 greenplum-db
Redhat 6 版本
serviceiptables status
serviceiptables stop
Redhat 7版本
systemctlstatus firewalld
systemctlstop firewalld
備機(jī)創(chuàng)建和源主機(jī)相同的文件夾目錄
具體目錄根據(jù)集群目錄而定
chown-R gpadmin:gpadmin /data*
mkdir/data{1,2}/{primary,mirror}
mkdir/data{1,2}/{primary,mirror}/{gpfs,default}
此處有兩種方式:
1、修改pg_hba.conf
vi$MASTER_DATA_DIRECTORY/pg_hba.conf
reject =====》禁止用戶連接
gpstop-u =====》使配置生效
2、重啟數(shù)據(jù)庫到限制模式
停止數(shù)據(jù)庫:
gpstop-a -M fast
啟動數(shù)據(jù)庫:
gpstart-aR
gprecoverseg-F
開始數(shù)據(jù)同步,通過gpstate-e查看同步進(jìn)度
數(shù)據(jù)同步完成
開始進(jìn)行primary和mirror實例的角色切換
gprecoverseg-r
查看進(jìn)度如下:
角色切換完成
集群狀態(tài)正常
此處有兩種方式
1、修改pg_hba.conf
vi$MASTER_DATA_DIRECTORY/pg_hba.conf
#reject =====》解除禁止用戶連接
gpstop-u =====》使配置生效
2、重啟數(shù)據(jù)庫到限制模式
停止數(shù)據(jù)庫:
gpstop-a -M fast
啟動數(shù)據(jù)庫:
gpstart-a
以上就是整個備機(jī)替換的操作流程,仔細(xì)觀察的話,會發(fā)現(xiàn)環(huán)境準(zhǔn)備是備機(jī)替換的重要部分,環(huán)境準(zhǔn)備如果有問題的話,在替換過程中就會出現(xiàn)各種報錯及問題,在替換過程中如果出現(xiàn)問題,請不要著急,把環(huán)境準(zhǔn)備這塊仔細(xì)檢查一遍,然后再看問題,就會發(fā)現(xiàn)問題已經(jīng)解決了。
在修改集群的/etc/hosts文件時,由于集群沒有做ssh互信,導(dǎo)致在修改時出現(xiàn)一些主機(jī)的遺漏,而遺漏的主機(jī)恰好和備機(jī)在一個數(shù)據(jù)環(huán)內(nèi),則會出現(xiàn)該主機(jī)對應(yīng)備機(jī)上的實例無法恢復(fù)的情況。
這個問題在做備機(jī)替換的過程中不會出現(xiàn)問題,但是在替換完成過后使用中會出現(xiàn)問題,例如集群的用戶連接數(shù)設(shè)置為unlimited,但是備機(jī)的則是有限制的,在使用過程中就會出現(xiàn)segment主機(jī)連接數(shù)問題,導(dǎo)致實例宕機(jī)或者應(yīng)用連接上不去等。
防火墻沒有關(guān)閉,這個問題會出現(xiàn)在數(shù)據(jù)同步過程中,集群同步出錯。
如果備機(jī)對應(yīng)的數(shù)據(jù)庫實例文件夾沒有創(chuàng)建,則會在同步過程中報文件夾不存在,數(shù)據(jù)無法同步問題,所以在環(huán)境準(zhǔn)備的時候,一定要把對應(yīng)的文件夾創(chuàng)建好。
以上就是我們在生產(chǎn)中遇到的一些常見問題,往往因為這些看似很小的問題,卻造成了很大的問題,浪費(fèi)很多時間,所以細(xì)節(jié)決定成敗,磨刀不誤砍柴工,在做任何事情的時候,準(zhǔn)備工作做充分,后續(xù)就會事半功倍。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/130159.html
摘要:前面我們簡單闡述了分布式數(shù)據(jù)庫的架構(gòu),并通過一條簡單的查詢語句解釋了分布式的執(zhí)行計劃。 引言 第八屆中國架構(gòu)師大會(SACC2016)10月27號到29號在北京萬達(dá)索菲特大飯店成功舉辦。大會以架構(gòu)創(chuàng)新之路為主題,云集了國內(nèi)外頂尖專家,共同探討云計算和大數(shù)據(jù)等技術(shù)背景下,如何通過架構(gòu)創(chuàng)新及各種IT新技術(shù)來帶動企業(yè)轉(zhuǎn)型增效。作為一家專注于云端數(shù)據(jù)倉庫的初創(chuàng)公司,酷克數(shù)據(jù)受邀在SACC201...
摘要:考拉訂單流推送申報單推送物流信息等供應(yīng)鏈相關(guān)業(yè)務(wù)已接入分片任務(wù),極大提高了業(yè)務(wù)吞吐量降低壓力,提升了通關(guān)效率。支撐雙十一黑五雙十二等大促,高峰期統(tǒng)一暫停非關(guān)鍵定時任務(wù),讓出系統(tǒng)資源,提高業(yè)務(wù)系統(tǒng)穩(wěn)定性。 此文已由作者楊凱明授權(quán)網(wǎng)易云社區(qū)發(fā)布。 歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運(yùn)營經(jīng)驗。 1.背景 目前項目中使用的定時任務(wù)框架存在下面這些問題 沒有統(tǒng)一的定時任務(wù)管理平臺 目前項目...
閱讀 1346·2023-01-11 13:20
閱讀 1684·2023-01-11 13:20
閱讀 1132·2023-01-11 13:20
閱讀 1858·2023-01-11 13:20
閱讀 4100·2023-01-11 13:20
閱讀 2704·2023-01-11 13:20
閱讀 1385·2023-01-11 13:20
閱讀 3597·2023-01-11 13:20