點(diǎn)擊上方“IT那活兒”,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。。?/strong>
環(huán)境描述
名稱(chēng):操作系統(tǒng)
版本:Linux version:redhat 7.4
名稱(chēng):Greenplum
版本:Database:greenplum4.3.30.4
問(wèn)題描述
在生產(chǎn)環(huán)境中我們所維護(hù)的greenplum集群偶爾會(huì)遇到segments節(jié)點(diǎn)實(shí)例宕停的情況,導(dǎo)致實(shí)例宕停的因素比較多。
如:硬件上的磁盤(pán)故障導(dǎo)致io較高,內(nèi)網(wǎng)的網(wǎng)絡(luò)波動(dòng)。sql語(yǔ)法的不規(guī)范導(dǎo)致資源消耗過(guò)大,大批量的調(diào)度語(yǔ)句集中在一個(gè)時(shí)間點(diǎn)導(dǎo)致集群壓力太大。相關(guān)參數(shù)上的設(shè)置過(guò)小等等.....
這樣的原因都會(huì)導(dǎo)致集群某一個(gè)或多個(gè)mirrror實(shí)例在固定的時(shí)間點(diǎn)宕機(jī),以上的情況一般不會(huì)導(dǎo)致primary宕機(jī),但是也不一定遇到primary也可以按照以下方法排查原因。
排查方法
1. 排查是否是硬件的問(wèn)題,查看主機(jī)日志messages
路徑:/var/log/messages
查看是否是降級(jí)導(dǎo)致的,磁盤(pán)降級(jí)的關(guān)鍵詞根據(jù)主機(jī)廠商不同一般不一樣。
如果是內(nèi)存或者別的硬件導(dǎo)致的就執(zhí)行以下命令(如果是硬件導(dǎo)致可能會(huì)有primary實(shí)例宕停)。
cat /var/log/messages | grep ker
具體的報(bào)錯(cuò)信息需根據(jù)經(jīng)驗(yàn)判斷。
gpstate -e
可以看到主機(jī)名后面的就是宕停實(shí)例的目錄路徑。
登錄gp2切換到pg_log目錄下:
可以看到按日期生成的.csv文件,這就是數(shù)據(jù)庫(kù)日志。
但是有的文件后綴不是000000,是為什么?
數(shù)據(jù)庫(kù)日志文件本身就是“gpdb-年-月-日_時(shí)間“,顯示000000是因?yàn)樵诹璩?2點(diǎn)整生成的,而那些不是000000的則是因?yàn)樵搶?shí)例宕停不在記錄日志信息只有把實(shí)例拉起時(shí)才會(huì)繼續(xù)記錄,而拉起宕停實(shí)例的時(shí)間就會(huì)自動(dòng)生成一個(gè)對(duì)應(yīng)的.csv文件。
查看相應(yīng)的日志文件可以看到紅色標(biāo)記的哪一行有“WARING“關(guān)鍵詞,而后面的信息就是當(dāng)該實(shí)例宕停時(shí)所打印的信息。而報(bào)錯(cuò)信息的大概意思就是”在連接時(shí)收到了關(guān)閉信息并且成功了“,為什么會(huì)導(dǎo)致這樣的情況?
根據(jù)網(wǎng)上得到的方案可以修改的參數(shù)有這兩個(gè):
這個(gè)參數(shù)簡(jiǎn)單的說(shuō)就是在Master和Segment之間的探測(cè)超時(shí)時(shí)長(zhǎng)。
導(dǎo)致的原因可能時(shí)那個(gè)時(shí)間點(diǎn)集群的壓力過(guò)大,通信超時(shí),可以將時(shí)間調(diào)高點(diǎn)。
這里引用greenplum6.0.1的解釋?zhuān)?/span>
3. sql語(yǔ)句的原因
這里就需要在master主機(jī)部署一個(gè)記錄集群會(huì)話(huà)的腳本,將宕機(jī)時(shí)間點(diǎn)的sql反饋給應(yīng)用讓他們檢查是否有問(wèn)題,或者將宕機(jī)時(shí)間點(diǎn)的會(huì)話(huà)分散執(zhí)行。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/129540.html
摘要:前面我們簡(jiǎn)單闡述了分布式數(shù)據(jù)庫(kù)的架構(gòu),并通過(guò)一條簡(jiǎn)單的查詢(xún)語(yǔ)句解釋了分布式的執(zhí)行計(jì)劃。 引言 第八屆中國(guó)架構(gòu)師大會(huì)(SACC2016)10月27號(hào)到29號(hào)在北京萬(wàn)達(dá)索菲特大飯店成功舉辦。大會(huì)以架構(gòu)創(chuàng)新之路為主題,云集了國(guó)內(nèi)外頂尖專(zhuān)家,共同探討云計(jì)算和大數(shù)據(jù)等技術(shù)背景下,如何通過(guò)架構(gòu)創(chuàng)新及各種IT新技術(shù)來(lái)帶動(dòng)企業(yè)轉(zhuǎn)型增效。作為一家專(zhuān)注于云端數(shù)據(jù)倉(cāng)庫(kù)的初創(chuàng)公司,酷克數(shù)據(jù)受邀在SACC201...
摘要:下安裝配置文檔一系統(tǒng)要求系統(tǒng)版本要求根據(jù)官方文檔支持以下幾種系統(tǒng)文件系統(tǒng)要求數(shù)據(jù)存儲(chǔ)目錄為文件系統(tǒng)二下安裝服務(wù)器列表主節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)主節(jié)點(diǎn)切換備用節(jié)點(diǎn)修改系統(tǒng)配置項(xiàng)關(guān)閉關(guān)閉防火墻修改內(nèi)核配置參數(shù)并執(zhí)行使之生 centos7.3下 greenplum-db 安裝、配置文檔 一.系統(tǒng)要求 1.系統(tǒng)版本要求:根據(jù)官方文檔: greenplumd-b支持以下幾種linux系統(tǒng): ...
摘要:上有主節(jié)點(diǎn)和從節(jié)點(diǎn)兩部分,兩者主要的功能是生成查詢(xún)計(jì)劃并派發(fā),以及協(xié)調(diào)并行計(jì)算,同時(shí)在上保存著,這個(gè)全局目錄存著一組數(shù)據(jù)庫(kù)系統(tǒng)本身所具有的元數(shù)據(jù)的系統(tǒng)表。 前言:近年來(lái),互聯(lián)網(wǎng)的快速發(fā)展積累了海量大數(shù)據(jù),而在這些大數(shù)據(jù)的處理上,不同技術(shù)棧所具備的性能也有所不同,如何快速有效地處理這些龐大的數(shù)據(jù)倉(cāng),成為很多運(yùn)營(yíng)者為之苦惱的問(wèn)題!隨著Greenplum的異軍突起,以往大數(shù)據(jù)倉(cāng)庫(kù)所面臨的很多...
摘要:冒煙類(lèi)型測(cè)試冒煙測(cè)試這個(gè)術(shù)語(yǔ)的定義一系列初步的測(cè)試來(lái)揭示一些簡(jiǎn)單的故障的嚴(yán)重性,以此來(lái)拒絕預(yù)期中軟件的發(fā)布。冒煙測(cè)試最頻繁的特點(diǎn)就是它運(yùn)行的很快,通常是秒級(jí)的。 Satellite是硅谷初創(chuàng)公司Gravitational公司旗下一個(gè)用Go寫(xiě)的開(kāi)源項(xiàng)目,可用來(lái)收集Kubernetes集群的健康信息,它既是一個(gè)library,也是一個(gè)應(yīng)用。作為library,可以用做監(jiān)控方案。在這篇文章里...
閱讀 1347·2023-01-11 13:20
閱讀 1686·2023-01-11 13:20
閱讀 1133·2023-01-11 13:20
閱讀 1860·2023-01-11 13:20
閱讀 4103·2023-01-11 13:20
閱讀 2705·2023-01-11 13:20
閱讀 1386·2023-01-11 13:20
閱讀 3599·2023-01-11 13:20