国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

greenplum集群實(shí)例頻繁宕機(jī)

IT那活兒 / 3476人閱讀
greenplum集群實(shí)例頻繁宕機(jī)

點(diǎn)擊上方“IT那活兒”,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。。?/strong>





環(huán)境描述



名稱(chēng):操作系統(tǒng)   

版本:Linux version:redhat 7.4

名稱(chēng):Greenplum

版本:Database:greenplum4.3.30.4





問(wèn)題描述



在生產(chǎn)環(huán)境中我們所維護(hù)的greenplum集群偶爾會(huì)遇到segments節(jié)點(diǎn)實(shí)例宕停的情況,導(dǎo)致實(shí)例宕停的因素比較多。

如:硬件上的磁盤(pán)故障導(dǎo)致io較高,內(nèi)網(wǎng)的網(wǎng)絡(luò)波動(dòng)。sql語(yǔ)法的不規(guī)范導(dǎo)致資源消耗過(guò)大,大批量的調(diào)度語(yǔ)句集中在一個(gè)時(shí)間點(diǎn)導(dǎo)致集群壓力太大。相關(guān)參數(shù)上的設(shè)置過(guò)小等等.....

這樣的原因都會(huì)導(dǎo)致集群某一個(gè)或多個(gè)mirrror實(shí)例在固定的時(shí)間點(diǎn)宕機(jī),以上的情況一般不會(huì)導(dǎo)致primary宕機(jī),但是也不一定遇到primary也可以按照以下方法排查原因。





排查方法



1. 排查是否是硬件的問(wèn)題,查看主機(jī)日志messages

路徑:/var/log/messages

查看是否是降級(jí)導(dǎo)致的,磁盤(pán)降級(jí)的關(guān)鍵詞根據(jù)主機(jī)廠商不同一般不一樣。

如果是內(nèi)存或者別的硬件導(dǎo)致的就執(zhí)行以下命令(如果是硬件導(dǎo)致可能會(huì)有primary實(shí)例宕停)。

cat /var/log/messages | grep ker

具體的報(bào)錯(cuò)信息需根據(jù)經(jīng)驗(yàn)判斷。

2. 查看數(shù)據(jù)庫(kù)日志
需要查看的是宕停實(shí)例的數(shù)據(jù)庫(kù)日志,并且需要快速獲取路徑。
查看數(shù)據(jù)庫(kù)狀態(tài):
gpstate -e


  
這樣看到的只是宕機(jī)的實(shí)例主機(jī)名無(wú)法獲取到詳細(xì)的路徑,執(zhí)行以下命令:

可以看到主機(jī)名后面的就是宕停實(shí)例的目錄路徑。

登錄gp2切換到pg_log目錄下:

可以看到按日期生成的.csv文件,這就是數(shù)據(jù)庫(kù)日志。

但是有的文件后綴不是000000,是為什么?

數(shù)據(jù)庫(kù)日志文件本身就是“gpdb-年-月-日_時(shí)間“,顯示000000是因?yàn)樵诹璩?2點(diǎn)整生成的,而那些不是000000的則是因?yàn)樵搶?shí)例宕停不在記錄日志信息只有把實(shí)例拉起時(shí)才會(huì)繼續(xù)記錄,而拉起宕停實(shí)例的時(shí)間就會(huì)自動(dòng)生成一個(gè)對(duì)應(yīng)的.csv文件。

查看相應(yīng)的日志文件可以看到紅色標(biāo)記的哪一行有“WARING“關(guān)鍵詞,而后面的信息就是當(dāng)該實(shí)例宕停時(shí)所打印的信息。而報(bào)錯(cuò)信息的大概意思就是”在連接時(shí)收到了關(guān)閉信息并且成功了“,為什么會(huì)導(dǎo)致這樣的情況?

根據(jù)網(wǎng)上得到的方案可以修改的參數(shù)有這兩個(gè):

這個(gè)參數(shù)簡(jiǎn)單的說(shuō)就是在Master和Segment之間的探測(cè)超時(shí)時(shí)長(zhǎng)。

導(dǎo)致的原因可能時(shí)那個(gè)時(shí)間點(diǎn)集群的壓力過(guò)大,通信超時(shí),可以將時(shí)間調(diào)高點(diǎn)。

這里引用greenplum6.0.1的解釋?zhuān)?/span>

“等待Mirror響應(yīng)的最長(zhǎng)時(shí)間,缺省為600,單位是秒。在FTS檢測(cè)之外,gp_segment_connect_timeout參數(shù)限制的是Primary等待 Mirror響應(yīng)的時(shí)間,在Primary向Mirror發(fā)送數(shù)據(jù)時(shí),超過(guò)該參數(shù)設(shè)置的時(shí)間仍無(wú)法成功,Primary將會(huì)報(bào)告Master修改Mirror的狀態(tài)為down,然后Primary將會(huì)持 續(xù)記錄WAL日志,對(duì)于6之前的版本,Primary將進(jìn)入change tracking狀態(tài)。不過(guò), 對(duì)于該參數(shù),至少在6之前的版本,真正的超時(shí)時(shí)間是設(shè)定值的75%?!?/span>

3. sql語(yǔ)句的原因

這里就需要在master主機(jī)部署一個(gè)記錄集群會(huì)話(huà)的腳本,將宕機(jī)時(shí)間點(diǎn)的sql反饋給應(yīng)用讓他們檢查是否有問(wèn)題,或者將宕機(jī)時(shí)間點(diǎn)的會(huì)話(huà)分散執(zhí)行。




本文作者:徐 瑞

本文來(lái)源:IT那活兒(上海新炬王翦團(tuán)隊(duì))

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/129540.html

相關(guān)文章

  • 數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的變遷

    摘要:前面我們簡(jiǎn)單闡述了分布式數(shù)據(jù)庫(kù)的架構(gòu),并通過(guò)一條簡(jiǎn)單的查詢(xún)語(yǔ)句解釋了分布式的執(zhí)行計(jì)劃。 引言 第八屆中國(guó)架構(gòu)師大會(huì)(SACC2016)10月27號(hào)到29號(hào)在北京萬(wàn)達(dá)索菲特大飯店成功舉辦。大會(huì)以架構(gòu)創(chuàng)新之路為主題,云集了國(guó)內(nèi)外頂尖專(zhuān)家,共同探討云計(jì)算和大數(shù)據(jù)等技術(shù)背景下,如何通過(guò)架構(gòu)創(chuàng)新及各種IT新技術(shù)來(lái)帶動(dòng)企業(yè)轉(zhuǎn)型增效。作為一家專(zhuān)注于云端數(shù)據(jù)倉(cāng)庫(kù)的初創(chuàng)公司,酷克數(shù)據(jù)受邀在SACC201...

    Raaabbit 評(píng)論0 收藏0
  • centos7.3下 greenplum-db 安裝、配置文檔

    摘要:下安裝配置文檔一系統(tǒng)要求系統(tǒng)版本要求根據(jù)官方文檔支持以下幾種系統(tǒng)文件系統(tǒng)要求數(shù)據(jù)存儲(chǔ)目錄為文件系統(tǒng)二下安裝服務(wù)器列表主節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)主節(jié)點(diǎn)切換備用節(jié)點(diǎn)修改系統(tǒng)配置項(xiàng)關(guān)閉關(guān)閉防火墻修改內(nèi)核配置參數(shù)并執(zhí)行使之生 centos7.3下 greenplum-db 安裝、配置文檔 一.系統(tǒng)要求 1.系統(tǒng)版本要求:根據(jù)官方文檔: greenplumd-b支持以下幾種linux系統(tǒng): ...

    neuSnail 評(píng)論0 收藏0
  • 探索Greenplum的實(shí)踐,了解新一代大數(shù)據(jù)處理利器

    摘要:上有主節(jié)點(diǎn)和從節(jié)點(diǎn)兩部分,兩者主要的功能是生成查詢(xún)計(jì)劃并派發(fā),以及協(xié)調(diào)并行計(jì)算,同時(shí)在上保存著,這個(gè)全局目錄存著一組數(shù)據(jù)庫(kù)系統(tǒng)本身所具有的元數(shù)據(jù)的系統(tǒng)表。 前言:近年來(lái),互聯(lián)網(wǎng)的快速發(fā)展積累了海量大數(shù)據(jù),而在這些大數(shù)據(jù)的處理上,不同技術(shù)棧所具備的性能也有所不同,如何快速有效地處理這些龐大的數(shù)據(jù)倉(cāng),成為很多運(yùn)營(yíng)者為之苦惱的問(wèn)題!隨著Greenplum的異軍突起,以往大數(shù)據(jù)倉(cāng)庫(kù)所面臨的很多...

    supernavy 評(píng)論0 收藏0
  • “Satellite”:在生產(chǎn)過(guò)程中監(jiān)控Kubernetes

    摘要:冒煙類(lèi)型測(cè)試冒煙測(cè)試這個(gè)術(shù)語(yǔ)的定義一系列初步的測(cè)試來(lái)揭示一些簡(jiǎn)單的故障的嚴(yán)重性,以此來(lái)拒絕預(yù)期中軟件的發(fā)布。冒煙測(cè)試最頻繁的特點(diǎn)就是它運(yùn)行的很快,通常是秒級(jí)的。 Satellite是硅谷初創(chuàng)公司Gravitational公司旗下一個(gè)用Go寫(xiě)的開(kāi)源項(xiàng)目,可用來(lái)收集Kubernetes集群的健康信息,它既是一個(gè)library,也是一個(gè)應(yīng)用。作為library,可以用做監(jiān)控方案。在這篇文章里...

    mumumu 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<