問題描述
數(shù)據(jù)庫自6月29日起連續(xù)多天異常宕機(jī)。alert日志報(bào)Instance Critical Process (pid: 21, ospid: 105559, DBW2) died unexpectedly之類的錯(cuò)誤。
系統(tǒng)message日志里有Jun 29 06:14:25 HOSTNAME kernel: Out of memory: Kill process 105559 (ora_dbw2_XXXX) score 186 or sacrifice child之類報(bào)錯(cuò)。
問題分析
--6月29日
--6月30日
2021-06-30T07:00:57.368545+08:00 Instance Critical Process (pid: 19, ospid: 66571, DBW0) died unexpectedly PMON (ospid: 66527): terminating the instance due to error 471 2021-06-30T07:00:57.544376+08:00 System state dump requested by (instance=1, osid=66527 (PMON)), summary=[abnormal instance termination]. System State dumped to trace file /u01/app/oracle/diag/rdbms/********_diag_66555_20210630070057.trc |
--7月1日
2021-07-01T09:07:04.699459+08:00 Instance Critical Process (pid: 20, ospid: 125148, DBW1) died unexpectedly PMON (ospid: 125085): terminating the instance due to error 471 2021-07-01T09:07:05.005935+08:00 System state dump requested by (instance=1, osid=125085 (PMON)), summary=[abnormal instance termination]. System State dumped to trace file /u01/app/oracle/diag/rdbms/********_diag_125126_20210701090705.trc |
--7月2日
2021-07-02T07:36:36.660203+08:00 Instance Critical Process (pid: 19, ospid: 25474, DBW0) died unexpectedly PMON (ospid: 25437): terminating the instance due to error 471 2021-07-02T07:36:37.001449+08:00 System state dump requested by (instance=1, osid=25437 (PMON)), summary=[abnormal instance termination]. System State dumped to trace file /u01/app/oracle/diag/rdbms/********_diag_25457_20210702073637.trc |
--7月3日
2021-07-03T07:52:35.531254+08:00 Instance Critical Process (pid: 7, ospid: 91834, MMAN) died unexpectedly 2021-07-03T07:52:55.666657+08:00 PMON (ospid: 91819): terminating the instance due to error 822 2021-07-03T07:52:55.679848+08:00 System state dump requested by (instance=1, osid=91819 (PMON)), summary=[abnormal instance termination]. System State dumped to trace file /u01/app/oracle/diag/rdbms/********_diag_91842_20210703075255.trc |
--6月29日
Jun 29 06:14:25 HOSTNAME kernel: Out of memory: Kill process 105559 (ora_dbw2_XXXX) score 186 or sacrifice child Jun 29 06:14:25 HOSTNAME kernel: Killed process 105559 (ora_dbw2_XXXX) total-vm:13041272kB, anon-rss:17376kB, file-rss:80kB, shmem-rss:9180780kB |
--6月30日
Jun 30 07:00:57 HOSTNAME kernel: Out of memory: Kill process 66571 (ora_dbw0_XXXX) score 130 or sacrifice child Jun 30 07:00:57 HOSTNAME kernel: Killed process 66571 (ora_dbw0_XXXX) total-vm:13041260kB, anon-rss:18256kB, file-rss:0kB, shmem-rss:6426356kB Jun 30 07:00:57 HOSTNAME kernel: ora_dbw0_XXXX: page allocation failure: order:0, mode:0x2015a Jun 30 07:00:57 HOSTNAME kernel: CPU: 26 PID: 66571 Comm: ora_dbw0_XXXX Not tainted 3.10.0-693.el7.x86_64 #1 |
--7月1日
Jul 1 09:07:01 HOSTNAME kernel: Out of memory: Kill process 125152 (ora_dbw3_XXXX) score 140 or sacrifice child Jul 1 09:07:01 HOSTNAME kernel: Killed process 125152 (ora_dbw3_XXXX) total-vm:13041280kB, anon-rss:17888kB, file-rss:568kB, shmem-rss:6901124kB |
--7月2日
Jul 2 07:36:24 HOSTNAME kernel: Out of memory: Kill process 31865 (oracle_31865_ns) score 142 or sacrifice child Jul 2 07:36:24 HOSTNAME kernel: Killed process 31865 (oracle_31865_ns) total-vm:13034256kB, anon-rss:8496kB, file-rss:512kB, shmem-rss:7017736kB |
--7月3日
Jul 3 07:52:28 HOSTNAME kernel: Out of memory: Kill process 91834 (ora_mman_XXXX) score 32 or sacrifice child Jul 3 07:52:28 HOSTNAME kernel: Killed process 91834 (ora_mman_XXXX) total-vm:13022640kB, anon-rss:2892kB, file-rss:80kB, shmem-rss:1615108kB |
結(jié)合數(shù)據(jù)庫alert和系統(tǒng)message日志可以看到,由于系統(tǒng)內(nèi)存溢出,數(shù)據(jù)庫核心進(jìn)程dbwn被killed導(dǎo)致數(shù)據(jù)庫宕機(jī)。系統(tǒng)內(nèi)存使用情況可以看到16G的swap分區(qū)已被全部使用。
故障處理
——經(jīng)查看,asm實(shí)例相關(guān)進(jìn)程占用了較多的swap分區(qū)
[root@HOSTNAME ~]# for i in `cd /proc;ls |grep "^[0-9]"|awk $0 >100` ;do awk /Swap:/{a=a+$2}END{print "$i",a/1024"M"} /proc/$i/smaps ;done 2>&1 |sort -k2nr |head -20 66285 101.973M 124601 6.6875M 88435 6.53906M 75924 6.46875M 88033 6.42188M 15747 6.41406M 71480 6.38672M 112856 6.32422M 32315 6.24609M 30195 6.24219M 118924 6.23047M 112052 6.12891M 43413 6.10156M 123682 6.0625M 62669 6.05859M 89471 5.99219M 38687 5.96094M 23452 5.95703M 30953 5.95703M 13602 5.95312M |
——調(diào)整swappiness參數(shù)
swapon -a
alter system set sga_max_size=8G scope=spfile;
alter system set sga_target=8G scope=spfile;
alter system set pga_aggregate_target=2G scope=spfile;
總 結(jié)
更多精彩干貨分享
點(diǎn)擊下方名片關(guān)注
IT那活兒
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/129816.html
此文已由作者王盼授權(quán)網(wǎng)易云社區(qū)發(fā)布。 歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運(yùn)營經(jīng)驗(yàn)~ 現(xiàn)狀計(jì)算節(jié)點(diǎn)發(fā)生磁盤損壞等數(shù)據(jù)無法恢復(fù)的異常時(shí),節(jié)點(diǎn)上的云主機(jī)系統(tǒng)盤無法恢復(fù),導(dǎo)致云主機(jī)只能被清理重建 計(jì)算節(jié)點(diǎn)宕機(jī)但磁盤數(shù)據(jù)可用時(shí),重啟即可恢復(fù)所有云主機(jī)的運(yùn)行 計(jì)算節(jié)點(diǎn)多次宕機(jī)(或一段時(shí)間內(nèi)頻繁宕機(jī)),則需要遷移所有云主機(jī)或者直接清理重建,云硬盤需要遷移到其他cinder-volume存儲(chǔ)服務(wù)節(jié)點(diǎn) 一般來...
摘要:服務(wù)治理主要針對于當(dāng)前分布式架構(gòu)下多服務(wù)微服務(wù)等。隨著業(yè)務(wù)的增長,服務(wù)不能一味地隨之增長,需要管理治理。服務(wù)設(shè)計(jì)期主要針對于服務(wù)的設(shè)計(jì)評審以及標(biāo)準(zhǔn)的制定。服務(wù)治理后期的重點(diǎn)放在消除冗余。 服務(wù)治理主要針對于當(dāng)前分布式架構(gòu)下多服務(wù)、微服務(wù)等。 服務(wù)是分布式系統(tǒng)下的一個(gè)不大不小的部分,有了服務(wù)的組成,整個(gè)系統(tǒng)才能活起來。 隨著業(yè)務(wù)的增長,服務(wù)不能一味地隨之增長,需要管理、治理。沒有服務(wù)治理...
摘要:收到所有參與者回應(yīng)后,完成事務(wù)。不管是還是,都是通過節(jié)點(diǎn)間的交換消息去達(dá)到一致的狀態(tài),這也是分布式系統(tǒng)的常用做法。從業(yè)期間,負(fù)責(zé)過訂閱系統(tǒng)制作云服務(wù)開源平臺(tái)分布式任務(wù)調(diào)度系統(tǒng)等產(chǎn)品的設(shè)計(jì)研發(fā)工作。 接著上一篇的內(nèi)容,詳細(xì)介紹一些主流數(shù)據(jù)庫在分布式場景下用到的算法和思想,主要提及數(shù)據(jù)一致性相關(guān)的一些策略,并分析其利弊和典型應(yīng)用場景。 對于數(shù)據(jù)庫來說,可能關(guān)心的最多的就是數(shù)據(jù)的一致性了,由...
摘要:收到所有參與者回應(yīng)后,完成事務(wù)。不管是還是,都是通過節(jié)點(diǎn)間的交換消息去達(dá)到一致的狀態(tài),這也是分布式系統(tǒng)的常用做法。從業(yè)期間,負(fù)責(zé)過訂閱系統(tǒng)制作云服務(wù)開源平臺(tái)分布式任務(wù)調(diào)度系統(tǒng)等產(chǎn)品的設(shè)計(jì)研發(fā)工作。 接著上一篇的內(nèi)容,詳細(xì)介紹一些主流數(shù)據(jù)庫在分布式場景下用到的算法和思想,主要提及數(shù)據(jù)一致性相關(guān)的一些策略,并分析其利弊和典型應(yīng)用場景。 對于數(shù)據(jù)庫來說,可能關(guān)心的最多的就是數(shù)據(jù)的一致性了,由...
摘要:但是,客戶在選擇的時(shí)候,不要只看概念,一定要緊盯智能,看目標(biāo)平臺(tái)是否在網(wǎng)絡(luò)監(jiān)控大數(shù)據(jù)分析調(diào)度管理等方面下大力氣天浩提醒一個(gè)小小的秘訣,就是看其有沒有服務(wù)等巨頭,被多家巨頭選用,一般不是假融合。大型互聯(lián)網(wǎng)企業(yè)的一次宕機(jī),會(huì)造成多大影響?國外有網(wǎng)友這么回答:(以為)世界末日來了!這是4月15日Facebook、Instagram等平臺(tái)的服務(wù)器大面積宕機(jī)故障之后,部分網(wǎng)民的吐槽,由此可見網(wǎng)絡(luò)服務(wù)穩(wěn)...
閱讀 1346·2023-01-11 13:20
閱讀 1684·2023-01-11 13:20
閱讀 1132·2023-01-11 13:20
閱讀 1858·2023-01-11 13:20
閱讀 4100·2023-01-11 13:20
閱讀 2704·2023-01-11 13:20
閱讀 1385·2023-01-11 13:20
閱讀 3597·2023-01-11 13:20