對(duì)于ora.crf資源大家都很熟悉吧,其資源對(duì)應(yīng)的功能是CHM資源對(duì)應(yīng)的功能是ClusterHealthMonitor(以下簡(jiǎn)稱(chēng)CHM)是一個(gè)Oracle提供的工具,用來(lái)自動(dòng)收集操作系統(tǒng)的資源(CPU、內(nèi)存、SWAP、進(jìn)程、I/O以及網(wǎng)絡(luò)等)的使用情況。CHM會(huì)每秒收集一次數(shù)據(jù)。這些系統(tǒng)資源數(shù)據(jù)對(duì)于診斷集群系統(tǒng)的節(jié)點(diǎn)重啟、Hang、實(shí)例驅(qū)逐(Eviction)、性能問(wèn)題等是非常有幫助的。另外可以使用CHM來(lái)及早發(fā)現(xiàn)一些系統(tǒng)負(fù)載高、內(nèi)存異常等問(wèn)題,從而避免產(chǎn)生更嚴(yán)重的問(wèn)題。ora.crf資源是11.2.0.2之后才出現(xiàn)的。本文要聊的OSYSMOND進(jìn)程就是CHM的進(jìn)程。
OK,現(xiàn)在優(yōu)點(diǎn)說(shuō)完了,再說(shuō)說(shuō)缺點(diǎn)。由于ora.crf服務(wù)生成的文件crf*.bdb,$HOSTNAME.ldb會(huì)很大,這樣就對(duì)$GI_HOME目錄的使用率造成了壓力。并且其核心進(jìn)程O(píng)SYSMOND在收集OS層面的信息時(shí),經(jīng)常會(huì)出現(xiàn)CPU消耗過(guò)大、內(nèi)存使用過(guò)高甚至導(dǎo)致集群hang的情況。
例如:AIX:osysmond.bin High CPU Usage ( Doc ID 1397988.1 ) ,osysmond.binsocket leak causing RAC node hang and ACFS issues (Doc ID1526421.1),osysmond.binHigh Memory Consumption on Solaris 11 (Doc ID1543623.1)等等,MOS一搜太多太多類(lèi)似案例,有興趣的朋友自己去擼擼。
看到這里大家都明白了本文主角OSYSMOND進(jìn)程是用于收集os層面的診斷信息,在windows平臺(tái)這種沒(méi)有OSWatcher的情況下有用。對(duì)于可以部署OSWatcher的平臺(tái),CHM作用有限,既然有對(duì)主機(jī)資源消耗更少的OSW,那就完全沒(méi)有選擇CHM的必要了,所以果斷關(guān)閉CHM才是最合理的選擇。
接下來(lái)聊聊筆者遇到過(guò)的兩起CHM相關(guān)的問(wèn)題。
一、11GR2中OSYSMOND進(jìn)程CPU使用率過(guò)高(這個(gè)現(xiàn)象在12C和19C均有出現(xiàn)過(guò))
1、問(wèn)題現(xiàn)象
經(jīng)topas發(fā)現(xiàn)osysmond進(jìn)程CPU使用率在10%以上,正常情況在1%以下
例:
Name PID CPU% PgSp Owner PageIn 0 PAGINGSPACE
osysmond 2162770 10.3 196M root PageOut 320 Size,MB 57600
tnslsnr 31589424 4.5 48.2M grid Sios 320 % Used 1
oracle 49939238 4.3 6.46M grid % Free 99
oracle 46073098 4.1 6.41M grid NFS (calls/sec)
sh 656268 2.3 77.9M oracle SerV2 0 WPARActiv 0
oracle 48039194 1.2 7.68M grid CliV2 0 WPAR Total 0
oracle 30606586 1.2 137M oracle SerV3 0 Press:"h"-help
oracle 24970622 1.2 134M oracle CliV3 0 "q"-quit
oracle 61670090 0.8 7.67M grid
oracle 21037544 0.7 7.60M grid
oracle 12846444 0.7 7.71M grid
oracle 21824332 0.6 7.63M grid
oracle 49742446 0.6 6.62M grid
oracle 25888420 0.6 24.2M oracle
oracle 2426150 0.6 73.5M oracle
2、分析過(guò)程
1)分析OSYSMOND進(jìn)程:
分為兩種情形:
Case1 - high number of disks
Case2 - high number of open file descriptor
根據(jù)文檔:
ClusterHealth Monitor (CHM/OS) osysmond.bin High Resource (CPU, Memory andFD etc) Usage ( Doc ID 1554116.1 )
11.2.0.3版本相關(guān)的bug在GIPSU 11.2.0.3.7中均已修復(fù)。
1、查看OSWatcher輸出,以便區(qū)分下兩種情形
2、查看gi和oracle用戶的opatchlsinventory輸出
2)綜合當(dāng)前情況繼續(xù)分析
查看OSW的iostat發(fā)現(xiàn)不存在大量的磁盤(pán)問(wèn)題,并且當(dāng)前GI版本為11.2.0.3.9,
結(jié)合opatch補(bǔ)丁清單做了下排除,已知的這方面bug中匹配的只剩下這個(gè)了:
Bug16901346 : OSYSMOND PROCESS TAKING ALMOST 5% OF CPU BECAUSE OF HIGHOPEN FDS COUNT
其補(bǔ)丁下載中也有GIPSU 11.2.0.3.9上的fix:
https://updates.oracle.com/download/16901346.html
該bug的判斷方法是:
ocludumpnode view shows: Too many open FDs (100090)on node racnode1 (> 90%of max allowed)
#cpus:16 cpu: 45.93 cpuq: 40 physmemfree: 10178944 physmemtotal: 50331648mcache: 4781768
swapfree:8242176 swaptotal: 8388608 ior: 6234 iow: 2624 ios: 353 swpin: 0swpout: 0 pgin: 0 pgout: 0
netr:12450.397 netw: 11801.061 procs: 2134 rtprocs: 1346
#fds:100036;;3:Time=07-08-13 15.44.25, Too many open FDs (100036)on noderacnode1 (> 90% of max allowed)
#sysfdlimit:65534 #disks: 43 #nics: 4 nicErrors: 0
運(yùn)行如下命令輸出看下:
su- grid
$oclumondumpnodeview -allnodes -v -s "2016-08-08 00:00:00" -e"2016-08-09 12:00:00"
如果以上命令運(yùn)行報(bào)錯(cuò),也可通過(guò)如下命令查看
su-
#
命令輸出結(jié)果示例如下:
#/oracle/app/11.2.0/grid/bin/diagcollection.pl --collect --chmos
ProductionCopyright 2004, 2010, Oracle. All rights reserved
ClusterReady Services (CRS) diagnostic collection tool
Cannotparse master oclumon get
ClusterHealth Monitor (OS) information has not been retrieved. 《===仍然無(wú)法獲取CHM數(shù)據(jù)
Rundiagcollection on master node to collect CHM/OS information
CollectingOS logs
Collectingsysconfig data
無(wú)法獲取CHM原因分析:
chm可能停掉了吧或者hang了,所以無(wú)法dump出信息(可以通過(guò)crflog來(lái)查看其目前的狀態(tài)
下的crfmond和crflogd)。
在11.2.0.3.9之上沒(méi)有其他已知bug會(huì)導(dǎo)致這個(gè)情況,只有該BUG16901346會(huì)導(dǎo)致。
3、處理方法
由于chm只是收集os層面的診斷信息而已,chm收集的信息OSWatcher也會(huì)收集,故選擇停掉chm。
關(guān)閉chm:
su - grid
$GRID_HOME/bin/crsctlstop res ora.crf -init
關(guān)閉chm自啟動(dòng):
su -
#
二、CHM產(chǎn)生的文件過(guò)大
從上圖我們可以看到crf*.bdb文件大小很大,處理方法與問(wèn)題1一樣,關(guān)閉chm并關(guān)閉其自啟動(dòng),然后直接rm掉文件即可。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/130074.html
摘要:直到有一天,大哥接到一項(xiàng)特殊的任務(wù),一位年輕的爸爸想給自己患有抑郁癥的孩子制作一個(gè)網(wǎng)站,希望網(wǎng)頁(yè)里的天空每天都可以更換一種顏色。猿知原味注老頭闡述的方法是最早的動(dòng)態(tài)網(wǎng)頁(yè)實(shí)現(xiàn)方案技術(shù)。傳送門(mén)技術(shù)的前世今生二技術(shù)的前世今生三 我的名字叫JavaScript,你也可以喊我Js。在說(shuō)我的故事之前,我覺(jué)得有必要先介紹下我的大哥HTML,和大嫂CSS。沒(méi)錯(cuò),那個(gè)叫Java的家伙不是我的親戚,我們隔...
摘要:直到有一天,大哥接到一項(xiàng)特殊的任務(wù),一位年輕的爸爸想給自己患有抑郁癥的孩子制作一個(gè)網(wǎng)站,希望網(wǎng)頁(yè)里的天空每天都可以更換一種顏色。猿知原味注老頭闡述的方法是最早的動(dòng)態(tài)網(wǎng)頁(yè)實(shí)現(xiàn)方案技術(shù)。傳送門(mén)技術(shù)的前世今生二技術(shù)的前世今生三 我的名字叫JavaScript,你也可以喊我Js。在說(shuō)我的故事之前,我覺(jué)得有必要先介紹下我的大哥HTML,和大嫂CSS。沒(méi)錯(cuò),那個(gè)叫Java的家伙不是我的親戚,我們隔...
摘要:直到有一天,大哥接到一項(xiàng)特殊的任務(wù),一位年輕的爸爸想給自己患有抑郁癥的孩子制作一個(gè)網(wǎng)站,希望網(wǎng)頁(yè)里的天空每天都可以更換一種顏色。猿知原味注老頭闡述的方法是最早的動(dòng)態(tài)網(wǎng)頁(yè)實(shí)現(xiàn)方案技術(shù)。傳送門(mén)技術(shù)的前世今生二技術(shù)的前世今生三 我的名字叫JavaScript,你也可以喊我Js。在說(shuō)我的故事之前,我覺(jué)得有必要先介紹下我的大哥HTML,和大嫂CSS。沒(méi)錯(cuò),那個(gè)叫Java的家伙不是我的親戚,我們隔...
摘要:可以料想,數(shù)據(jù)中心會(huì)產(chǎn)生大量的熱量,據(jù)悉,其能量使用密度超過(guò)一棟普通辦公大樓百倍以上。數(shù)據(jù)中心和設(shè)備內(nèi)部的熱負(fù)載必須得到有效管理,為了給數(shù)據(jù)中心降溫,各數(shù)據(jù)中心紛紛采取各種措施。例如,首次引入數(shù)據(jù)中心液體冷卻,為人工智能芯片冷卻。一年中最熱的時(shí)節(jié)已經(jīng)到來(lái),很多事物都在經(jīng)受高溫的磨練,就連瑞典北部北極圈和北臨北冰洋的西伯利亞部分地區(qū),氣溫也一度達(dá)到30多度。接受烈日考驗(yàn)的不只有生物,還有各種各...
摘要:當(dāng)然此時(shí)的局限性較大,比如沒(méi)有副本和負(fù)載均衡的概念,這導(dǎo)致服務(wù)無(wú)法高可用當(dāng)然也更不存在什么服務(wù)網(wǎng)絡(luò)管理和跨節(jié)點(diǎn)數(shù)據(jù)存儲(chǔ)這些東西沒(méi)有服務(wù)模型集群中服務(wù)間關(guān)系和啟動(dòng)順序編排也很復(fù)雜于是就有了下面的的誕生。 showImg(https://segmentfault.com/img/remote/1460000015317037?w=1885&h=1153); 概述 在我的《Docker S...
閱讀 1346·2023-01-11 13:20
閱讀 1684·2023-01-11 13:20
閱讀 1132·2023-01-11 13:20
閱讀 1858·2023-01-11 13:20
閱讀 4100·2023-01-11 13:20
閱讀 2704·2023-01-11 13:20
閱讀 1385·2023-01-11 13:20
閱讀 3597·2023-01-11 13:20