某日某系統前端統計分析發現,當天前端調用tuxedo中間件多個服務出現調用時間增長較多,并間歇性出現“服務調用出錯.”情況,問題出現時間點短暫無規律,問題持續下去會逐步拉低業務成功率,觸及考核。
問題排查難點:1)問題未觸發服務排隊告警;2)問題出現時間點短暫無規律,不好捕獲問題現場。
一、問題首次出現
情況說明:如問題背景所述,維護人員著手排查。
1、由于tuxedo中間件服務按照地市進行分區,不同地市根據路由信息,通過ESB訪問對應區域tuxedo中間件,因此第一時間協調ESB協查服務調用超時記錄,確認問題所在區域。
2、經ESB核查發現超時服務情況主要在集中在A區域獲取有效tuxedo域信息后,我側有針對的核查tuxedo系統ULOG日志,發現中間件確實存在對應的應用服務請求阻塞的日志報錯信息。
3、排查告警發現未觸發告警原因如下:
核查服務排隊監控腳本發現,服務隊列監控閥值為100,每4四分鐘執行一次。服務排隊時服務隊列未達到閥值,或監控腳本執行時間未出現排隊現象。
4、優化監控采集粒度以及告警閾值,待下一次異常時刻捕獲現場:
調整閥值為30,每分鐘采集一次;
同時針對異常服務部署了truss捕獲腳本,當觸發告警后第一時間執行truss捕獲有效信息。
情況說明:第二次凌晨0點10分問題再次出現,同時促發短信告警。
1、 這次我側提前部署了腳本truss服務進程,抓取到了本次服務異常調用全過程。分析truss輸出文件發現服務在 write 1 寫操作中,耗時達42秒。
2、Pfiles pid可以看出write 1系服務向中間件主機本地寫業務日志
3、比對正常時間段,此本地寫日志操作驟耗時均在0.0001~0.0002s左右:
對比懷疑異常時間段中間件主機I/O異常,導致服務調用超時。為確保此次抓取異常非偶然現象,之后進行了第二次抓取,現象與分析結果與上述一致。
4、通知主機端核查接口tuxedo A對應主機I/O是否存在異常。
經主機核查發現主機存在一條存儲鏈路不穩定,并對不穩定鏈路臨時做disabled處理,避免再次影響業務。
5、最終主機側問題處理后,續持續跟蹤觀察,故障得到解決。
故障相對簡單,重在排查思路。針對此類間歇性、偶發性、異常時間很短的故障,首先我們需要確保監控告警能夠第一時間捕獲異常,如果未觸發告警,需第一時間分析、調整告警策略;針對故障時間非常短的情況,需要考慮預置捕獲任務,確保能夠捕獲現場,否則從收到告警到登上服務器,可能故障已經結束了,導致還是沒有排查方向;針對tuxedo服務調用故障,要熟練使用truss、trace等相關命令,捕獲服務進程對系統調用、接收的信號和進程造成的機器故障的跟蹤。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/130045.html
摘要:前言本文給大家分享的題目是基于微服務以及的高可用架構探索與實現。比如說年大地震的時候我正好在東京,當時在做一個金融系統的相關工作。那次大地震導致很多很多的問題,雖然大地震不是在東京發生,但是還是給我們的系統造成了影響。 前言 本文給大家分享的題目是《基于DevOps、微服務以及K8S的高可用架構探索與實現》。整個企業的高可用架構面臨很多的挑戰,面向微服務、容器化以及敏態交付,是我們現在...
摘要:后端好書閱讀與推薦系列文章后端好書閱讀與推薦后端好書閱讀與推薦續后端好書閱讀與推薦續二后端好書閱讀與推薦續三這里依然記錄一下每本書的亮點與自己讀書心得和體會,分享并求拍磚。然后又請求封鎖,當釋放了上的封鎖之后,系統又批準了的請求一直等待。 后端好書閱讀與推薦系列文章:后端好書閱讀與推薦后端好書閱讀與推薦(續)后端好書閱讀與推薦(續二)后端好書閱讀與推薦(續三) 這里依然記錄一下每本書的...
摘要:后端好書閱讀與推薦系列文章后端好書閱讀與推薦后端好書閱讀與推薦續后端好書閱讀與推薦續二后端好書閱讀與推薦續三這里依然記錄一下每本書的亮點與自己讀書心得和體會,分享并求拍磚。然后又請求封鎖,當釋放了上的封鎖之后,系統又批準了的請求一直等待。 后端好書閱讀與推薦系列文章:后端好書閱讀與推薦后端好書閱讀與推薦(續)后端好書閱讀與推薦(續二)后端好書閱讀與推薦(續三) 這里依然記錄一下每本書的...
摘要:后端好書閱讀與推薦系列文章后端好書閱讀與推薦后端好書閱讀與推薦續后端好書閱讀與推薦續二后端好書閱讀與推薦續三這里依然記錄一下每本書的亮點與自己讀書心得和體會,分享并求拍磚。然后又請求封鎖,當釋放了上的封鎖之后,系統又批準了的請求一直等待。 后端好書閱讀與推薦系列文章:后端好書閱讀與推薦后端好書閱讀與推薦(續)后端好書閱讀與推薦(續二)后端好書閱讀與推薦(續三) 這里依然記錄一下每本書的...
摘要:筆者對微服務系統的觀點是,我們從單體系統向微服務系統改造的過程中,需要認真思考什么階段使用微服務。此外,為了解決服務部署,我們可以考慮通過滾動發布來實現服務的無中斷。事實上,微服務保證其服務的整體可用性。 原文地址:梁桂釗的博客博客地址:http://blog.720ui.com 歡迎關注公眾號:「服務端思維」。一群同頻者,一起成長,一起精進,打破認知的局限性。 一、逃離單體系統,...
閱讀 1346·2023-01-11 13:20
閱讀 1684·2023-01-11 13:20
閱讀 1132·2023-01-11 13:20
閱讀 1858·2023-01-11 13:20
閱讀 4100·2023-01-11 13:20
閱讀 2704·2023-01-11 13:20
閱讀 1385·2023-01-11 13:20
閱讀 3597·2023-01-11 13:20