背景和思路
某公司隨著業(yè)務(wù)擴張和信息化發(fā)展迅速,目前共有服務(wù)器 3000+臺,存儲容量 50PB+, 依據(jù)未來規(guī)劃各個機房中心需同步規(guī)劃、同步擴容、同步運行,由集團IT云管理平臺統(tǒng)一管理,將提供包括 X86 物理機、虛擬機、分布式塊 存儲、分布式文件存儲、FC/IP SAN 存儲、備份系統(tǒng)以及網(wǎng)絡(luò)設(shè)備、安全設(shè)備、負載均衡設(shè)備等基礎(chǔ)資源。屆時龐大的基礎(chǔ)設(shè)施資源的性能監(jiān)控、資源管理是信息中心重點工作之一。
當(dāng)前整個IT系統(tǒng)資源池的設(shè)備分布在2個物理數(shù)據(jù)中心、4個虛擬化集群、3000+多臺操作系統(tǒng)、500+數(shù)據(jù)庫/中間件,如何監(jiān)控眾多的物理設(shè)備、虛擬設(shè)備、數(shù)據(jù)庫、中間件成為維護人員繁重而困難的工作,同時資源的有效管理和利用也是每天需要挑戰(zhàn)的工作,針對虛擬化集群如何提供一個統(tǒng)一的監(jiān)控方法和統(tǒng)一可視化展示資源、性能的數(shù)據(jù)成為急需解決的問題。
智能化統(tǒng)一監(jiān)控展示方案,能夠自動的對資源進行持續(xù)的監(jiān)控,實時獲取資源的資源配置及性能數(shù)據(jù),通過預(yù)警閥值的配置進行自動告警推送;同時通過大屏的方式對資源數(shù)據(jù)和性能數(shù)據(jù)進行直觀的可視化展示,有效的提高監(jiān)控工作的效率,同時實時、全景的展示給資源管理提供有力決策保障 。
實施方案
1)開發(fā)部署監(jiān)控代理工具
通過監(jiān)控代理工具去發(fā)現(xiàn)及監(jiān)控資源池資源信息:
上傳“環(huán)境初始化腳本/deploy”這個目錄和目錄中所有文件;
安裝執(zhí)行腳本所需的依賴包,命令行運行:yum -y install dos2unix gcc-c++ zlib zlib-devel openssl-devel;
執(zhí)行“環(huán)境初始化腳本/deploy/deploy.sh”,如腳本執(zhí)行過程有提示缺依賴,直接通過yum安裝缺失的依賴包。
數(shù)據(jù)源列表:
說明:統(tǒng)計各種運維資源的數(shù)量及占比情況;
說明:統(tǒng)計數(shù)據(jù)中心平臺資源層各種應(yīng)用/數(shù)據(jù)庫資源的占比情況;
說明:統(tǒng)計數(shù)據(jù)中心IT資產(chǎn)的設(shè)備數(shù)量及使用情況;
說明:按業(yè)務(wù)系統(tǒng)維度統(tǒng)計各業(yè)務(wù)系統(tǒng)資源的占比情況;
按主機維度統(tǒng)計各種應(yīng)用/數(shù)據(jù)庫資源的占比情況;
說明:排序統(tǒng)計各業(yè)務(wù)系統(tǒng)的主機數(shù)量,并展示top10;
說明:統(tǒng)計各主機的資源使用情況,并展示top10;
說明:統(tǒng)計各業(yè)務(wù)系統(tǒng)中間件和數(shù)據(jù)庫的數(shù)量,并展示top10;
說明:統(tǒng)計虛擬化集群的CPU內(nèi)存存儲資源剩余情況,以及剩余資源還可能創(chuàng)建的虛機數(shù)量;
系統(tǒng)主機資源占比TOP5
系統(tǒng)告警分布TOP10
系統(tǒng)平均響應(yīng)時間趨勢
撥測實時圖
系統(tǒng)總可用率
系統(tǒng)健康度
系統(tǒng)平均響應(yīng)時間
當(dāng)前用戶體驗度
系統(tǒng)近一月健康度趨勢
系統(tǒng)近一月負載趨勢
說明:以時間趨勢展示系統(tǒng)所有主機近一個月的負載情況;
說明:以時間趨勢展示系統(tǒng)所有告警的情況。
實施技術(shù)點
3.1 無agent采集
通過大屏的方式展示數(shù)據(jù)中心全景的資源使用狀態(tài)及性能狀態(tài),幫助客戶在更短的時間內(nèi)掌握信息中心的資源信息,提供快速的決策能力。
應(yīng)用情況
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/129270.html
摘要:今天,阿里數(shù)據(jù)庫事業(yè)部研究員張瑞,將為你講述雙數(shù)據(jù)庫技術(shù)不為人知的故事。這十年,阿里巴巴數(shù)據(jù)庫團隊一直有一個使命推動中國數(shù)據(jù)庫技術(shù)變革。 第十個雙11即將來臨之際,阿里技術(shù)推出《十年牧碼記》系列,邀請參與歷年雙11備戰(zhàn)的核心技術(shù)大牛,一起回顧阿里技術(shù)的變遷。 今天,阿里數(shù)據(jù)庫事業(yè)部研究員張瑞,將為你講述雙11數(shù)據(jù)庫技術(shù)不為人知的故事。在零點交易數(shù)字一次次提升的背后,既是數(shù)據(jù)庫技術(shù)的一次...
摘要:安全態(tài)勢可視化系統(tǒng)的目的是生成網(wǎng)絡(luò)安全綜合態(tài)勢圖,以多視圖多角度多尺度的方式與用戶進行交互。可以看到,黑客攻擊是無處不在,無時不有的,世界互聯(lián)網(wǎng)的安全態(tài)勢并不如我們印象中那么隱蔽和少見。 導(dǎo)語 網(wǎng)絡(luò)態(tài)勢可視化技術(shù)作為一項新技術(shù),是網(wǎng)絡(luò)安全態(tài)勢感知與可視化技術(shù)的結(jié)合,將網(wǎng)絡(luò)中蘊涵的態(tài)勢狀況通過可視化圖形方式展示給用戶,并借助于人在圖形圖像方面強大的處理能力,實現(xiàn)對網(wǎng)絡(luò)異常行為的分析和檢測...
摘要:明確了客服調(diào)度的核心問題,也知道了難點,更看到了目前的現(xiàn)狀后,我們決定打造一款自動智能的客服調(diào)度系統(tǒng)。對于社會化的云客服,我們可以做到,比如排隊數(shù)超過某值時,自動觸發(fā)云客服的應(yīng)急放班。 背景 為什么客服需要調(diào)度?阿里集團客戶體驗事業(yè)群(CCO)目前承接了阿里集團以及生態(tài)體的客戶服務(wù)業(yè)務(wù),我們的客戶通過各個渠道來尋求解決各類問題,每天的進線量巨大,而且經(jīng)常伴隨著突發(fā)性進線,比如天貓代金券...
摘要:今天,我們邀請阿里高級技術(shù)專家力君,為大家分享自動智能的客服調(diào)度系統(tǒng)。明確了客服調(diào)度的核心問題,也知道了難點,更看到了目前的現(xiàn)狀后,我們決定打造一款自動智能的客服調(diào)度系統(tǒng)。 小嘰導(dǎo)讀:提到調(diào)度,大家腦海中可能想起的是調(diào)度阿里云的海量機器資源,而對于阿里集團客戶體驗事業(yè)群(CCO)而言,我們要調(diào)度的不是機器,而是客服資源。今天,我們邀請阿里高級技術(shù)專家力君,為大家分享自動、智能的客服調(diào)度...
閱讀 1347·2023-01-11 13:20
閱讀 1686·2023-01-11 13:20
閱讀 1133·2023-01-11 13:20
閱讀 1860·2023-01-11 13:20
閱讀 4103·2023-01-11 13:20
閱讀 2705·2023-01-11 13:20
閱讀 1386·2023-01-11 13:20
閱讀 3599·2023-01-11 13:20