摘要:也有幸和全球說運維負責人李云偉先生進行一次深入溝通。面臨挑戰(zhàn)全球說的應用主要是在線系統(tǒng)和移動為主。是北京科技有限公司旗下產(chǎn)品,中國首個模式的,集成國內(nèi)外主流監(jiān)控支撐系統(tǒng),實現(xiàn)一個平臺上集中處理所有事件,提升可靠性。
客戶背景
「全球說」 Talkmate,是北京酷語時代教育科技有限公司(酷語科技)旗下產(chǎn)品,酷語科技是一家誕生于中國的語言技術(shù)公司,致力于為全球用戶提供一個全新的多語言學習和社交網(wǎng)絡平臺 。
全球說是典型的快速發(fā)展初創(chuàng)企業(yè),心懷理想,恰如其創(chuàng)始人溫榮輝提到:
全球說希望帶給用戶的是文化、朋友和旅游的快樂,而不是讓用戶為了學習語言去學習語言。我們希望能把所有語言囊括進來,容納世界各地的人。我們想成為一家「社會企業(yè)」。
豐滿理想需要團隊和 IT 系統(tǒng)的支撐,特別是全球說的用戶群全球化特征, IT 支撐還是非常重要的。 OneAlert 也有幸和全球說運維負責人李云偉先生進行一次深入溝通。
面臨挑戰(zhàn)全球說的 IT 應用主要是在線系統(tǒng)和移動 APP 為主。
Web 網(wǎng)站
移動 APP
調(diào)用 PHP 研發(fā),提供相關 API
常見的中間件 MongoDB , Memcache 等
服務器規(guī)模: 20 臺左右(隨業(yè)務增長不斷增加),分布式部署(國際服務器)。
使用流行的開源監(jiān)控工具 Zabbix 。
全球說雖然作為初創(chuàng)公司,但是 IT 系統(tǒng)是五臟俱全,具備隨著業(yè)務增長快速擴展的特性,同時運營支撐壓力不小。
李云偉先生面臨運維挑戰(zhàn)是:
運維人員比較少的情況下如何在手機上能夠快速獲知當前 IT 告警,方便及時處理告警?
使用 Zabbix 的原有告警存在以下問題:
郵件通知需要搭建郵件服務,配置相對復雜,而且郵件的接收存在較大延遲。
沒有短信通知,需要對接短信網(wǎng)關,需要開發(fā),目前人力資源緊張,耗時耗力。
為什么會選擇 OneAlert ?
OneAlert 是目前國內(nèi)領先的 SaaS 云告警,簡單快捷接入,無需復雜配置,或者開發(fā)介入,節(jié)省人力和成本。
OneAlert 提供的解決方案部署簡單:目前已經(jīng)支持國內(nèi)外主流10多種工具告警接入,包括阿里云、騰訊云、VMWare 等云平臺,以及 OneAPM、監(jiān)控寶、Solarwinds、Zabbix、Nagios、Open-Falcon 等監(jiān)控工具 。基本上僅需要5-10分鐘即可以完成配置。
通知必達:提供了微信、短信、郵件、電話、移動 APP、網(wǎng)頁等6個渠道發(fā)送告警通知,實現(xiàn)告警通知必達。
移動化:微信已成為我們?nèi)粘I詈凸ぷ鳂伺洌琌neAlert 讓告警事件在拇指尖就可以完成確認處理。
通知升級:個人可設置幾種渠道的通知方法,如告警發(fā)生后即刻微信/郵件/APP 通知,1分鐘后告警無響應,則電話通知。基本上哪怕是大半夜在睡覺,也可以叫醒。如果手機停機?沒問題,自動升級提醒其他同學,直到有人響應告警為止。
客戶反饋更快響應,提升業(yè)務可靠性。拿著手機就可以處理所有告警,所有信息都通過手機推送過來,特別是微信的信息很全。
通知升級能夠不遺漏告警,平時微信通知,但是短信和電話避免告警被遺漏。
全球說運維負責人李云偉先生說:
因為使用開源的監(jiān)控軟件,可以很容易的編寫各類監(jiān)控插件,報警的及時性就成為我們的迫切需求,OneAlert 云告警讓我們的報警系統(tǒng)有了及時準確的報警保障,讓我們可以有更多的時間完善其他運維系統(tǒng),特別是最近推出的電話報警,更是能夠保證每一個重要的報警都能夠通知到人,沒有遺漏,這個服務我要點100個贊。
OneAlert 是北京|5814788f931161e2ec1ae7ed970a76055|科技有限公司旗下產(chǎn)品,中國首個 SaaS 模式的|5814788f931161e2ec1ae7ed970a76056|,集成國內(nèi)外主流監(jiān)控/支撐系統(tǒng),實現(xiàn)一個平臺上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請訪問 OneAlert 官網(wǎng) 。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/7929.html
摘要:平均解決事件解決時間是衡量業(yè)務準備的最佳標準。平均每小時折合損失。說明整個團隊的響應及時率是不錯的。小結(jié)致力減少告警數(shù)量及時響應如果不能及時響應,能夠升級處理,最終提升解決時間,個核心關鍵指標是運維支撐工作非常關鍵的指標。 很難說,生活在這個數(shù)據(jù)大爆炸的時代對運維同學是福還是禍。靈活的監(jiān)控系統(tǒng)、開放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來,但是,過多的數(shù)據(jù)容...
摘要:前言告警將重要信息發(fā)送給運維或者其他相關人,及時發(fā)現(xiàn)并且處理問題。在所有開源監(jiān)控軟件里面,的告警方式無疑是最棒的。在發(fā)生告警之后立即發(fā)送郵件和微信消息給用戶,分鐘后還未確認,那么發(fā)送短信,分鐘還未確認則打電話給用戶。 1. 前言 告警將重要信息發(fā)送給運維「或者其他相關人」,及時發(fā)現(xiàn)并且處理問題。在所有開源監(jiān)控軟件里面,Zabbix 的告警方式無疑是最棒的。告警的方式各式各樣,從 Ema...
摘要:或參考集成安裝文檔通過微信報警提供腳本命令插件,通過新增用戶通知的方式,調(diào)用命令將告警通知發(fā)送至云告警平臺,根據(jù)通知策略,分派和通知到用戶,提供微信短信電話和郵件方式。 引言 Nagios 作為業(yè)界非常強大的一款開源監(jiān)視系統(tǒng)。 監(jiān)控網(wǎng)絡服務(SMTP、POP3、HTTP、NNTP、PING 等); 監(jiān)控主機資源(處理器負荷、磁盤利用率等); 簡單地插件設計使得用戶可以方便地擴展自己服...
摘要:為了掌握你的告警事件響應時間,在你已經(jīng)開始處理告警時,強烈建議及時響應認領,例如通過移動端微信頁面移動等方式及時認領。這一點國外做的很棒,在短信電話移動都可以很容易確認認領在微信端可以認領和關閉。 這是《運維不容錯過的4個關鍵指標》的姐妹篇,上篇文章介紹了優(yōu)秀運維團隊需要關注的4個關鍵指標,我們分享了平均恢復時間 MTTR、平均響應時間 MTTA 等概念。這篇是介紹一些實踐方法,更好的...
摘要:解決突發(fā)事故意味著什么通常認為解決突發(fā)事故是積極舉措。以平均恢復前時間為評估手段可能會掩飾警示,將紅燈變?yōu)榘踩木G燈。迅速解決突發(fā)事故是否總是最佳選擇在領域,僅評估影響業(yè)務正常運行的時間無異于給嬰兒浸有白蘭地的奶嘴。 在團隊紛紛談起工作效率的時候,對運維工作者,他們通常喜歡用「故障的平均解決時間」來衡量團隊的工作效率。然而這往往是不正確的。一個迅速解決大量突發(fā)事故的團隊十分高效,而實際...
閱讀 1654·2019-08-30 15:55
閱讀 976·2019-08-30 15:44
閱讀 870·2019-08-30 10:48
閱讀 2039·2019-08-29 13:42
閱讀 3187·2019-08-29 11:16
閱讀 1253·2019-08-29 11:09
閱讀 2058·2019-08-26 11:46
閱讀 617·2019-08-26 11:44