摘要:月日,首期沙龍海量運維實踐大曝光在騰訊大廈圓滿舉行。六總結(jié)相關(guān)文章騰訊云運維干貨沙龍海量運維實踐大曝光二騰訊云運維干貨沙龍海量運維實踐大曝光三沙龍下載地址
作者丨郭智文:騰訊高級工程師,手機QQ運維負責(zé)人。多年來,對移動互聯(lián)網(wǎng)應(yīng)用的接入質(zhì)量度量、優(yōu)化有豐富的實踐經(jīng)驗,專注于業(yè)務(wù)架構(gòu)優(yōu)化、彈性伸縮、運營服務(wù)管理、幫助產(chǎn)品打造極致的技術(shù)基礎(chǔ)和質(zhì)量口碑。
12月16日,首期沙龍“海量運維實踐大曝光”在騰訊大廈圓滿舉行。沙龍出品人騰訊運維技術(shù)總監(jiān)、復(fù)旦大學(xué)客座講師、DevOps專家梁定安,講師騰訊手機QQ運維負責(zé)人郭智文,騰訊高級工程師魏旸,騰訊SNG資深運維專家周小軍出席沙龍,并帶來精彩的技術(shù)分享。為了便于大家學(xué)習(xí),特將本次沙龍講師的演講內(nèi)容進行了整理。您也可以在騰訊織云公眾號下載本次演講PPT。
一. 業(yè)務(wù)概況 手Q業(yè)務(wù)增長 2008-2017
手機QQ起源于2003年前后,到2008年同時在線用戶數(shù)到達500萬,到2009、2010年就已經(jīng)達到千萬級別,到2013年就突破億級級別,短短5-6年時間,增長了200倍,2016前后達到2億級別。
二.移動網(wǎng)絡(luò)用戶接入故障案例 重慶聯(lián)通用戶移動網(wǎng)絡(luò)(2G/3G)故障
問題:
2014年12月4日早上,收到手機QQ監(jiān)控告警,重慶聯(lián)通部分用戶訪問異常。重慶聯(lián)通2G、3G用戶到所有IDC的網(wǎng)絡(luò)質(zhì)量變差,表現(xiàn)為丟包變高。但對比組重慶聯(lián)通寬帶Wifi用戶質(zhì)量正常。
我們從客戶端上萬日志監(jiān)控里面看,在12月4號凌晨,發(fā)現(xiàn)重慶那個地方從3%漲到4%左右,其它的有些漲到10%。
業(yè)務(wù)運維同事通過騰訊網(wǎng)絡(luò)中心聯(lián)系到重慶聯(lián)通網(wǎng)絡(luò)負責(zé)人,經(jīng)過多輪溝之后,確認(rèn)確實是運營商在凌晨時段割接網(wǎng)絡(luò)引起,運營商與廠商經(jīng)過兩次調(diào)整最后故障才得以解決。
通過上述例子,我們可以發(fā)現(xiàn),在用戶與業(yè)務(wù)服務(wù)器之間,存在著一個漫長的路徑: 從手機側(cè)到附近基站,再到移動的GGSN,再經(jīng)過互聯(lián)網(wǎng)骨干網(wǎng),再到騰訊服務(wù)器。
香港數(shù)碼通與新世界電訊聯(lián)網(wǎng)問題
QQ日活躍用戶有6億多,這么多的用戶數(shù),除了分布在國內(nèi),也全球也有不少用戶。這些全球的移動用戶是接入到全球其他的移動網(wǎng)絡(luò)運營商。這些廣泛的運營商對網(wǎng)絡(luò)的管控也是有很多潛規(guī)則的,是我們無法預(yù)料到的。
這個就是我們的一個從用戶側(cè)到無線網(wǎng)絡(luò),到互聯(lián)網(wǎng),再到后臺服務(wù)器的架構(gòu)。
其實最主要的就是由于WiFi與移動網(wǎng)絡(luò),不是物理連接的,是無線連接的,這會帶來一些高丟包率,高延時的問題。
最上面是我們的后臺服務(wù)層。然后,隨著用戶規(guī)模的增長,從百萬級到千萬級,然后到億級,可用性要求更高了,逐步從一個中心演變成雙中心,進而達到三中心。
三. 業(yè)務(wù)后臺架構(gòu)及部署優(yōu)化 2G時代(2004 - 2010)在早期2G網(wǎng)絡(luò)時代,用戶手機經(jīng)過運營商網(wǎng)關(guān)訪問網(wǎng)絡(luò),是會經(jīng)過嚴(yán)格的防火墻策略限制的。 這導(dǎo)致了業(yè)務(wù)側(cè)的業(yè)務(wù)部署,服務(wù)端口等都要向運營商申請加可信策略,才能被移動用戶訪問到。
在2G時代,那時候規(guī)模還比較小,主要在深圳地區(qū),移動也沒有移動機房,一開始就都部署在電信的機房里面。 晚高峰時候移動用戶跨網(wǎng)登錄到電信服務(wù)器,登錄過程常常需要等待數(shù)秒。
3G時代(2011 – 2013)
2011年起,國內(nèi)運營商的3G網(wǎng)絡(luò)逐步發(fā)展起來,WAP網(wǎng)關(guān)和NET網(wǎng)關(guān)也逐步融合了,運營商socket限制逐步取消。業(yè)務(wù)側(cè)也逐步增加了移動、聯(lián)通機房部署,實現(xiàn)用戶非跨網(wǎng)接入。
4G時代(2014 – 2017)
2013年手Q已經(jīng)超過一億級在線了。當(dāng)我們到一億用戶的時候,那時候我們要考慮,業(yè)務(wù)不太適合只放深圳地區(qū)了。
于是,在同時在線過億后,單地域支撐存在風(fēng)險, 我們業(yè)務(wù)進行了架構(gòu)優(yōu)化, 逐步從深圳分布,演進成深圳、天津兩地分布,并進一步演進成深圳、天津、上海三中心分布。
我們是2015年6月份完成了開普勒項目,到2015年8月份,天津港就發(fā)生了爆炸事件,基于三中心分布架構(gòu)的能力,我們大概花了一個小時,在用戶幾乎無感知的情況下面,平滑的把用戶調(diào)度到另外兩個中心。
四. 全局智能調(diào)度 全網(wǎng)網(wǎng)絡(luò)狀況統(tǒng)計分析
? 覆蓋廣,數(shù)據(jù)可信度高 –— 億級在線聯(lián)網(wǎng)數(shù)據(jù)
? 強大的實時干預(yù)能力 —- 5分鐘級自動調(diào)度
? 極致加速 —- 調(diào)度粒度細分到VIP下的某端口
? 自適應(yīng)中國運營商的復(fù)雜環(huán)境 —- 多發(fā)故障,多出口,跨網(wǎng)限制
國內(nèi)的三大運營商,還有中小運營商網(wǎng)絡(luò)環(huán)境也非常復(fù)雜,出口的限制也比較多,基于這套系統(tǒng),我們能夠做到自適應(yīng)。
智能調(diào)度系統(tǒng)后臺架構(gòu)
通過統(tǒng)計億級在線的手機QQ/PCQQ的聯(lián)網(wǎng)反饋數(shù)據(jù),經(jīng)過大數(shù)據(jù)分析處理,形成一個調(diào)度庫。
每天都在發(fā)生的實時丟包干預(yù)效果
這是每一天網(wǎng)絡(luò)波動圖。從這圖來看,5個省份有丟包的問題, 但是在我們實時的干預(yù)調(diào)度下,用戶訪問到跨地域的集群了, 丟包率降回到3%左右 效果很好。
平均登陸耗時對比
從我們的智能調(diào)度的抽樣的案例來看,被智能調(diào)度干預(yù)的用戶平均的登錄耗時只有1.9秒,如果沒有自動干預(yù),用戶需要8.6秒。
海外用戶加速點
QQ海外用戶數(shù)相對來說比例比較小,大概1%到2%左右。 一開始我們只是用香港去覆蓋的,可能對香港周邊國家的覆蓋是沒什么問題,但是距離比較遙遠的國家,還是會帶來高時延,高丟包率的問題。
我們的解決方法是,比如說在用戶就近的地區(qū)布一些網(wǎng)絡(luò)加速點,在這些加速點連到香港服務(wù)器,然后香港服務(wù)器走騰訊跨境專線回到深圳的集群。通過這種方式來解決。
五. 移動端網(wǎng)絡(luò)性能優(yōu)化 通信信道預(yù)激活 —- signaling加速
從統(tǒng)計數(shù)據(jù)看,在3G網(wǎng)絡(luò)下,這個優(yōu)化是可以把用戶感知這個體驗從600多毫秒降到400多毫秒,平均耗時減少了32%左右。
IP直連
我們是做了一種IP直通車的方案,既能夠解決劫持問題,又能夠解決訪問速度最快的問題。目前已有30多個業(yè)務(wù)已經(jīng)接入了手機QQ IP直通車服務(wù)了。
高時延下邏輯聚合
手機端還可以做的優(yōu)化就是考慮把部分客戶端的邏輯做到服務(wù)器邏輯里面去。
移動端網(wǎng)絡(luò)高延時,考慮在Server側(cè)做邏輯聚合。增加內(nèi)網(wǎng)代理模塊,代替客戶端完成多次請求,一次性把結(jié)果返回給客戶端,原先10+s耗時可優(yōu)化到1-2s。
比如說像手機QQ ,我們做了一個優(yōu)化,把登錄聯(lián)網(wǎng)這個邏輯做到一個注冊代理的后臺服務(wù)上,大大降低了客戶端多次請求的耗時。這其實還有一些其他間接的好處,比如說我們在春節(jié)零點搶紅包的時候, 我們是可以在注冊代理做一些頻率控制+隊列來降低零點時刻爆發(fā)峰值對我們后臺業(yè)務(wù)的沖擊。
六. 總結(jié)相關(guān)文章
騰訊云運維干貨沙龍-海量運維實踐大曝光 (二)
騰訊云運維干貨沙龍-海量運維實踐大曝光 (三)
沙龍PPT下載地址:https://share.weiyun.com/5c406a57164ed4cf7e248160aebf74c3
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/8025.html
摘要:作者丨魏旸騰訊高級工程師,具有年運維經(jīng)驗的專家。月日,首期沙龍海量運維實踐大曝光在騰訊大廈圓滿舉行。您也可以在騰訊織云公眾號下載本次演講。相關(guān)文章騰訊云運維干貨沙龍海量運維實踐大曝光一騰訊云運維干貨沙龍海量運維實踐大曝光三沙龍下載地址 作者丨魏旸:騰訊高級工程師,具有15年運維經(jīng)驗的專家。負責(zé)QQ空間、微云、QQ空間相冊等的運維工作。 12月16日,首期沙龍海量運維實踐大曝光在騰訊大廈...
摘要:月日,首期沙龍海量運維實踐大曝光在騰訊大廈圓滿舉行。織云高效的實踐是,它是以運維標(biāo)準(zhǔn)化為基石,以為核心的自動化運維平臺。 作者丨周小軍,騰訊SNG資深運維工程師,負責(zé)社交產(chǎn)品分布式存儲的運維及團隊管理工作。對互聯(lián)網(wǎng)網(wǎng)站架構(gòu)、數(shù)據(jù)中心、云計算及自動化運維等領(lǐng)域有深入研究和理解。 12月16日,首期沙龍海量運維實踐大曝光在騰訊大廈圓滿舉行。沙龍出品人騰訊運維技術(shù)總監(jiān)、復(fù)旦大學(xué)客座講師、De...
閱讀 1245·2021-09-04 16:41
閱讀 2403·2021-09-02 10:18
閱讀 916·2019-08-29 16:40
閱讀 2613·2019-08-29 16:14
閱讀 897·2019-08-26 13:41
閱讀 1298·2019-08-26 12:24
閱讀 730·2019-08-26 10:24
閱讀 2868·2019-08-23 17:54