摘要:有一次別人的云服務(wù)器被攻擊,提供商竟然重啟了物理機(jī)然后又諸多悲劇出現(xiàn)。造成微博服務(wù)短暫不可用。通過(guò)建立工具來(lái)診斷問(wèn)題,并創(chuàng)建一種復(fù)盤事故的文化來(lái)推動(dòng)并作出改進(jìn),防止未來(lái)發(fā)生故障。
相信小伙伴們?cè)谏暇W(wǎng)或者玩游戲的時(shí)候一定都遇到過(guò)無(wú)法訪問(wèn)的情況。“服務(wù)器炸了”的原因有各種各樣,下面就讓我們來(lái)了解一下吧~
運(yùn)維:為什么受傷的總是我經(jīng)歷不可抗力是一種什么體驗(yàn)
知己知彼,百戰(zhàn)不殆,了解一下過(guò)去那幾年我們所經(jīng)歷過(guò)的各種不可抗離奇事件吧。
一、空調(diào),揮之不去的噩夢(mèng)
二、易斷的纜線
三、硬件造成的網(wǎng)絡(luò)中斷
四、波及全國(guó)的DNS根域問(wèn)題
五、地方流量劫持
六、殺毒軟件等攔截
七、DDoS
淚說(shuō)新公司使用云服務(wù)器后構(gòu)架的不堪歷史
得出的最大教訓(xùn)就是:云服務(wù)器太不穩(wěn)定了,要以數(shù)量取勝,不能同一機(jī)柜。有一次別人的云服務(wù)器被攻擊,提供商竟然重啟了物理機(jī)..然后又諸多悲劇出現(xiàn)。最大的感恩就是:學(xué)到了很多知識(shí)。每次事故服務(wù)器我都要被迫親自參與修復(fù),本來(lái)不那么熟悉的,一下子被強(qiáng)迫做了很多事情。
系統(tǒng)上線那點(diǎn)事 - 記一次線上系統(tǒng)故障
該項(xiàng)目是一個(gè)微信轉(zhuǎn)盤游戲抽獎(jiǎng)營(yíng)銷項(xiàng)目,由于運(yùn)營(yíng)營(yíng)銷時(shí)間要求緊迫,開發(fā)測(cè)試部署上線用了10天不到,有些準(zhǔn)備工作并沒(méi)有到位。
系統(tǒng)上線那點(diǎn)事續(xù)
雖然在家休著但閑著無(wú)事打開監(jiān)控系統(tǒng)看著有啥問(wèn)題沒(méi)。看了沒(méi)幾分鐘,運(yùn)維同學(xué)打電話來(lái),說(shuō)“上次你說(shuō)想要的現(xiàn)場(chǎng)來(lái)了,連接數(shù)又上來(lái)了”,馬上登上數(shù)據(jù)庫(kù)機(jī)器查看,cpu usage, load average值跟上次故障如出一轍;但這次有所不同,一是已經(jīng)有了上次的經(jīng)驗(yàn),二是運(yùn)維同學(xué)這次沒(méi)在高速的半路上,可以一起及時(shí)處理。
B站運(yùn)維團(tuán)隊(duì)成長(zhǎng)的血淚史
B站運(yùn)維痛點(diǎn)主要有3個(gè):人手不足、故障多、運(yùn)維系統(tǒng)跟不上,針對(duì)這三個(gè)痛點(diǎn),B站采用了三種方式進(jìn)行破冰。
從鹿晗關(guān)曉彤戀情事件看運(yùn)維的節(jié)假日準(zhǔn)備工作
又是一年國(guó)慶,10月8日12點(diǎn),鹿晗在微博公布與關(guān)曉彤戀情,截至當(dāng)日14:50, 該微博共收獲462,884次轉(zhuǎn)發(fā)、986,409條評(píng)論,2,566,617個(gè)點(diǎn)贊。造成微博服務(wù)短暫不可用。作為運(yùn)維同行,對(duì)此深表同情和理解。服務(wù)器:穩(wěn)住!
QQ億級(jí)日活躍業(yè)務(wù)后臺(tái)核心技術(shù)揭秘
今天給大家?guī)?lái)《構(gòu)造高可靠海量用戶服務(wù)-SNG數(shù)億級(jí)日活躍業(yè)務(wù)后臺(tái)核心技術(shù)揭秘》,一起探討怎么從可用性的維度提升海量服務(wù)的可靠性及海量服務(wù)的故障處理方式,包括:
SNG后臺(tái)架構(gòu)的概覽;
面向海量服務(wù)的設(shè)計(jì)原則。騰訊海量服務(wù)的后臺(tái)設(shè)計(jì)一般通用的解決方案是什么,包括如何提升海量服務(wù)的高可用性,如何從架構(gòu)層、產(chǎn)品層、運(yùn)維層提升服務(wù)的合理性;
后臺(tái)服務(wù)故障解決思路
餓了么運(yùn)維基礎(chǔ)設(shè)施進(jìn)化史
餓了么成立于2008年,2014年底開始迎來(lái)業(yè)務(wù)的大規(guī)模爆發(fā)性增長(zhǎng),2015-2016年餓了么進(jìn)入高速發(fā)展期,業(yè)務(wù)和服務(wù)器的增長(zhǎng)都在數(shù)十倍的規(guī)模,這種大規(guī)模的增長(zhǎng)必然帶來(lái)很多挑戰(zhàn),本文將通過(guò)餓了么運(yùn)維基礎(chǔ)設(shè)施的進(jìn)化史和大家分享不同時(shí)期應(yīng)對(duì)挑戰(zhàn)的措施和思路。
云智慧微課堂:移動(dòng)創(chuàng)業(yè)公司的IT性能優(yōu)化實(shí)例講解
今天和大家分享一下我在公司業(yè)務(wù)方面故障排查遇到的一些坑,以及進(jìn)行性能調(diào)優(yōu)的解決方法。
層層考慮可用性的互聯(lián)網(wǎng)系統(tǒng)
為什么炸了?互聯(lián)網(wǎng)系統(tǒng)7*24小時(shí)不分晝夜的為人民服務(wù),那么這樣長(zhǎng)時(shí)間服務(wù)的背后究竟有哪些手段保證呢?這其中包括軟硬件,及基礎(chǔ)設(shè)施的保障。IT人的努力:
分布式系統(tǒng)
IDC
高可用軟件
存儲(chǔ)
設(shè)備
電力
面對(duì)大規(guī)模系統(tǒng)工程,看Facebook如何處理故障排查(一)
為了使Facebook的系統(tǒng)在快速變化的情況下保持可靠,專門為其研究了常見的故障模式,并建立抽象理念來(lái)解決這些問(wèn)題。這些理念確保最佳實(shí)踐應(yīng)用于的整個(gè)基礎(chǔ)設(shè)施。通過(guò)建立工具來(lái)診斷問(wèn)題,并創(chuàng)建一種復(fù)盤事故的文化來(lái)推動(dòng)并作出改進(jìn),防止未來(lái)發(fā)生故障。
面對(duì)大規(guī)模系統(tǒng)故障,看Facebook如何修復(fù)(二)
一個(gè)服務(wù)器即使有最好的預(yù)防措施,但是也會(huì)發(fā)生一些故障。在停機(jī)期間,正確的方式可以迅速解決問(wèn)題,最大限度地減少故障持續(xù)時(shí)間。
系統(tǒng)故障、程序失敗和錯(cuò)誤修正
每一次系統(tǒng)故障多是因?yàn)槌绦蜻\(yùn)行失敗或錯(cuò)誤,偶爾也會(huì)有因?yàn)榄h(huán)境問(wèn)題,比如:機(jī)器掉電、硬件故障、虛擬機(jī)錯(cuò)誤等。但即便是環(huán)境原因引發(fā)的系統(tǒng)故障,也是因?yàn)槌绦蚓帉懣紤]不足導(dǎo)致的。曾經(jīng)就碰到因?yàn)橛脖P故障導(dǎo)致服務(wù)假死(掛起)引發(fā)的系統(tǒng)故障,這就是程序的編寫并未考慮硬盤 I/O 阻塞導(dǎo)致的掛起問(wèn)題。
網(wǎng)絡(luò)故障排查常用命令集
查詢路由表(route)
ping網(wǎng)關(guān)(ping)
查詢DNS服務(wù)器(dig)
查詢DNS解析(nslookup)
檢查路由(traceroute)
檢查遠(yuǎn)程端口是否開放(telnet/nmap)
檢查本地(服務(wù)端)端口監(jiān)聽(netstat)
查看防火墻規(guī)則(iptables)
查看網(wǎng)絡(luò)帶寬使用(iftop)
抓取數(shù)據(jù)包(tcpdump)
docs
運(yùn)維人員處理云服務(wù)器故障的方法總結(jié)
防“炸”手冊(cè)遇到服務(wù)器故障,問(wèn)題出現(xiàn)的原因很少可以一下就想到。我們基本上都會(huì)從以下步驟入手:
一、盡可能搞清楚問(wèn)題的前因后果
二、有誰(shuí)在?
三、之前發(fā)生了什么?
四、現(xiàn)在在運(yùn)行的進(jìn)程是啥?
五、監(jiān)聽的網(wǎng)絡(luò)服務(wù)
六、CPU 和內(nèi)存
七、硬件
八、IO 性能
九、掛載點(diǎn) 和 文件系統(tǒng)
十、內(nèi)核、中斷和網(wǎng)絡(luò)
十一、系統(tǒng)日志和內(nèi)核消息
十二、定時(shí)任務(wù)
十三、應(yīng)用系統(tǒng)日志
結(jié)論
Web如何應(yīng)對(duì)流量劫持?
雖然互聯(lián)網(wǎng)經(jīng)過(guò)多年的發(fā)展,可是網(wǎng)站使用的底層協(xié)議仍是 HTTP,HTTP 作為一種明文傳播協(xié)議,所有的傳輸數(shù)據(jù)都是明文,我們都知道在通信中使用明文(不加密) 內(nèi)容可能會(huì)被竊聽,同時(shí)網(wǎng)站存在被劫持的風(fēng)險(xiǎn)。面對(duì)多種方式的網(wǎng)站劫持,我們應(yīng)該如何應(yīng)對(duì)?
Web網(wǎng)站壓力及性能測(cè)試
在項(xiàng)目上線之前,都需要做壓力測(cè)試,目的是看下我們的網(wǎng)站能抗住多少的壓力,能承擔(dān)多少并發(fā),如果不做壓力測(cè)試,一旦出現(xiàn)大訪問(wèn)量時(shí),我們的網(wǎng)站會(huì)掛掉。
應(yīng)該對(duì)什么告警?
沒(méi)有多少系統(tǒng)的告警是設(shè)計(jì)得當(dāng)?shù)摹A己玫母婢O(shè)計(jì)是一項(xiàng)非常困難的工作。如何知道你收到的告警是糟糕的?多少次你收到了告警之后,立即就關(guān)掉了的?是不是成天被這些然而并沒(méi)有什么卵用的東西給淹沒(méi)?最常見的告警設(shè)置:cpu使用率超過(guò)90%,然后告警。這種設(shè)置在大部分場(chǎng)合下是沒(méi)有辦法提供高質(zhì)量的告警的。高質(zhì)量的告警應(yīng)該是這樣的:每次收到之后你可以立即評(píng)估影響的范圍,并且每一個(gè)告警需要你做出分級(jí)響應(yīng)。所謂每個(gè)告警都應(yīng)該是,actionable的。
防雪崩利器:熔斷器 Hystrix 的原理與使用
分布式系統(tǒng)中經(jīng)常會(huì)出現(xiàn)某個(gè)基礎(chǔ)服務(wù)不可用造成整個(gè)系統(tǒng)不可用的情況,這種現(xiàn)象被稱為服務(wù)雪崩效應(yīng)。為了應(yīng)對(duì)服務(wù)雪崩,一種常見的做法是手動(dòng)服務(wù)降級(jí)。而Hystrix的出現(xiàn),給我們提供了另一種選擇.
如何不讓一個(gè)慢查詢把服務(wù)器搞冒煙
直接說(shuō)解決方案吧:
縮小查詢范圍,由之前的查詢3天改為查詢1天,量級(jí)降到130w+數(shù)據(jù)。
強(qiáng)制使用索引,一定程度上縮短查詢時(shí)間。
寫個(gè)腳本,定時(shí)將查詢結(jié)果保存到memcache里,這個(gè)主要是防止高并發(fā)情況下,等待寫入mc時(shí)造成短時(shí)間大量數(shù)據(jù)庫(kù)訪問(wèn)。
對(duì)數(shù)據(jù)庫(kù)讀取結(jié)果做緩存。
對(duì)接口結(jié)果做緩存。
做了這5步工作,媽媽再也不用擔(dān)心我的服務(wù)器會(huì)冒煙啦~~
web 安全入門
搞 Web 開發(fā)離不開安全這個(gè)話題,確保網(wǎng)站或者網(wǎng)頁(yè)應(yīng)用的安全性,是每個(gè)開發(fā)人員都應(yīng)該了解的事。本篇主要簡(jiǎn)單介紹在 Web 領(lǐng)域幾種常見的攻擊手段。
Cross Site Script(XSS, 跨站腳本攻擊)
SQL Injection (SQL 注入)
Distributed Denial of Service (DDoS, 分布式拒絕服務(wù))
Cross Site Request Forgery (CSRF, 跨站請(qǐng)求偽造)
IT運(yùn)維必備技能
Linux基礎(chǔ)
運(yùn)維的命令
基礎(chǔ)服務(wù):
安全
腳本
運(yùn)維平臺(tái)工具 (中級(jí))
網(wǎng)絡(luò) (中高級(jí))
底層 (大神級(jí))
其它: 素養(yǎng)/處理方式
安全
責(zé)任心
細(xì)心
推進(jìn)/改善
進(jìn)取心/不斷學(xué)習(xí)
好記性不如爛筆頭
團(tuán)隊(duì)知識(shí)庫(kù)
簡(jiǎn)單暴力使用 iptables 保護(hù)你的服務(wù)器
很多【壞人】?jī)H靠端口掃描就攻破了很多用戶的主機(jī),大量的主機(jī)淪為不法分子的肉雞,在網(wǎng)絡(luò)上充當(dāng)不法行為的跳板。而多數(shù)這些【被利用】主機(jī)的主人,往往都是安全意識(shí)不夠,滿滿的僥幸心理,或者技術(shù)觀念不強(qiáng)導(dǎo)致的。
而防范大多數(shù)攻擊其實(shí)并不是什么非常困難的問(wèn)題,最簡(jiǎn)單的 iptables 防火墻規(guī)則,往往就能幫助你防范非常多的安全問(wèn)題。
使用 NGINX 流控和 fail2ban 防止 CC 攻擊
CC 攻擊:攻擊者通過(guò)創(chuàng)建大量請(qǐng)求導(dǎo)致服務(wù)器資源耗盡,主要針對(duì)特定服務(wù)接口,屬于實(shí)現(xiàn) DoS 攻擊的一種方式(DoS 攻擊更多是針對(duì)網(wǎng)絡(luò)端口,而不是具體服務(wù)接口)。
負(fù)載均衡中使用Redis實(shí)現(xiàn)共享Session
負(fù)載均衡:把眾多的訪問(wèn)量分擔(dān)到其他的服務(wù)器上,讓每個(gè)服務(wù)器的壓力減少。如我們第一次訪問(wèn) www.baidu.com 這個(gè)域名,可能會(huì)對(duì)應(yīng)這個(gè)IP 111.13.101.208的服務(wù)器,然后第二次訪問(wèn),IP可能會(huì)變?yōu)?11.13.101.209的服務(wù)器,這就是百度采用了負(fù)載均衡,一個(gè)域名對(duì)應(yīng)多個(gè)服務(wù)器,將訪問(wèn)量分擔(dān)到其他的服務(wù)器,這樣很大程度的減輕了每個(gè)服務(wù)器上訪問(wèn)量。
但是,這里有一個(gè)問(wèn)題,如果我們登錄了百度的一個(gè)賬號(hào),如網(wǎng)頁(yè)的百度網(wǎng)盤,但是每次有可能請(qǐng)求的是不同的服務(wù)器,我們知道每個(gè)服務(wù)器都會(huì)有自己的會(huì)話session,所以會(huì)導(dǎo)致用戶每次刷新網(wǎng)頁(yè)又要重新登錄,這是非常糟糕的體驗(yàn),因此,根據(jù)以上問(wèn)題,希望session可以共享,這樣就可以解決負(fù)載均衡中同一個(gè)域名不同服務(wù)器對(duì)應(yīng)不同session的問(wèn)題。
服務(wù)器性能優(yōu)化的正確姿勢(shì)
運(yùn)維工作中除了要維持平臺(tái)的穩(wěn)定運(yùn)行以外,還得對(duì)服務(wù)器的性能進(jìn)行優(yōu)化,讓服務(wù)器發(fā)揮出良好的工作性能是穩(wěn)定運(yùn)行的基礎(chǔ)。騰訊互娛DBA團(tuán)隊(duì)的汪偉(simon)在這一領(lǐng)域里整理出了一套性能優(yōu)化的資料為大家在性能優(yōu)化提供充足的方向。
簡(jiǎn)單幾步讓服務(wù)器更安全
對(duì)于愛(ài)折騰的人來(lái)說(shuō),在自己的服務(wù)器上搭建博客是一件很有趣的事情,但從頭開始配置服務(wù)器,完成博客部署并非一件易事,使用或者配置不恰當(dāng)更是可能引起服務(wù)器的安全隱患。本文參考了 DigitalOcean 的一篇文章 [1] ,介紹幾個(gè)簡(jiǎn)單的增強(qiáng)服務(wù)器安全性的方法,希望對(duì)你有所幫助。
黑客別動(dòng)我! 50 個(gè)系統(tǒng)防范新方法
本期完
:)
歡迎關(guān)注 SegmentFault 微信公眾號(hào) :)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/7996.html
摘要:此刻的后手指依舊飛速地敲打鍵盤,絲毫沒(méi)有要停不下來(lái)意思。閱讀本期技術(shù)周刊,你不光能弄明白什么是,使用的意義何在,還將被傳授秘籍,以達(dá)的境界。周刊篩選的每篇內(nèi)容,是作者的獨(dú)到見解,踩坑總結(jié)和經(jīng)驗(yàn)分享。 showImg(https://segmentfault.com/img/bVC5qJ?w=900&h=385); 啪嗒啪嗒,啪嗒啪嗒,聽到后排動(dòng)感十足的清脆鍵盤響,我就能猜到公司程序員定...
摘要:閱讀本期周刊,你將快速入門,開啟甜蜜之旅。然則的原理負(fù)責(zé)發(fā)送以及處理消息,創(chuàng)建消息隊(duì)列并不斷從隊(duì)列中取出消息交給,則用于保存消息。 showImg(/img/bVCN99?w=900&h=385); 2016 年 8 月,Android 7.0 Nougat(牛軋?zhí)牵┱桨l(fā)布,那么問(wèn)題來(lái)了,你 Marshmallow 了么(? -? ?) Cupcake、Donut、Gingerbre...
摘要:函數(shù)式編程,一看這個(gè)詞,簡(jiǎn)直就是學(xué)院派的典范。所以這期周刊,我們就重點(diǎn)引入的函數(shù)式編程,淺入淺出,一窺函數(shù)式編程的思想,可能讓你對(duì)編程語(yǔ)言的理解更加融會(huì)貫通一些。但從根本上來(lái)說(shuō),函數(shù)式編程就是關(guān)于如使用通用的可復(fù)用函數(shù)進(jìn)行組合編程。 showImg(https://segmentfault.com/img/bVGQuc); 函數(shù)式編程(Functional Programming),一...
閱讀 3669·2021-11-24 09:39
閱讀 1275·2021-09-30 09:48
閱讀 3258·2021-09-09 11:51
閱讀 2883·2021-09-08 10:41
閱讀 1329·2019-08-30 14:06
閱讀 2798·2019-08-30 14:01
閱讀 874·2019-08-29 17:11
閱讀 3169·2019-08-29 15:37