出現(xiàn)大量TIME_WAIT連接的排查與解決

myshell 發(fā)布于2019-07-25 14:51 / 4471人閱讀

摘要：年月日項目生產(chǎn)環(huán)境出現(xiàn)大量數(shù)千個需要一一排查先上總結(jié)未開啟導致大量主動斷開的連接與的連接默認是短連接此時必然出現(xiàn)狀態(tài)確認統(tǒng)計連接的本地地址前面很少的略過分析端口是對外端口端口是的端口對外端口經(jīng)過確認的配置文件中存在一行不啟用

Last-Modified: 2019年7月10日21:58:43

項目生產(chǎn)環(huán)境出現(xiàn)大量TIME_WAIT(數(shù)千個), 需要一一排查

先上總結(jié):

nginx 未開啟 keep-alive 導致大量主動斷開的tcp連接

nginx 與 fastcgi(php-fpm) 的連接默認是短連接, 此時必然出現(xiàn) TIME_WAIT

狀態(tài)確認

統(tǒng)計TIME_WAIT 連接的本地地址

netstat -an | grep TIME_WAIT | awk "{print $4}" | sort | uniq -c | sort -n -k1

#    ... 前面很少的略過
#    2 127.0.0.1:56420
#    442 192.168.1.213:8080
#    453 127.0.0.1:9000

分析:

8080端口是nginx對外端口

9000端口是php-fpm的端口

8080 對外web端口

經(jīng)過確認, nginx 的配置文件中存在一行

# 不啟用 keep-alive
keepalive_timeout 0;

嘗試抓取 tcp 包

tcpdump tcp -i any -nn port 8080 | grep "我的ip"

# 其中某一次連接的輸出如下
# 20:52:54.647907 IP 客戶端.6470 > 服務端.8080: Flags [S], seq 2369523978, win 64240, options [mss 1460,nop,wscale 8,nop,nop,sackOK], length 0
# 20:52:54.647912 IP 服務端.8080 > 客戶端.6470: Flags [S.], seq 1109598671, ack 2369523979, win 14600, options [mss 1460,nop,nop,sackOK,nop,wscale 7], length 0
# 20:52:54.670302 IP 客戶端.6470 > 服務端.8080: Flags [.], ack 1, win 256, length 0
# 20:52:54.680784 IP 客戶端.6470 > 服務端.8080: Flags [P.], seq 1:301, ack 1, win 256, length 300
# 20:52:54.680789 IP 服務端.8080 > 客戶端.6470: Flags [.], ack 301, win 123, length 0
# 20:52:54.702935 IP 服務端.8080 > 客戶端.6470: Flags [P.], seq 1:544, ack 301, win 123, length 543
# 20:52:54.702941 IP 服務端.8080 > 客戶端.6470: Flags [F.], seq 544, ack 301, win 123, length 0
# 20:52:54.726494 IP 客戶端.6470 > 服務端.8080: Flags [.], ack 545, win 254, length 0
# 20:52:54.726499 IP 客戶端.6470 > 服務端.8080: Flags [F.], seq 301, ack 545, win 254, length 0
# 20:52:54.726501 IP 服務端.8080 > 客戶端.6470: Flags [.], ack 302, win 123, length 0

上述具體的ip已經(jīng)被我批量替換了, 不方便暴露服務器ip

分析:

可以看到4次揮手的開始是由服務端主動發(fā)起的(記住TIME_WAIT只會出現(xiàn)在主動斷開連接的一方)

個人理解是, nginx 在配置"不啟用keep-alive"時, 會在http請求結(jié)束時主動斷開連接.

嘗試開啟http的keep-alive

修改 nginx 配置

keepalive_timeout 65;

reload nginx

nginx -s reload

再次抓包

tcpdump tcp -i any -nn port 8080 | grep "我的ip"

# 21:09:10.044918 IP 客戶端.8217 > 服務端.8080: Flags [S], seq 1499308169, win 64240, options [mss 1460,nop,wscale 8,nop,nop,sackOK], length 0
# 21:09:10.044927 IP 服務端.8080 > 客戶端.8217: Flags [S.], seq 2960381462, ack 1499308170, win 14600, options [mss 1460,nop,nop,sackOK,nop,wscale 7], length 0
# 21:09:10.070694 IP 客戶端.8217 > 服務端.8080: Flags [.], ack 1, win 256, length 0
# 21:09:10.077437 IP 客戶端.8217 > 服務端.8080: Flags [P.], seq 1:302, ack 1, win 256, length 301
# 21:09:10.077443 IP 服務端.8080 > 客戶端.8217: Flags [.], ack 302, win 123, length 0
# 21:09:10.198117 IP 服務端.8080 > 客戶端.8217: Flags [P.], seq 1:671, ack 302, win 123, length 670
# 21:09:10.222957 IP 客戶端.8217 > 服務端.8080: Flags [F.], seq 302, ack 671, win 254, length 0
# 21:09:10.222980 IP 服務端.8080 > 客戶端.8217: Flags [F.], seq 671, ack 303, win 123, length 0
# 21:09:10.247678 IP 客戶端.8217 > 服務端.8080: Flags [.], ack 672, win 254, length 0

注意看上面很有意思的地方:

tcp 的揮手只有3次, 而非正常的4次. 個人理解是, 服務端在收到 FIN 時, 已經(jīng)確認自己不會再發(fā)送數(shù)據(jù), 因此就將 FIN 與 ACK 一同合并發(fā)送

此時是客戶端主動斷開tcp連接, 因此服務端不會出現(xiàn) TIME_WAIT

再次查看連接狀態(tài)

netstat -an | grep TIME_WAIT | awk "{print $4}" | sort | uniq -c | sort -n -k1
#      ...忽略上面
#      1 127.0.0.1:60602
#      1 127.0.0.1:60604
#    344 127.0.0.1:9000

此時發(fā)現(xiàn)已經(jīng)沒有處于 TIME_WAIT 的連接了.

9000 fast-cgi 端口

經(jīng)過網(wǎng)上查找資料, 整理:

nginx 與 fast-cgi 的默認連接是短連接, 每次連接都需要經(jīng)過一次完整的tcp連接與斷開

當前 nginx 配置

upstream phpserver{
    server 127.0.0.1:9000 weight=1;
}

修改nginx配置使其與fastcgi的連接使用長連接

upstream phpserver{
    server 127.0.0.1:9000 weight=1;
    keepalive 100
}

fastcgi_keep_conn on;

說明:

upstream 中的 keepalive 指定nginx每個worker與fastcgi的最大長連接數(shù), 當長連接不夠用時, 此時新建立的連接會在請求結(jié)束后斷開(由于此時指定了 HTTP1.1, fastcgi不會主動斷開連接, 因此nginx這邊會出現(xiàn)大量 TIME_WAIT, 需謹慎(未驗證)

由于php-fpm設置了最大進程數(shù)為100, 因此此處的 keepalive 數(shù)量指定 100 (未測試)

此處題外話, 如果 nginx 是作為反向代理, 則需增加如下配置:

# 將http版本由1.0修改為1.1
proxy_http_version 1.1;
# 清除"Connection"頭部
proxy_set_header Connection "";

配置 proxy_pass 將請求轉(zhuǎn)發(fā)給后端

這里, 理解一下 proxy_pass 與 fastcgi_pass 區(qū)別

客戶端 --http-->  前端負載均衡Nginx --proxy_pass--> 業(yè)務服務器Nginx --fastcgi_pass--> 業(yè)務服務器 php-fpm

再次確認 tcp 連接情況

netstat -antp  | grep :9000 | awk "{print $(NF-1)}" | sort | uniq -c
#      6 ESTABLISHED
#      1 LISTEN

ok, 問題解決.

另一種解決方法:

若 nginx 與 fast-cgi 在同一臺服務器上, 則使用 unix域會更為高效, 同時避免了 TIME_WAIT 的問題.

題外

經(jīng)過上面優(yōu)化后, TIME_WAIT數(shù)量從上千個大幅下降到幾十個, 此時發(fā)現(xiàn)TIME_WAIT中的存在大量的 127.0.0.1:6379, 6379是redis服務的默認端口....

趕緊改業(yè)務代碼去, 將 $redis->connect(...) 改成 $redis->pconnect(...)

說明:

pconnect 表示 php-fpm 與 redis 建立 tcp 連接后, 在本次http請求結(jié)束后仍維持該連接, 下次新的請求進來時可以復用該連接, 從而復用了tcp連接.

云服務器 GPU云服務器大量數(shù)據(jù)存儲的解決方案遠程連接排查你的連接不是私密連接怎么解決阿里云服務器出現(xiàn)問題怎么解決

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/40525.html

服務器TIME_WAIT和CLOSE_WAIT分析和解決辦法

摘要：服務器出現(xiàn)異常最長出現(xiàn)的狀況是服務器保持了大量的狀態(tài)。此時主動關閉一方必須保持一個有效的狀態(tài)下維持狀態(tài)信息，以便可以重發(fā)。這就意味著，一個成功建立的連接，必須使得之前網(wǎng)絡中殘余的數(shù)據(jù)報都丟失了。，維持這些狀態(tài)給服務器端帶來巨大的負擔。 showImg(https://segmentfault.com/img/bV9DQk?w=732&h=563); showImg(https://se...

LeanCloud 2019-07-25 14:15 評論0 收藏0
服務器TIME_WAIT和CLOSE_WAIT分析和解決辦法

摘要：服務器出現(xiàn)異常最長出現(xiàn)的狀況是服務器保持了大量的狀態(tài)。此時主動關閉一方必須保持一個有效的狀態(tài)下維持狀態(tài)信息，以便可以重發(fā)。這就意味著，一個成功建立的連接，必須使得之前網(wǎng)絡中殘余的數(shù)據(jù)報都丟失了。，維持這些狀態(tài)給服務器端帶來巨大的負擔。 showImg(https://segmentfault.com/img/bV9DQk?w=732&h=563); showImg(https://se...

helloworldcoding 2019-07-24 10:45 評論0 收藏0
centos系統(tǒng)大量time wait占用的解決

摘要：發(fā)現(xiàn)存在大量狀態(tài)的連接通過調(diào)整內(nèi)核參數(shù)解決編輯文件，加入以下內(nèi)容然后執(zhí)行讓參數(shù)生效。當出現(xiàn)等待隊列溢出時，啟用來處理，可防范少量攻擊，默認為，表示關閉表示開啟重用。統(tǒng)計在一臺前端機上高峰時間TCP連接的情況，統(tǒng)計命令：netstat -n | awk /^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]} 除了ESTABLISHED，可以看...

betacat 2019-07-01 11:22 評論0 收藏0