從一起丟包故障來談談 nginx 中的 tcp keep-alive

Shihira 發布于2019-07-25 14:38 / 2460人閱讀

摘要：猜測原因是一端異常關閉了連接卻沒有通知對端，或者通知了對端但對端沒有收到。序號請求設置了超時時間為，因此發送包。之后繼續測試，沒有發現丟包。序號空閑分鐘后，主動發起報文，關閉連接。

一、故障

基本架構如圖所示，客戶端發起 http 請求給 nginx，nginx 轉發請求給網關，網關再轉發請求到后端微服務。

故障現象是，每隔十幾分鐘或者幾個小時不等，客戶端就會得到一個或者連續多個請求超時錯誤。查看 nginx 日志，對應請求返回 499；查看網關日志，沒有收到對應的請求。

從日志分析，問題應該處在 nginx 或者 spring-cloud-gateway 上。

nginx 版本：1.14.2，spring-cloud 版本：Greenwich.RC2。

nginx 主要配置如下：

[root@wh-hlwzxtest1 conf]# cat nginx.conf

worker_processes  8;

events {
    use epoll;
    worker_connections  10240;
}

http {
    include       mime.types;
    default_type  application/octet-stream;

    sendfile       on;
    tcp_nopush     on;
    tcp_nodelay    on;

    keepalive_timeout  65;
    #gzip  on;

    upstream dbg2 {
        server 10.201.0.27:8888;
        keepalive 100;
    }

   server {
        listen       80;
        server_name  localhost;

        charset utf-8;

        location /dbg2/ {
            proxy_pass         http://dbg2/;
            proxy_http_version  1.1;
            proxy_set_header    Connection "";
         }
    }
}

為了提高性能，nginx 發送給網關的請求為 http 1.1，可以復用 tcp 連接。

二、排查 1、查看 tcp 連接

[root@10.197.0.38 logs]# ss -n | grep 10.201.0.27:8888
tcp    ESTAB      0      0      10.197.0.38:36674              10.201.0.27:8888
tcp    ESTAB      0      0      10.197.0.38:40106              10.201.0.27:8888

[root@10.201.0.27 opt]# ss -n | grep 10.197.0.38
tcp    ESTAB      0      0        ::ffff:10.201.0.27:8888                 ::ffff:10.197.0.38:40106
tcp    ESTAB      0      0        ::ffff:10.201.0.27:8888                 ::ffff:10.197.0.38:39266

可以看到 nginx 和網關之間建立的 socket 連接為（10.201.0.27:8888，10.197.0.38:40106），另外的 2 條記錄就很可疑了。猜測原因是：一端異常關閉了 tcp 連接卻沒有通知對端，或者通知了對端但對端沒有收到。

2、抓包分析

先看下 nginx 的抓包數據：

序號 8403：轉發 http 請求給網關；

序號 8404：在 RTT 時間內沒有收到 ack 包，重發報文；

序號 8505：RTT 約等于 0.2s，tcp 重傳；

序號 8506：0.4s 沒收到 ack 包，tcp 重傳；

序號 8507：0.8s 沒收到 ack 包，tcp 重傳；

序號 8509：1.6s 沒收到 ack 包，tcp 重傳；

...

序號8439：28.1s（128RTT）沒收到 ack 包，tcp 重傳。

序號 8408：請求設置了超時時間為 3s，因此發送 FIN 包。

再看下網關的抓包數據：

序號 1372：17:24:31 收到了 nginx 發過來的 ack 確認包，對應 nginx 抓包圖中的序號 1348（nginx 那臺服務器時間快了差不多 1 分 30 秒）;

序號 4221：2 小時后，發送 tcp keep-alive 心跳報文，（從 nginx 抓包圖中也可以看出這 2 小時之內該 tcp 連接空閑）；

序號 4253：75s 后再次發送 tcp keep-alive 心跳；

序號 4275：75s 后再次發送心跳；

連續 9 次；

序號 4489：發送 RST 包，通過對端重置連接。

2 小時，75s， 9 次，系統默認設置。

[root@eureka2 opt]# cat /proc/sys/net/ipv4/tcp_keepalive_time
7200
[root@eureka2 opt]# cat /proc/sys/net/ipv4/tcp_keepalive_intvl
75
[root@eureka2 opt]# cat /proc/sys/net/ipv4/tcp_keepalive_probes
9

具體這幾個參數的作用，參考文章：為什么基于TCP的應用需要心跳包

3、分析

通過以上抓包分析，基本確認了問題出在 nginx 上。19:25 時，網關發送 tcp keep-alive 心跳包給 nginx 那臺服務器，此時那臺服務器上保留著該 tcp 連接，卻沒有回應；22:20 時，nginx 發送 http 請求給網關，而網關已經關閉該 tcp 連接，因此沒有應答。

三、解決 1、proxy_send_timeout

nginx 中與 upstream 相關的超時配置主要有如下參數，參考：Nginx的超時timeout配置詳解

proxy_connect_timeout：nginx 與 upstream server 的連接超時時間；

proxy_read_timeout：nginx 接收 upstream server 數據超時, 默認 60s, 如果連續的 60s 內沒有收到 1 個字節, 連接關閉；

proxy_send_timeout：nginx 發送數據至 upstream server 超時, 默認 60s, 如果連續的 60s 內沒有發送 1 個字節, 連接關閉。

這幾個參數，都是針對 http 協議層面的。比如 proxy_send_timeout = 60s，并不是指如果 60s 沒有發送 http 請求，就關閉連接；而是指發送 http 請求后，在兩次 write 操作期間，如果超過 60s，就關閉連接。所以這幾個參數，顯然不是我們需要的。

2、upstream 模塊的 keepalive_timeout 參數

查看官網文檔，Module ngx_http_upstream_module，

Syntax:    keepalive_timeout timeout;
Default:    
keepalive_timeout 60s;
Context:    upstream
This directive appeared in version 1.15.3.

Sets a timeout during which an idle keepalive connection to an upstream server will stay open.

設置 tcp 連接空閑時間超過 60s 后關閉，這正是我們需要的。

為了使用該參數，升級 nginx 版本到 1.15.8，配置文件如下：

http {
    upstream dbg2 {
        server 10.201.0.27:8888;
        keepalive 100;
        keepalive_requests 30000;
        keepalive_timeout 300s;
    }
    ...
}

設置 tcp 連接上跑了 30000 個 http 請求或者空閑 300s，那么就關閉連接。

之后繼續測試，沒有發現丟包。

序號 938：空閑 5 分鐘后，nginx 主動發起 FIN 報文，關閉連接。

云服務器 GPU云服務器來談談丟包tcp nginx故障轉移談談

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/40322.html

Nginx 配置學習筆記

摘要：上面的代碼中定義了一個名為的負載均衡器，里面有三個后端服務，他們是按的方式進行輪詢的。在模塊中，可以設置后端服務器的信息，同時還可以設定每個后端服務器在負載均衡調度中的狀態。常用的狀態有表示當前的暫時不參與負載均衡。最近在學習如何對 Nginx 進行配置，故而對 Nginx 的配置文件的結構功能有了一些新的認識。剛開始接觸 Nginx 時，感覺它的配置十分高深、難以理解，需要配置什么...

wuyumin 2019-07-25 14:03 評論0 收藏0

發表評論

登陸后可評論

0條評論

Shihira

男|高級講師

我要關注我要私信

TA的文章

tensorflow圖片分類

閱讀 928·2023-04-26 01:34
tensorflow更新

閱讀 3362·2023-04-25 20:58
racknerd開啟rdns也就是PTR 反向解析的教程

閱讀 3286·2021-11-08 13:22
css 水平垂直居中實現方式

閱讀 2117·2019-08-30 14:17
HTML 1-樣式引入、路徑、尺寸單位

閱讀 2526·2019-08-29 15:27
重拾css(7)——選擇器的優先級

閱讀 2678·2019-08-29 12:45
安卓開源項目周報0419

閱讀 3002·2019-08-29 12:26
談談white-space和word-wrap

閱讀 2816·2019-08-28 17:51

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

從一起丟包故障來談談 nginx 中的 tcp keep-alive

相關文章

Nginx 配置學習筆記

發表評論

0條評論

Shihira

男|高級講師

TA的文章

tensorflow圖片分類

tensorflow更新

racknerd開啟rdns也就是PTR 反向解析的教程

css 水平垂直居中實現方式

HTML 1-樣式引入、路徑、尺寸單位

重拾css(7)——選擇器的優先級

安卓開源項目周報0419

談談white-space和word-wrap

最新活動