摘要:監控告警是運營系統最核心的功能之一,騰訊內部有一套很成熟的監控告警平臺,而且開發運維同學已經習慣這套平臺,如果我們針對容器再開發一個監控告警平臺,會花費很多精力,而且沒有太大的意義。也是一款付費監控解決方案,計劃收費方案是美分小時。
如今,越來越多的公司開始使用 Docker 了,現在來給大家看幾組數據:
2 / 3 的公司在嘗試了 Docker 后最終使用了它
也就是說 Docker 的轉化率達到了 67%,而轉化市場也控制在 60 天內。
越大型的公司越早開始使用 Docker
研究發現主機數量越多的公司,越早開始使用 Docker。而主機數量多,在這個研究里就默認等同于是大型公司了。
Docker 優勢那為什么 Docker 越來越火呢?一談起 Docker 總是會跟著讓人聯想到輕量這個詞,甚至會有一種通過 Docker 啟動一個服務會節省很多資源的錯覺。然而 Docker 的「輕」也只是相對于傳統虛擬機而已。
傳統虛擬機和 Docker 的對比如圖:
從圖中可以看出 Docker 和 虛擬機的差異,虛擬機的 Guest OS 和 Hypervisor 層在 Docker 中被 Docker Engine 層所替代,Docker 有著比虛擬機更少的抽象層。
由于 Docker 不需要通過 Hypervisor 層實現硬件資源虛擬化,運行在 Docker 容器上的程序直接使用實際物理機的硬件資源。因此在 CPU、內存利用率上 Docker 略勝一籌。
Docker利用的是宿主機的內核,而不需要 Guest OS,因此,當新建一個容器時,Docker 不需要和虛擬機一樣重新加載一個操作系統內核,因此新建一個 Docker 容器只需要幾秒鐘。
總結一下 Docker 容器相對于 VM 有以下幾個優勢:啟動速度快、資源利用率高、性能開銷小。
Docker 監控方案那么,Docker 如何監控呢?可能具體問題要具體分析。但是似乎大家都在使用開源的監控方案,來解決 Docker監控的問題。
就拿騰訊游戲來說吧,我們看看尹燁(騰訊互娛運營部高級工程師, 干貨 | 騰訊游戲是如何使用 Docker 的? )怎么說:
容器的監控問題也花了我們很多精力。監控、告警是運營系統最核心的功能之一,騰訊內部有一套很成熟的監控告警平臺,而且開發運維同學已經習慣這套平臺,如果我們針對 Docker 容器再開發一個監控告警平臺,會花費很多精力,而且沒有太大的意義。所以,我們盡量去兼容公司現有的監控告警平臺。每個容器內部會運行一個代理,從 /proc 下面獲取 CPU、內存、IO 的信息,然后上報公司的監控告警平臺。但是,默認情況下,容器內部的 proc 顯示的是 Host 信息,我們需要用 Host 上 cgroup 中的統計信息來覆蓋容器內部的部分 proc 信息。我們基于開源的 lxcfs,做了一些改造實現了這個需求。
這些解決方案都是基于開源系統來實現的,當然,我們也會把我們自己覺得有意義的修改回饋給社區,我們給 Docker、Kubernetes 和 lxcfs 等開源項目貢獻了一些 patch。融入社區,與社區共同發展,這是一件很有意義的事情。
在沒有專業運維團隊來監控 Docker 的情況下,并且還想加快 Docker 監控的日程,怎么辦呢?
為了能夠更精確的分配每個容器能使用的資源,我們想要實時獲取容器運行時使用資源的情況,怎樣對 Docker 上的應用進行監控呢?Docker 的結構會不會加大監控難度?
我們都了解, container 相當于小型 host,可以說存在于 hosts 與應用之間的監控盲區,無論是傳統的基礎組件監控還是應用性能監控的方式,都很難有效地監控 Docker。了解了一下現有的 Docker 相關監測 App 和服務,包括簡單的開源工具和復雜的企業整體解決方案,下面列舉其中的幾種作為參考:
1. cAdvisor谷歌的 container introspection 解決方案是 cAdvisor,這是一個 Docker 容器內封裝的實用工具,能夠搜集、集料、處理和導出運行中的容器的信息。通過它可以看到 CPU 的使用率、內存使用率、網絡吞吐量以及磁盤空間利用率。然后,你可以通過點擊在網頁頂部的 Docker Containers 鏈接,然后選擇某個容器來詳細了解它的使用情況。cAdvisor 部署和使用簡單,但它只可以監視在同一個 host 上運行的容器,對多節點部署不是太管用。
2. Cloud Insight在我們列舉的幾個監控 Docker 的服務或平臺中,這是唯一一款國內產品。Cloud Insight 支持多種操作系統、云主機、數據庫和中間件的監控,原理是在平臺服務儀表盤和自定義儀表盤中,采集并處理 Metric,對數據進行聚合與分組等計算,提供曲線圖、柱狀圖等多樣化的展現形式。優點是監控的指標很全,簡單易用,但目前正式版還未上線,可以期待一下。
3. ScoutScout 是一款監視服務,并不是一個獨立的開源項目。它有大量的插件,除了 Docker 信息還可以吸收其他有關部署的數據。因此 Scout 算是一站式監控系統,無需對系統的各種資源來安裝各種不同的監控系統。 Scout 的一個缺點是,它不顯示有關每個主機上多帶帶容器的詳細信息。此外,每個監控的主機十美元這樣略微昂貴的價格也是是否選擇 Scout 作為監控服務的一個考慮因素,如果運行一個有多臺主機的超大部署,成本會比較高。
4. SematextSematext 也是一款付費監控解決方案,計劃收費方案是3.5美分/小時。同樣也支持 Docker 監控,還包括對容器級事件的監測(停止、開始等等)和管理容器產生的日志。
Docker 監控實踐 Prometheus我們先來說說一套開源的 Docker 監控方案:Prometheus;而此篇文字的原文地址:Monitor Docker Containers with Prometheus。
Prometheus 由 SoundCloud 發明,適合于監控基于容器的基礎架構。Prometheus 特點是高維度數據模型,時間序列是通過一個度量值名字和一套鍵值對識別。靈活的查詢語言允許查詢和繪制數據。它采用了先進的度量標準類型像匯總(summaries),從指定時間跨度的總數構建比率或者是在任何異常的時候報警并且沒有任何依賴,中斷期間使它成為一個可靠的系統進行調試。
Prometheus 支持維度數據,你可以擁有全局和簡單的指標名像 container_memory_usage_bytes ,使用多個維度來標識你服務的指定實例。
我已經創建了一個簡單的 container-exporter 來收集 Docker 容器的指標以及輸出給 Prometheus 來消費。這個輸出器使用容器的名字,id 和 鏡像作為維度。額外的 per-exporter 維度可以在 prometheus.conf 中設置。
如果你使用指標名字直接作為一個查詢表達式,它將返回有這個使用這個指標名字作為標簽的所有時間序列。
container_memory_usage_bytes{env="prod",id="23f731ee29ae12fef1ef6726e2fce60e5e37342ee9e35cb47e3c7a24422f9e88",instance="http://1.2.3.4:9088/metrics",job="container-exporter",name="haproxy-exporter-int",image="prom/haproxy-exporter:latest"} 11468800.000000 container_memory_usage_bytes{env="prod",id="57690ddfd3bb954d59b2d9dcd7379b308fbe999bce057951aa3d45211c0b5f8c",instance="http://1.2.3.5:9088/metrics",job="container-exporter",name="haproxy-exporter",image="prom/haproxy-exporter:latest"} 16809984.000000 container_memory_usage_bytes{env="prod",id="907ac267ebb3299af08a276e4ea6fd7bf3cb26632889d9394900adc832a302b4",instance="http://1.2.3.2:9088/metrics",job="container-exporter",name="node-exporter",image="prom/container-exporter:latest"} ... ...
如果你運行了許多容器,這個看起來像這樣:
為了幫助你使得這數據更有意義,你可以過濾(filter) and/or 聚合(aggregate) 這些指標。
使用 Prometheus 的查詢語言,你可以對你想的任何維度的數據切片和切塊。如果你對一個給定名字的所有容器感興趣,你可以使用一個表達式像 container_memory_usage_bytes{name="consul-server"},這個將僅僅顯示 name == "consul-server" 的時間序列。
像多維度的數據模型,來實現數據聚合、分組、過濾,不單單是 Prometheus。OpenTSDB 和 InfluxDB 這些時間序列數據庫和系統監控工具的結合,讓系統監控這件事情變得更加的多元。
接下來,我們為大家介紹國內一家同樣提供該功能的監控方案:Cloud Insight。有關其數據聚合的功能可以閱讀:數據聚合 & 分組:新一代系統監控的核心功能。
現在我們來對比 Prometheus 和 Cloud Insight 在數據聚合、分組(切片)上的展現效果和功能。
數據聚合
根據不同的 Container Name 或 Image Name 對內存使用量或 Memeory Cache 進行聚合。
數據分組(切片)
根據不同的 Container Name 或 Image Name 對內存使用量或 Memeory Cache進行分組(切片)。
Docker 監控實戰單方面監控 Docker 可能并不太適合與業務掛鉤的應用,當業務量上漲,不單單是 Docker 的負載上升,其他 JVM 指標也能也會出現上升的趨勢。
我們嘗試使用一個支持比較多中間件、數據庫、操作系統、容器的 Cloud Insight 來說明這個實際的場景。
Cloud InsightCloud Insight 由于是一個 SaaS 監控方案,相對來說它的安裝和部署都比較簡單。在這次監控實戰中,我們以 AcmeAir 為實驗對象:一個可以模擬壓力的電子商務類應用。ac
AcmeAir 是一款由原 IBM 新技術架構部資深工程師 Andrew Spyker,利用 Netflix 開源的 Netflix OSS 打造的開源電子商務應用。此應用具有如下特性:
模擬提供航班訂票服務。用戶可以通過移動設備或者 web 瀏覽器,完成新用戶注冊,用戶登錄,航班查詢,訂票等操作。
AcmeAir 融入了 Docker,微服務架構等理念。并采用 tomcat,node.js , WebSphere application server, WebSphere extreme scale, mongodb, cassandra 分別打造了不同版本的實現。
AcmeAir 利用 JMeter 模擬用戶行為。可通過動態調整用戶數量,模擬產生各種壓力的事物流量。并可在應用中預先植入錯誤代碼,模擬各種故障場景。該應用可做為壓力測試,終端用戶體驗異常檢測,故障診斷等各種測試場景的測試用例。
首先,我們要打開 Cloud Insight 監控,還好 Cloud Insight 安裝簡單,一條命令即可。接著,我們新建一個用于此次監控的儀表盤,依次將想要獲取的指標統統添加進去。比如,選中 jvm.non_heap_memory 這個指標,選擇按照 instance 分組。
我們添加以下指標:
docker.cpu.user docker.cpu.sysytem docker.containers.running jvm.heap_memory jvm.non_heap_memory jvm.gc.cms.count jvm.heap_memory_max jvm.gc.parnew.time
添加后,由自定義儀表盤中的顯示效果如圖:
應用 Acme 部署在四臺 servers 上,我們開啟四臺 servers, 然后用 JMeter 給應用加壓。
隨著時間 JMeter 不斷給應用加壓,當 users 人數達到 188 時,我們再來看一下儀表盤的視圖。
如圖,性能數據發生了變化,根據 JMeter 里的數據,CPU 占用和錯誤率都有所提升;與此同時,根據 Cloud Insight 里的曲線顯示,在指標 docker.cpu.user 這幅圖中,藍色的線所代表的 Container CPU 占用率已經超過 50%,逐漸接近 75%,系統剩余的 CPU 資源逐漸下降。
而指標 docker.cpu.system 圖中同樣可以看到藍色的那條數據在 18:29 左右出現了一個波峰,代表系統 CPU 資源消耗突然增大。通過這兩幅圖,我們可以定位到 CPU 占用率過高的 Container ,及時而主動地去了解性能瓶頸,從而優化性能,合理分配資源。
再看 jvm.heap_memory 指標,圖中幾條曲線在 18:20 之后逐漸升高,黃色曲線在 18:28 左右出現波峰,淺藍色曲線數值較高,用 jvm.heap_memory 的值去比左圖 jvm.heap_memory_max 的值,將能更清楚的反映 JVM 堆內存的消耗情況。
而 jvm.gc.parnew.time 圖中顯示了新生代并行 GC 的時間數據。GC 是需要時間和資源的,不好的 GC 會嚴重影響系統的系能,良好的 GC 是 JVM 高性能的保證。
無法被監控的軟件是很危險的,通過解讀這張 Docker 儀表盤總覽圖,我們可以了解到 Docker 實時性能狀況,精準定位到性能薄弱的環節,從而優化我們的應用。
總結Docker 兼容相比其他的數據庫、系統、中間件監控,要復雜一些。由于需要表征不同 Container 的性能消耗,來了解不同應用的運行情況,所以數據的聚合、切片(分組)和過濾,在 Docker 監控中成為了必備功能。
所以我們推薦使用了時間序列數據庫,或者類似設計邏輯的監控方案,如:Prometheus 和 Cloud Insight。
而 Docker 單方面的監控,可能不太滿足一些大型公司的需求,如果一個工具在監控 Docker 同時能夠監控其他組件,那就更好了。
國外出現了 Graphite、Grafana 和 Host Graphite,能夠讓用戶將不同數據來源都集中在同一個地方進行展現;而國內 Cloud Insight 似乎也是這樣的思路。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/26502.html
摘要:概述之前講過容器的可視化監控,即監控容器的運行情況,包括使用率內存占用網絡狀況以及磁盤空間等等一系列信息。實戰一下中添加依賴啟動應用程序之后,只要在瀏覽器中輸入端點信息就能獲得應用的一些狀態信息。 showImg(https://segmentfault.com/img/remote/1460000014684947); 概述 之前講過Docker容器的可視化監控,即監控容器的運行情...
摘要:由于公司沒有運維又需要監控服務器的一些數據信息想盡快的啟動一個數值監控系統技術評估了下打算的方式來建設是一個時間數列數據庫并且自帶一些簡單圖形展示功能雖然展示方面不是很完美但是在收集時間數據上非常的方便和簡單根據官網的例子只需要一個連接就能 由于公司沒有運維, 又需要監控服務器的一些數據信息, 想盡快的啟動一個數值監控系統. 技術評估了下打算 graphite + grafana 的...
摘要:本篇文章將會結合網易云信的實踐經驗,以全局概述的方式帶大家認識點播私有化平臺構建的整體架構面貌。基于構建點播私有云平臺在具有以上優勢的同時,還具備資源彈性管理監控完善部署簡易自動化維護等特性。基于構建平臺,能夠自由管理創建云主機。 私有云是為一個客戶單獨使用而構建的,因而提供對數據、安全性和服務質量的最有效控制。前置條件是客戶擁有基礎設施,并可以使用基礎設施在其上部署應用程序。其核心屬...
摘要:本篇文章將會結合網易云信的實踐經驗,以全局概述的方式帶大家認識點播私有化平臺構建的整體架構面貌。基于構建點播私有云平臺在具有以上優勢的同時,還具備資源彈性管理監控完善部署簡易自動化維護等特性。基于構建平臺,能夠自由管理創建云主機。 私有云是為一個客戶單獨使用而構建的,因而提供對數據、安全性和服務質量的最有效控制。前置條件是客戶擁有基礎設施,并可以使用基礎設施在其上部署應用程序。其核心屬...
閱讀 2161·2021-10-08 10:15
閱讀 1191·2019-08-30 15:52
閱讀 519·2019-08-30 12:54
閱讀 1536·2019-08-29 15:10
閱讀 2690·2019-08-29 12:44
閱讀 3011·2019-08-29 12:28
閱讀 3356·2019-08-27 10:57
閱讀 2220·2019-08-26 12:24