摘要:工欲善其事,必先利其器,我們拿什么工具來壓測呢我們做了很多前期調研和論證,最終決定基于開發有贊自己的分布式全鏈路壓測引擎。
一年以前,有贊準備在雙十一到來之前對系統進行一次性能摸底,以便提前發現并解決系統潛在性能問題,好讓系統在雙十一期間可以從容應對劇增的流量。工欲善其事,必先利其器,我們拿什么工具來壓測呢?我們做了很多前期調研和論證,最終決定基于 Gatling 開發有贊自己的分布式全鏈路壓測引擎 —— MAXIM。一年多來,我們使用 Maxim 對系統做了很多次的性能壓測,在提升系統性能、穩定性的同時,也得益于歷次壓測的實踐經驗逐步改進 Maxim。
由于時間或成本關系,我們打算基于開源軟件做二次開發,而以下就是我們技術選型時的核心考量:
將請求編排成業務場景
以用戶下單這個場景為例,用戶完成一筆訂單,可能需要打開商品主頁-加入購物車-選擇收貨地址-下單支付這些步驟,而串起這一系列的請求就是所謂的將請求編排成業務場景
流量控制
流量控制可以是縱向的,如上述下單場景中,各個步驟的請求量逐漸減少,整體呈現一個漏斗模型;也可以是橫向的,比如用戶正在瀏覽 A 商品的商品詳情頁,然后看到了 B 商品的推薦,轉而瀏覽 B 商品的商品詳情頁
壓力控制
指壓測時并發用戶數、吞吐量(RPS / TPS)的控制
數據跟請求參數的綁定
壓測往往涉及大量的測試數據,而如何綁定數據和請求參數是我們需要考量的
對分布式測試的支持
因為是全鏈路壓測,自然需要多臺施壓機共同協作施壓,自然而然的需要分布式支持
測試報告
良好的測試報告是我們分析性能問題的必備條件
二次開發的成本
由于時間或人力關系,我們也需要考慮二次開發成本
1.2、4 個主流開源性能測試框架對比我們調研了以下 4 個主流開源性能測試框架:
ApacheBench
Apache 服務器自帶,簡單易用,但不支持場景編排、不支持分布式,二次開發難度較大
JMeter
JMeter 支持上述很多特性,如分布式、良好的壓測報告等,但其基于 GUI 的使用方式,使得當我們的壓測場景非常復雜并包含很多請求時,使用上不夠靈活;此外在流量控制方面的支持也一般
nGrinder
基于 Grinder 二次開發的開源項目,支持分布式,測試報告良好,但和 JMeter 一樣,在場景編排和流量控制方面支持一般
Gatling
支持場景編排、流量控制、壓力控制,測試報告良好,且提供了強大的 DSL(領域特定語言)方便編寫壓測腳本,但不支持分布式,且使用 Scala 開發,有一定開發成本
以上,我們最終選擇基于 Gatling 做二次開發。
2、Maxim 新增的特性Maxim 在 Gatling 基礎上開發了很多新特性:
支持分布式
一個控制中心(Control Center,負責調度) + 多個壓力注入器(指施壓機)
提供 GUI,并對用戶隱藏壓測過程的復雜性
高效地創建、運行(手動/定期)測試任務
管理測試資源
測試資源包括壓測腳本、數據集(為壓測請求提供測試數據,由數據塊構成的一個集合,數據塊是大量測試數據的最小分割單元)、壓力注入器
支持壓測腳本參數化
Maxim 中并發用戶數、RPS、持續時間等都可以通過 GUI 動態注入壓測腳本
支持壓力注入器系統狀態監控
實時監控壓力注入器的 CPU、內存、I/O 等指標
自動生成壓測報告,保留歷史壓測報告
采集多個壓力注入器的壓測日志,自動匯總生成壓測報告,并保留歷史壓測報告
3、Maxim 的技術架構 3.1、Maxim 的總體架構Maxim 架構的主要構成:
Maxim Console
Maxim Console 主要銜接 GUI 和 Maxim Control Center,負責創建、運行測試任務,接收壓力控制參數等
Maxim Control Center
Maxim 的控制中心,這里主要負責壓測任務的調度、讀取數據集、上傳腳本和數據以及讀取日志并生成壓測報告
Load Injector Cluster
壓力注入器集群,主要分為 Agent 和 Gatling 兩部分,Agent 負責接收 Maxim 控制中心的調度指令以及向控制中心反饋本壓力注入器壓測情況,而 Gatling 則是真正發起壓測請求的地方,并將壓測日志寫入 InfluxDB
Data Factory
壓測數據首先會在大數據平臺通過 MapReduce 任務生成,而數據工廠負責為控制中心讀取這些數據并返回數據集
Cloud Storage
云存儲,Maxim 控制中心會將壓測腳本和壓測數據上傳到云存儲,當 Agent 收到控制中心的任務執行指令時,會從云存儲下載壓測腳本和對應的數據塊。設計云存儲的目的主要是為了模擬真實用戶環境在公網發起壓測請求,但有贊目前都是從內網發起壓測請求,所以云存儲的功能也可以以其他方式實現,比如 Agent 直接從大數據平臺下載數據集
InfluxDB
所有壓力注入器產生的日志都會統一寫入 InfluxDB,方便生成壓測報告
Maxim的調度算法3.2、Maxim 的領域抽象
控制中心會根據當前測試任務使用的壓力注入器數量,將數據集中的數據塊平均分配給每個壓力注入器,讓每個壓力注入器只下載對應的那些數據塊。此外,并發用戶數、RPS 也會被平均切分給每個壓力注入器。這樣,每個壓力注入器的負載基本是一致的。
TestJob - JobExecution - JobSliceExecution
當壓測任務開始執行,首先會在控制中心生成 JobExecution,監控本次壓測任務的整體執行狀態。控制中心又會根據上述調度算法為每個壓力注入器生成任務分片 JobSliceExecution 并下發到各個壓力注入器,其中包含了腳本、數據集等信息
TestScript
壓測腳本
DataSet和DataChunk
數據集和組成數據集的數據塊單元,目前單次壓測任務已支持多數據集,為多個場景提供不同的壓測數據,即混合場景壓測
LoadProfile
從 GUI 接收動態參數,主要包括壓力注入器數量、并發用戶數、RPS、持續時間等
ExecPlan
執行計劃,包括按需執行和周期執行兩種執行方式
ExecutionStatus
關于狀態機下一節會詳細介紹
3.3、Maxim的狀態機Maxim 狀態機是 Maxim 分布式的核心,控制中心和各個 Agent 的行為都受狀態機變化的影響。
創建任務并開始執行以后,各個任務分片(JobSliceExecution)首先會進入 preparing 狀態,各個 Agent 會從云存儲下載壓測腳本和各自對應的那些數據塊,下載完成后再將這些數據塊合并成一個 Json 數據文件作為壓測腳本的數據輸入。如果下載失敗則會重試,即 Prepare。如果所有 Agent 都成功下載了腳本和數據,則各個 JobSliceExecution 會相繼進入 prepared 狀態,等所有 JobSliceExecution 進入 prepared 狀態后,JobExecution 也會進入 prepared 狀態,并向各個 Agent 發起執行指令,各個 JobSliceExecution 進入 running 狀態,等所有 Agent 執行完成且各個 JobSliceExecution 變成 completed 狀態之后,JobExecution 也會進入 completed 狀態,此時壓測任務執行完成并生成壓測報告。如果各個任務分片在 preparing、prepared 或 running 過程中有任何一個出錯,則出錯的分片會進入 failed 狀態并通知控制中心,控制中心則控制其他分片中止正在執行的任務并進入 Stopping 狀態,等這些分片中止成功并都變成 stopped 狀態后,JobExecution 會被置成 failed 狀態。當然了,也可以手動停止壓測任務,這時候 JobSliceExecution 和 JobExecution 都會被置成 stopping->stopped 狀態。
3.4、Maxim 控制中心的技術架構Maxim 控制中心采用六邊形架構(也叫端口與適配器模式),核心服務只處理核心業務邏輯(如調度算法),其他功能如與 Agent 通信、腳本存儲、數據存儲、壓測報告等都是通過適配層調用特定實現的 API 實現。具體技術的話,與 Agent 通信使用 grpc 實現,其他功能則是通過 SPI 技術實現,我們把這一層叫做接縫層(Seam)。這樣設計最大層度的解耦了核心業務邏輯和其他功能的特定實現,我們在保持接縫層 API 不變的情況下,可以自由選擇技術方案實現相應的功能。比如數據服務這塊強依賴了有贊的大數據平臺,假設我們開源了 Maxim,外部團隊就可以選擇他們自己的技術方案實現數據服務,或者為了測試目的 Mock 掉。
4、改造 Gatling原生 Gatling 是將壓測日志寫入本地日志文件的,而在分布式中,如果每個壓力注入器都把日志寫在本地,則為了基于所有日志分析生成壓測報告,我們需要首先收集分散在各個壓力注入器中的日志文件,這樣顯然是低效的。所以我們改造了 Gatling ,將所有日志都寫到同一個 InfluxDB 數據庫。需要生成壓測報告時,控制中心從 InfluxDB 數據庫讀入本次壓測任務的所有壓測日志并保存為一個日志文件,再交由 Gatling 的日志處理模塊來生成壓測報告。
5、擴展 Gatling原生 Gatling 不支持 Dubbo 壓測,所以我們擴展 Gatling,實現并開源了 gatling-dubbo壓測插件,具體實現方法詳見 Dubbo壓測插件的實現——基于Gatling
6、Maxim 的未來展望Maxim 目前還是個單打獨斗的產品,未來我們希望與大數據平臺、運維平臺等系統打通,讓 Maxim 逐漸進化為一個一站式的壓測平臺,并引入更多新特性,如壓測過程和壓測報告的實時計算和展示等等。
我的系列博客
混沌工程 - 軟件系統高可用、彈性化的必由之路
異步系統的兩種測試方法
Dubbo壓測插件的實現——基于Gatling
我的其他測試相關開源項目
捉蟲記:方便產品、開發、測試三方協同自測的管理工具
gatling-dubbo:擴展自Gatling的Dubbo性能測試插件
招聘
有贊測試組在持續招人中,大量崗位空缺,只要你來,就能幫你點亮全棧開發技能樹,有意向換工作的同學可以發簡歷到 sunjun【@】youzan.com
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/11450.html
摘要:與大數據體系交互上報運行統計數據自帶了運行結果的統計數據,我們希望把這些統計數據上報到元數據系統,作為的過程元數據存儲下來。基于我們的開發策略,不要把有贊元數據系統的嵌入源碼,而是在之外獲取,截取出打印的統計信息再上報。一、需求 有贊大數據技術應用的早期,我們使用 Sqoop 作為數據同步工具,滿足了 MySQL 與 Hive 之間數據同步的日常開發需求。 隨著公司業務發展,數據同步的場景越...
摘要:一條消息除了基本的元數據之外,其余內容為消息體。消息的元數據主要包括了消息在服務端產生時的時間戳,服務端對于該消息的下發次數,消息。作為的消費者,從消費消息后通過進行處理。 在系列文章前面幾篇中,介紹了 NSQ 改造的過程和幾個基礎特性,本文中我們繼續介紹幾個高級特性及其使用場景,這些都是結合有贊業務場景總結提煉出來的重要功能。 NSQ 拓展消息格式的設計 有贊中間件在 NSQ 中引入...
摘要:為了控制壓測時的,則需要實現邏輯。則是獲取屬性并初始化客戶端客戶端配置則提供了設置泛化調用入參的以及接下來要介紹的部分的全鏈路壓測中,我們都使用校驗請求結果,壓測插件中,我們也實現了基于的校驗。 Dubbo 壓測插件已開源,本文涉及代碼詳見gatling-dubbo Gatling 是一個開源的基于 Scala、Akka、Netty 實現的高性能壓測框架,較之其他基于線程實現的壓測框架...
閱讀 1635·2021-10-27 14:13
閱讀 1876·2021-10-11 10:59
閱讀 3374·2021-09-24 10:26
閱讀 1932·2019-08-30 12:48
閱讀 3044·2019-08-30 12:46
閱讀 2038·2019-08-30 11:16
閱讀 1422·2019-08-30 10:48
閱讀 2746·2019-08-29 16:54