【Kafka】《Kafka權威指南》入門

wh469012917 發布于2019-05-22 19:08 / 2782人閱讀

摘要：主題和分區的悄息通過主題進行分類。在給定的分區里，每個悄息的偏移量都是唯一的。消費者把每個分區最后讀取的悄息偏移量保存在或上，如果悄費者關閉或重啟，它的讀取狀態不會丟失。主題可以配置自己的保留策略，可以將悄息保留到不再使用它們為止。

發布與訂閱消息系統

在正式討論Apache Kafka (以下簡稱Kafka)之前，先來了解發布與訂閱消息系統的概念，并認識這個系統的重要性。數據(消息)的發送者(發布者)不會直接把消息發送給接收者，這是發布與訂閱消息系統的一個特點。發布者以某種方式對消息進行分類，接收者 (訂閱者)訂閱它們，以便接收特定類型的消息。發布與訂閱系統一般會有一個 broker，也就是發布消息的中心點。

發布與訂閱消息系統的大部分應用場景都是從一個簡單的消息隊列或一個進程間通信開始的。比如電商系統中，包含會員模塊、訂單模塊、商品模塊、推薦模塊、配送物流模塊等，多個模塊(子系統)間涉及消息的傳遞。

最早的應用解決方案就是采用(子系統間)直連的方式，使得很多子系統交錯復雜。這種點對點的連接方式，形成網狀的連接，弊端很多，不一一贅述。

后來，為了解決子系統間直連交錯的問題，出現了隊列系統。下圖所示的架構包含了 3 個獨立的發布與訂閱系統。

這種方式比直接使用點對點的連接要好得多，但這里有太多重復的地方。你的公司因此要為數據隊列維護多個系統，每個系統又有各自的缺陷和不足。而且，接下來可能會有更多的場景需要用到消息系統。此時，你真正需要的是一個單一的集中式系統，它可以用來發布通用類型的數據，其規模可以隨著公司業務的增長而增長。這時Kafka登場了。

Kafka登場

Kafka就是為了解決上述問題而設計的一款基于發布與訂閱的消息系統。它一般被稱為 “分布式提交日志”或者“分布式流平臺”。文件系統或數據庫提交日志用來提供所有事務的持久記錄，通過重放這些日志可以重建系統的狀態。同樣地， Kafka 的數據是按照一定順序持久化保存的，可以按需讀取。此外， Kafka 的數據分布在整個系統里，具備數據故障保護和性能伸縮能力。

消息和批次

Kafka的數據單元被稱為消息。如果你在使用 Kafka之前已經有數據庫使用經驗，那么可以把消息看成是數據庫里的一個“數據行”或一條“記錄”。消息由字節數組組成，所以對于 Kafka來說，消息里的數據沒有特別的格式或含義。消息可以有一個可選的元數據，也就是鍵(key)。鍵也是一個字節數組，與消息一樣，對于 Kafka來說也沒有特殊的含義。當消息以一種可控的方式寫入不同的分區時，會用到鍵。最簡單的例子就是為鍵生成一個一致性散列值，然后使用散列值對主題分區數進行取模，為消息選取分區。這樣可以保證具有相同鍵的消息總是被寫到相同的分區上。

為了提高效率，消息被分批次寫入 Kafka。批次就是一組消息，這些消息屬于同一個主題和分區。如果每一個消息都多帶帶穿行于網絡，會導致大量的網絡開銷，把消息分成批次傳輸可以減少網絡開銷。不過，這要在時間延遲和吞吐量之間作出權衡；批次越大，單位時間內處理的消息就越多，單個消息的傳輸時間就越長。批次數據會被壓縮，這樣可以提升數據的傳輸和存儲能力，但要做更多的計算處理。

主題(topic)和分區(partition)

Kafka 的悄息通過主題進行分類。主題就好比數據庫的表，或者文件系統里的文件夾。主題可以被分為若干個分區，一個分區就是一個提交日志。消息以追加的方式寫入分區，然后以先入先出的順序讀取。要注意，由于一個主題一般包含幾個分區，因此無法在整個主題范圍內保證消息的順序，但可以保證消息在單個分區內的順序。下圖所示的主題有 4 個分區，消息被迫加寫入每個分區的尾部。 Kaflca通過分區來實現數據冗余和伸縮性。分區可以分布在不同的服務器上，也就是說，一個主題可以橫跨多個服務器，以此來提供比單個服務器更強大的性能。

我們通常會使用流這個詞來描繪Kafka這類系統對數據。很多時候，人們把一個主題的數據看成一個流，不管它有多少個分區。流是一組從生產者移動到消費者的數據。當我們討論流式處理時，一般都是這樣描述消息的。 Kaflca Streams、 Apache Samza 和 Storm 這些框架以實時的方式處理消息，也就是所謂的流式處理。我們可以將流式處理與離線處理進行比較，比如 Hadoop 就是被設計用于在稍后某個時刻處理大量的數據。

生產者和消費者

Kafka 的客戶端就是 Kafka 系統的用戶，它們被分為兩種基本類型 : 生產者和消費者。除此之外，還有其他高級客戶端 API——用于數據集成的 Kaflca Connect API 和用于流式處理的 Kaflca Streams。這些高級客戶端 API 使用生產者和消費者作為內部組件，提供了高級的功能。

生產者創建消息。在其他發布與訂閱系統中，生產者可能被稱為發布者或寫入者。一般情況下，一個消息會被發布到一個特定的主題(topic)上。生產者在默認情況下把消息均衡地分布到主題的所有分區上，而并不關心特定消息會被寫到哪個分區。不過，在某些情況下，生產者會把消息直接寫到指定的分區。這通常是通過消息鍵和分區器來實現的，分區器為鍵生成一個散列值，并將其映射到指定的分區上。這樣可以保證包含同一個鍵的消息會被寫到同一個分區上。生產者也可以使用自定義的分區器，根據不同的業務規則將消息映射到分區。下一章將詳細介紹生產者。

消費者讀取消息。在其他發布與訂閱系統中，消費者可能被稱為訂閱者或讀者。消費者訂閱一個或多個主題，并按照消息生成的順序讀取它們。消費者通過檢查消息的偏移盤來區分已經讀取過的消息。偏移量是另一種元數據，它是一個不斷遞增的整數值，在創建消息時， Kafka 會把它添加到消息里。在給定的分區里，每個悄息的偏移量都是唯一的。消費者把每個分區最后讀取的悄息偏移量保存在 Zookeeper或 Kafka上，如果悄費者關閉或重啟，它的讀取狀態不會丟失。

消費者是消費者群組的一部分，也就是說，會有一個或多個消費者共同讀取一個主題。群組保證每個分區只能被一個消費者使用。下圖所示的群組中，有 3 個消費者同時讀取一個主題。其中的兩個消費者各自讀取一個分區，另外一個消費者讀取其他兩個分區。消費者與分區之間的映射通常被稱為悄費者對分區的所有權關系。

通過這種方式，消費者可以消費包含大量消息的主題。而且，如果一個消費者失效，群組里的其他消費者可以接管失效悄費者的工作。第 4章將詳細介紹消費者和悄費者群組。

broker和集群

一個獨立的 Kafka服務器被稱為 broker。 broker接收來自生產者的消息，為消息設置偏移量，并提交消息到磁盤保存。 broker 為消費者提供服務，對讀取分區的請求作出響應，返回已經提交到磁盤上的消息。根據特定的硬件及其性能特征，單個 broker可以輕松處理數千個分區以及每秒百萬級的消息量。

Broker可以看作是消息中間件處理節點，一個Kafka節點就是一個broker，一個或者多個Broker可以組成一個Kafka集群。

broker是集群的組成部分。每個集群都有一個 broker 同時充當了集群控制器的角色(自動從集群的活躍成員中選舉出來)。控制器負責管理工作，包括將分區分配給 broker和監控 broker. 在集群中，一個分區從屬于一個 broker, i亥 broker被稱為分區的首領。一個分區可以分配給多個 broker，這個時候會發生分區復制(見下圖)。這種復制機制為分區提供了消息冗余，如果有一個 broker失效，其他 broker可以接管領導權。不過，相關的消費者和生產者都要重新連接到新的首領。

保留消息(在一定期限內)是 Kafka的一個重要特性。 Kafka broker默認的消息保留策略是這樣的：要么保留一段時間(比如 7天)，要么保留到消息達到一定大小的字節數(比如 1GB)。當消息數量達到這些上限時，舊消息就會過期井被刪除，所以在任何時刻，可用消息的總量都不會超過配置參數所指定的大小。主題可以配置自己的保留策略，可以將悄息保留到不再使用它們為止。例如，用于跟蹤用戶活動的數據可能需要保留幾天，而應用程序的度量指標可能只需要保留幾個小時。可以通過配置把主題當作緊湊型日志，只有最后一個帶有特定鍵的消息會被保留下來。這種情況對于變更日志類型的數據來說比較適用，因為人們只關心最后時刻發生的那個變更。

為什么選擇 Kafka

多個生產者

Kafka 可以無縫地支持多個生產者，不管客戶端在使用單個主題還是多個主題。所以它很適合用來從多個前端系統收集數據，并以統一的格式對外提供數據。例如，一個包含了多個微服務的網站，可以為頁面視圖創建一個多帶帶的主題，所有服務都以相同的消息格式向該主題寫入數據。消費者應用程序會獲得統一的頁面視圖，而無需協調來自不同生產者的數據流。

多個消費者

除了支持多個生產者外， Kafka也支持多個消費者從一個多帶帶的消息流上讀取數據，而且消費者之間直不影響。這與其他隊列系統不同，其他隊列系統的消息一旦被一個客戶端讀取，其他客戶端就無法再讀取它。另外，多個消費者可以組成一個群組，它們共享一個消息流，并保證整個群組對每個給定的消息只處理一次。

基于磁盤的數據存儲

Kafka不僅支持多個消費者，還允許消費者非實時地讀取消息，這要歸功于 Kafka的數據保留特性。");

伸縮性

為了能夠輕松處理大量數據， Kafka 從一開始就被設計成一個具有靈活伸縮性的系統。用戶在開發階段可以先使用單個 broker，再擴展到包含 3 個 broker 的小型開發集群，然后隨著數據鹽不斷增長，部署到生產環境的集群可能包含上百個 broker。對在線集群進行擴展絲毫不影響整體系統的可用性。也就是說，一個包含多個 broker的集群，即使個別 broker 失效，仍然可以持續地為客戶提供服務。要提高集群的容錯能力，需要配置較高的復制系數。

高性能

上面提到的所有特性，讓 Kafka成為了一個高性能的發布與訂閱消息系統。通過橫向擴展生產者、消費者和 broker, Kafka可以輕松處理巨大的消息流。在處理大量數據的同時，它還能保證亞秒級的消息延遲。

GPU云服務器云服務器入門級kafka服務器優惠入門級kafka服務器價格均衡型入門級kafka服務器價格均衡型入門級kafka服務器配置價格

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/6844.html

【Kafka】《Kafka權威指南》入門

摘要：主題和分區的悄息通過主題進行分類。在給定的分區里，每個悄息的偏移量都是唯一的。消費者把每個分區最后讀取的悄息偏移量保存在或上，如果悄費者關閉或重啟，它的讀取狀態不會丟失。主題可以配置自己的保留策略，可以將悄息保留到不再使用它們為止。發布與訂閱消息系統在正式討論Apache Kafka (以下簡稱Kafka)之前，先來了解發布與訂閱消息系統的概念，并認識這個系統的重要性。數據(消息)的發送...

番茄西紅柿 2019-05-23 16:08 評論0 收藏0
【Kafka】《Kafka權威指南》入門

摘要：主題和分區的悄息通過主題進行分類。在給定的分區里，每個悄息的偏移量都是唯一的。消費者把每個分區最后讀取的悄息偏移量保存在或上，如果悄費者關閉或重啟，它的讀取狀態不會丟失。主題可以配置自己的保留策略，可以將悄息保留到不再使用它們為止。發布與訂閱消息系統在正式討論Apache Kafka (以下簡稱Kafka)之前，先來了解發布與訂閱消息系統的概念，并認識這個系統的重要性。數據(消息)的發送...

番茄西紅柿 2019-05-23 16:08 評論0 收藏0
必看！java后端，亮劍誅仙（最全知識點）

摘要：鑒于目前大多數服務器環境都是，提前接觸能夠相輔相成。正則也是必須要掌握的一個知識點。有多種創建多線程的方式，不過目前使用線程池的多一些。原創：小姐姐味道（微信公眾號ID：xjjdog），歡迎分享，轉載請保留出處。你可能有所感悟。零散的資料讀了很多，但是很難有提升。到處是干貨，但是并沒什么用，簡單來說就是缺乏系統化。另外，噪音太多，雷同的框架一大把，我不至于全都要去學了吧。這里，我...

陳江龍 2019-08-19 10:34 評論0 收藏0

發表評論

登陸后可評論

0條評論

wh469012917

男|高級講師

我要關注我要私信

TA的文章

tensorflow

閱讀 3017·2023-04-26 00:32
css清除浮動clearfix：after

閱讀 498·2019-08-30 15:52
頁面設計筆記

閱讀 2105·2019-08-30 15:52
小程序輸入框文字上移問題文字彈出輸入框

閱讀 3347·2019-08-30 15:44
使用GitHub（一）：添加SSHkey

閱讀 3280·2019-08-30 14:09
Fixed with absolute

閱讀 1416·2019-08-29 15:15
## CSS 的黑科技

閱讀 3390·2019-08-28 18:12
原生js實現each方法

閱讀 1074·2019-08-26 13:55

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

【Kafka】《Kafka權威指南》入門

相關文章