摘要:中有一個微軟團隊的分享。微軟有一套服務化的數據管道,作為云產品售賣。結尾微軟用主要目的還是為了更容易使用流計算等開源軟件,從安全性使用上而言,在收集端消費端監控等仍有非常多的點需要提高。
Kafka Summit 2016中有一個微軟MS/Bing團隊的分享??戳藬祿o大家分析下。微軟有一套服務化的數據管道EventHub,作為云產品售賣。但在Bing、Ads、Office等場景上仍在使用Kafka,在整個公司規模上大概是一半 vs 一半。主要使用Kafka考慮是Kafka與開源流處理系統結合得更好(spark、Storm等)。
一些數據
先來看一些基礎的數據:
一天500GB,如果協議中帶了壓縮,一天的數據量為2.5 PB左右,并不是非常大。
大約1300臺機器,每臺機器處理384GB 數據。平均每臺機器4MB/S寫入流量,峰值約為6-7MB/S。說明效率并不是很高。3份拷貝計算,寫入流量平均每臺機器峰值20MB左右。
Incoming vs outcoming大約是1:3左右,說明數據有3-4個消費者。
1.3 Million/S 輸入,一天500TB,一個包大小為4.4KB。
從一年的變化量上來看,增長還是挺快的,說明微軟從15年1月份開始投入開源的擁抱。
架構?
微軟在Kafka上包了Collector收集器,和消費API,類似LogHub Client Lib (Consumer Group)。
在消費端做除了拖以外、還提供了推的模式。類似AWS Kinesis Firehose,LogHub 的Shipper。目標是Kafka 另外Topic,COSMOS(數倉)以及Hadooop。
數據?
做了一層Restful API
為了能夠使得數據有語義,沒有采用Confluent的Schema Center,而是采用了在數據上加了一個Header,通過自描述語義構建了包的類型和版本等。
為了能夠支持微軟的編程習慣,做了一套Kafka C# SDK,還是蠻拼的
Storm with C# - SCP.NET (http://www.nuget.org/packages/Microsoft.SCP.Net.SDK/)
Spark with C# - Mobius (https://github.com/Microsoft/Mobius)
Kafka with C# - C# Client for Kafka (https://github.com/Microsoft/Kafkanet)
BOND (https://github.com/Microsoft/bond)
監控?
在監控E2E消費時,用了一個挺重的方法來測量延時。既把數據到達時間,消費時間通過Spark Streaming做了Join,顯示在ELK上。這個其實大可不必這樣,只要能夠知道ConsumerGroup 消費的CheckPoint是否是的,就能夠知道了,何必大費周折。
結尾?
微軟用Kafka主要目的還是為了更容易使用流計算、ELK等開源軟件,從安全性、使用上而言,Kafka在收集端、消費端、監控等仍有非常多的點需要提高。
歡迎加入本站公開興趣群軟件開發技術群
興趣范圍包括:Java,C/C++,Python,PHP,Ruby,shell等各種語言開發經驗交流,各種框架使用,外包項目機會,學習、培訓、跳槽等交流
QQ群:26931708
Hadoop源代碼研究群
興趣范圍包括:Hadoop源代碼解讀,改進,優化,分布式系統場景定制,與Hadoop有關的各種開源項目,總之就是玩轉Hadoop
QQ群:288410967?
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4192.html
摘要:一些觀念的修正從版本開始,的標語已經從一個高吞吐量,分布式的消息系統改為一個分布式流平臺。不僅用在吞吐量高的大數據場景,也可以用在有事務要求的業務系統上,但性能較低。消息系統的作用削峰用于承接超出業務系統處理能力的請求,使業務平穩運行。 我們在《360度測試:KAFKA會丟數據么?其高可用是否滿足需求?》這篇文章中,詳細說明了KAFKA是否適合用在業務系統中。但有些朋友,還不知道KAF...
摘要:如果大家想了解更多關于的知識,那么就參加本月日,由和高可用共同舉辦的全球互聯網架構大會吧和的成員和翟佳將出席深圳站,作為中間件專場講師分享下一代分布式消息系統的話題。參加年深圳站,可以了解業界動態,和業界專家近距離接觸。 showImg(https://segmentfault.com/img/bVbtW2z?w=750&h=199); 導讀:在傳統消息系統中,存在一些問題。一方面,消...
閱讀 3054·2023-04-26 00:40
閱讀 2391·2021-09-27 13:47
閱讀 4197·2021-09-07 10:22
閱讀 2966·2021-09-06 15:02
閱讀 3307·2021-09-04 16:45
閱讀 2484·2021-08-11 10:23
閱讀 3599·2021-07-26 23:38
閱讀 2900·2019-08-30 15:54