data pipeline 中充斥著驚人的浪費，只是選擇視而不見

JellyBool 發布于2019-06-25 18:20 / 2092人閱讀

摘要：殊不知機器只是成本，集群規模只說明我們在大量浪費，不說明任何其他問題。這也是因為組織架構決定軟件架構的事情。節省所有人的時間。

越來越多的公司言并稱大數據，而大數據管道和存儲集群的規模甚至可以是業務集群的一百倍的規模。這里有多少機器是真正在做有價值的事情，而有多少cpu cycle是白白被浪費掉了呢？data pipeline 中充斥著驚人的浪費！只是我們選擇視而不見。廉不知恥地把集群規模到了xxx臺做為自己的功勞。殊不知機器只是成本，集群規模只說明我們在大量浪費，不說明任何其他問題。以下是我的吐槽正文：

重復建設

大數據很火，寫簡歷上非常好就業。于是各個部門都進行著重復性地建設，從數據上報開始就報多份，各自有各自的采集agent。看一個機器上agent的進程名基本上可以推倒出一個公司的組織架構。你要是用storm，我就用samza。你們都走日志kafka，我就用udp和statsd。你們用elasticsearch，我就用influxdb，后來的要擠進來為了有區分度就用了druid。各種類似的技術棧被掛在數據管道的后面做著重復性的類似的工作。

RD太忙了，我們來兼容吧

建設data pipeline的同學和做業務的RD是兩幫人。所以就出現了日志是“非結構化數據”的需求。日志從來都不是非結構化的好不好。因為搞數據人懶得和RD溝通，或者不愿意推動RD去修改業務代碼，所以就得做各種定制。什么正則解析啦，什么去掉時間戳的頭啦，什么multiline連接啦。就是json我都覺得是浪費磁盤和cpu的序列化格式。

另外日志的路徑和rotate的方式總是多種多樣的吧。這也是因為組織架構決定軟件架構的事情。誰規定了就一定是做data pipeline的人要去監控業務的日志路徑和rotate方式。為什么不是data pipeline規定了一個目錄結構讓業務一定要打到這個目錄里，而rotate為什么不能是agent發起的，日志寫入方去follow？

把這兩者的關系反轉過來，可以節省大量在格式解析，序列化反序列化，日志分揀上帶來的無謂的開銷。制定規范和標準讓rd去調整業務代碼，而不是跟著業務后面去改采集和解析。

各自為戰的數據集群

kafka是集群吧，logstash是集群吧，elasticsearch是集群吧。每個集群都有自己的分布式節點的管理系統（zk的，etcd的，自己擼的），都有自己的數據分區策略。數據在不同的集群中倒騰來倒騰去，就在不斷地做rehash，重新分組到不同的partition上。帶來的是巨大的內網帶寬的消耗。

把數據從一個集群拷貝到另外一個集群就那么好玩么？吹噓自己每秒處理多少數據就那么爽？其實deep down，你知道你做的工作不過就是倒個手而已，不是么。

暴力檢索

Map-reduce暴力全表掃描早就是過氣的技術了。暴力使用hadoop，或者使用hive隱形暴力地mr，堆大量機器地撈數據。業務一些機器學習的算法真地需要這么干，但是大部分BI SQL，絕對是可以充分利用列式存儲和各種索引結構的。無論是elasticsearch還是spark sql都有大量成熟的解決方案了。用索引和不用索引，那效率可是百倍的差距。

是的，全部吐槽無數據無干貨，純感性吐槽。

RoR的啟發

縱觀現在Data pipeline & 監控 & 日志檢索 & BI多維查詢的技術棧，非常類似當年的spring，各種可插拔，各種可配置。而我們需要的就是ruby on rails，橫空出世，高舉出convention over configuration的旗號，把一個集成好伸手就用不需思考的解決方案全盤端出。打通各自為戰的管道和存儲集群，整合最牛的索引和存儲格式，把data pipeline的拼裝從專業技術變成commodities。亟需這樣一個從業務內打日志開始，到出時間序列圖的端到端的完整解決方案，把廣大從業人員從低水平的重復建設里解脫出來。

你不就是想省幾臺機器嘛

不在乎這幾臺機器的公司多得是。省計算資源真沒啥好吹噓的。更為寶貴的資源是RD和PM的時間。當產品研發的同學想要對一個事情進行監控，BI的時候，他能不能完全自主地把全流程跑完？現在很多時候我們需要考慮新增的數據需要占用不少的新機器，需要去申請。新打的日志要通知另外一個部門去采集，然后再通知另外一個部門去計算，然后去通知另外一個部門去做圖表。這樣的效率能高嗎？搞數據的部門別高冷地一副帶你的數據來，帶你的需求來，哦對了，帶你的機器來，我幫你搞搞的態度。而是真地實現平臺化，自助化。別各個部門都跟著業務后面做需求，我這加點東西，你那就得加點東西。節省所有人的時間。時間才是最寶貴的東西。

GPU云服務器云服務器 asp中工具箱不見了 Pipeline 存儲卡里的文件怎么隱藏著安裝linux的硬盤不見了

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/17532.html

互聯網"凜冬"，看大廠HR怎么說~

摘要：寫在前面的話最近互聯網朋友圈充斥著一股恐慌的氣息。本人作為一名，萬不敢稱資深，只是呆過幾年大型央企和大型互聯網企業，聊有一點自己的看法罷了。如果不放心，以一周為期，對展示在面前的機會進行初步分級。也可以略高于期望，以此探一探對方的反應。 showImg(https://segmentfault.com/img/bVblxeY?w=1008&h=298); 寫在前面的話　　最近互聯網朋...

renweihub 2019-08-23 14:26 評論0 收藏0
【Java深入學習系列】之CPU的分支預測(Branch Prediction)模型

摘要：有分支預測期的我們來看分支預測器在條件分支跳轉中的應用。現代流水線級數非常長，分支預測失敗可能會損失個左右的時鐘周期，因此對于復雜的流水線，好的分支預測器非常重要。說明：本文以stackoverflow上Why is it faster to process a sorted array than an unsorted array?為原型，翻譯了問題和高票回答并加入了大量補充說明...

dunizb 2019-08-14 14:39 評論0 收藏0
Python爬蟲之Scrapy學習（基礎篇）

摘要：下載器下載器負責獲取頁面數據并提供給引擎，而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子，處理傳遞給引擎的。一旦頁面下載完畢，下載器生成一個該頁面的，并將其通過下載中間件返回方向發送給引擎。作者：xiaoyu微信公眾號：Python數據科學知乎：Python數據分析師在爬蟲的路上，學習scrapy是一個必不可少的環節。也許有好多朋友此時此刻也正在接觸并學習sc...

pkhope 2019-07-31 11:05 評論0 收藏0