国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

SparkSQL 在有贊的實(shí)踐

hzx / 3110人閱讀

摘要:在有贊的技術(shù)演進(jìn)。業(yè)務(wù)數(shù)據(jù)量正在不斷增大,這些任務(wù)會(huì)影響業(yè)務(wù)對外服務(wù)的承諾。監(jiān)控需要收集上執(zhí)行的的審計(jì)信息,包括提交者執(zhí)行的具體,開始結(jié)束時(shí)間,執(zhí)行完成狀態(tài)。還有一點(diǎn)是詳細(xì)介紹了的原理,實(shí)踐中設(shè)置了的比默認(rèn)的減少了以上的時(shí)間。

前言

有贊數(shù)據(jù)平臺(tái)從2017年上半年開始,逐步使用 SparkSQL 替代 Hive 執(zhí)行離線任務(wù),目前 SparkSQL 每天的運(yùn)行作業(yè)數(shù)量5000個(gè),占離線作業(yè)數(shù)目的55%,消耗的 cpu 資源占集群總資源的50%左右。本文介紹由 SparkSQL 替換 Hive 過程中碰到的問題以及處理經(jīng)驗(yàn)和優(yōu)化建議,包括以下方面的內(nèi)容:

有贊數(shù)據(jù)平臺(tái)的整體架構(gòu)。

SparkSQL 在有贊的技術(shù)演進(jìn)。

從 Hive 到 SparkSQL 的遷移之路。

一. 有贊數(shù)據(jù)平臺(tái)介紹

首先介紹一下有贊大數(shù)據(jù)平臺(tái)總體架構(gòu):

如下圖所示,底層是數(shù)據(jù)導(dǎo)入部分,其中 DataY 區(qū)別于開源屆的全量導(dǎo)入導(dǎo)出工具 alibaba/DataX,是有贊內(nèi)部研發(fā)的離線 Mysql 增量導(dǎo)入 Hive 的工具,把 Hive 中歷史數(shù)據(jù)和當(dāng)天增量部分做合并。DataX / DataY 負(fù)責(zé)將 Mysql 中的數(shù)據(jù)同步到數(shù)倉當(dāng)中,F(xiàn)lume 作為日志數(shù)據(jù)的主要通道,同時(shí)也是 Mysql binlog 同步到 HDFS 的管道,供 DataY 做增量合并使用。

第二層是大數(shù)據(jù)的計(jì)算框架,主要分成兩部分:分布式存儲(chǔ)計(jì)算和實(shí)時(shí)計(jì)算,實(shí)時(shí)框架目前主要支持 JStorm,Spark Streaming 和 Flink,其中 Flink 是今年開始支持的;而分布式存儲(chǔ)和計(jì)算框架這邊,底層是 Hadoop 和 Hbase,ETL主要使用 Hive 和 Spark,交互查詢則會(huì)使用 Spark,Presto,實(shí)時(shí) OLAP 系統(tǒng)今年引入了 Druid,提供日志的聚合查詢能力。

第三層是數(shù)據(jù)平臺(tái)部分,數(shù)據(jù)平臺(tái)是直接面對數(shù)據(jù)開發(fā)者的,包括幾部分的功能,數(shù)據(jù)開發(fā)平臺(tái),包括日常使用的調(diào)度,數(shù)據(jù)傳輸,數(shù)據(jù)質(zhì)量系統(tǒng);數(shù)據(jù)查詢平臺(tái),包括ad-hoc查詢以及元數(shù)據(jù)查詢。有關(guān)有贊數(shù)據(jù)平臺(tái)的詳細(xì)介紹可以參考往期有贊數(shù)據(jù)平臺(tái)的博客內(nèi)容。
  

二. SparkSQL技術(shù)演進(jìn)



從2017年二季度,有贊數(shù)據(jù)組的同學(xué)們開始了 SparkSQL 方面的嘗試,主要的出發(fā)點(diǎn)是當(dāng)時(shí)集群資源是瓶頸,Hive 跑任務(wù)已經(jīng)逐漸開始乏力,有些復(fù)雜的 SQL,通過 SQL 的邏輯優(yōu)化達(dá)到極限,仍然需要幾個(gè)小時(shí)的時(shí)間。業(yè)務(wù)數(shù)據(jù)量正在不斷增大,這些任務(wù)會(huì)影響業(yè)務(wù)對外服務(wù)的承諾。同時(shí),隨著 Spark 以及其社區(qū)的不斷發(fā)展,Spark 及 Spark SQL 本身技術(shù)的不斷成熟,Spark 在技術(shù)架構(gòu)和性能上都展示出 Hive 無法比擬的優(yōu)勢。

從開始上線提供離線任務(wù)服務(wù),再到 Hive 任務(wù)逐漸往 SparkSQL 遷移,踩過不少坑,也填了不少坑,這里主要分兩個(gè)方面介紹,一方面是我們對 SparkSQL 可用性方面的改造以及優(yōu)化,另一方面是 Hive 遷移時(shí)遇到的種種問題以及對策。

2.1 可用性改造 

可用性問題包括兩方面,一個(gè)是系統(tǒng)的穩(wěn)定性,監(jiān)控/審計(jì)/權(quán)限等,另一個(gè)是用戶使用的體驗(yàn),用戶以前習(xí)慣用 Hive,如果 SparkSQL 的日志或者 Spark thrift server 的 UI 不能夠幫助用戶定位問題,解決問題,那也會(huì)影響用戶的使用或者遷移意愿。所以我首先談一下用戶交互的問題。

用戶體驗(yàn)

我們碰到的第一個(gè)問題是用戶向我們抱怨通過 JDBC 的方式和 Spark thrift server(STS) 交互,執(zhí)行一個(gè) SQL 時(shí),沒有執(zhí)行的進(jìn)度信息,需要一直等待執(zhí)行成功,或者任務(wù)出錯(cuò)時(shí)接收任務(wù)報(bào)錯(cuò)郵件得知執(zhí)行完。于是執(zhí)行進(jìn)度讓用戶可感知是一個(gè)必要的功能。我們做了 Spark 的改造,增加運(yùn)行時(shí)的 operation 日志,并且向社區(qū)提交了 patch(spark-22496), 而在我們內(nèi)部,更增加了執(zhí)行進(jìn)度日志,每隔2秒打印出當(dāng)前執(zhí)行的 job/stage 的進(jìn)度,如下圖所示。

監(jiān)控

SparkSQL 需要收集 STS 上執(zhí)行的 SQL 的審計(jì)信息,包括提交者執(zhí)行的具體 SQL,開始結(jié)束時(shí)間,執(zhí)行完成狀態(tài)。原生 STS 會(huì)把這些信息通過事件的方式 post 到事件總線,監(jiān)聽者角色 (HiveThriftServer2Listener) 在事件總線上注冊,訂閱消費(fèi)事件,但是這個(gè)監(jiān)聽者只負(fù)責(zé) Spark UI 的 JDBC Tab 上的展示,我們改造了 SparkListener 類,將 session 以及執(zhí)行的 sql statement 級(jí)別的消息也放到了總線上,監(jiān)聽者可以在總線上注冊,以便消費(fèi)這些審計(jì)信息,并且增加了一些我們感興趣的維度,如使用的 cpu 資源,歸屬的工作流(airflowId)。同時(shí),我們增加了一種新的完成狀態(tài) cancelled,以方便區(qū)分是用戶主動(dòng)取消的任務(wù)。

Thrift Server HA

相比于 HiveServer,STS 是比較脆弱的,一是由于 Spark 的 driver 是比較重的,所有的作業(yè)都會(huì)通過 driver 編譯 sql,調(diào)度 job/task 執(zhí)行,分發(fā) broadcast 變量,二是對于每個(gè) SQL,相比于 HiveServer 會(huì)新起一個(gè)進(jìn)程去處理這個(gè) SQL 的執(zhí)行,STS 只有一個(gè)進(jìn)程去處理,如果某個(gè) SQL 有異常,查詢了過多的數(shù)據(jù)量, STS 有 OOM 退出的風(fēng)險(xiǎn),那么生產(chǎn)環(huán)境維持 STS 的穩(wěn)定性就顯得無比重要。

除了必要的存活報(bào)警,首先我們區(qū)分了 ad-hoc 查詢和離線調(diào)度的 STS 服務(wù),因?yàn)殡x線調(diào)度的任務(wù)往往計(jì)算結(jié)束時(shí)是把結(jié)果寫入 table 的,而 ad-hoc 大部分是直接把結(jié)果匯總在 driver,對 driver 的壓力比較大;此外,我們增加了基于 ZK 的高可用。對于一種類型的 STS(事實(shí)上,有贊的 STS 分為多組,如 ad-hoc,大內(nèi)存配置組)在 ZK 上注冊一個(gè)節(jié)點(diǎn),JDBC 的連接直接訪問 ZK 獲取隨機(jī)可用的 STS 地址。這樣,偶然的 OOM ,或者 bug 被觸發(fā)導(dǎo)致 STS 不可用,也不會(huì)嚴(yán)重到影響調(diào)度任務(wù)完全不可用,給開發(fā)運(yùn)維人員比較充足的時(shí)間定位問題。

權(quán)限控制

之后有另一個(gè)文章詳細(xì)介紹我們對于安全和權(quán)限的建設(shè)之路,這里簡單介紹一下,Hive的權(quán)限控制主要包括以下幾種:

SQL Standards Based Hive Authorization

Storage Based Authorization in the Metastore

ServerAuthorization using Apache Ranger & Sentry

調(diào)研對比各種實(shí)現(xiàn)方案之后,由于我們是從無到有的增加了權(quán)限控制,沒有歷史負(fù)擔(dān)。我們直接選擇了ranger + 組件 plugin 的權(quán)限管理方案。

除了以上提到的幾個(gè)點(diǎn),我們還從社區(qū) backport 了數(shù)十個(gè) patch 以解決影響可用性的問題,如不識(shí)別 hiveconf/hivevar (SPARK-13983),最后一行被截?cái)?HIVE-10541) 等等。

2.2 性能優(yōu)化

之前談到,STS 只有一個(gè)進(jìn)程去處理所有提交 SQL 的編譯,所有的 SQL Job 共享一個(gè) Hive 實(shí)例,更糟糕的是這個(gè) Hive 實(shí)例還有處理 loadTable/loadPartition 這樣的 IO 操作,會(huì)阻塞其他任務(wù)的編譯,存在單點(diǎn)問題。我們之前測試一個(gè)上萬 partition 的 Hive 表在執(zhí)行 loadTable 操作時(shí),會(huì)阻塞其他任務(wù)提交,時(shí)間長達(dá)小時(shí)級(jí)別。對于 loadTable 這樣的IO操作,要么不加鎖,要么減少加鎖的時(shí)間。我們選擇的是后者,首先采用的是社區(qū) SPARK-20187 的做法,將 loadTable 實(shí)現(xiàn)由 copyFile 的方式改為 moveFile,見下圖:

之后變更了配置spark.sql.hive.metastore.jars=maven,運(yùn)行時(shí)通過 Maven 的方式加載 jar 包,解決包依賴關(guān)系,使得加載的 Hive 類是2.1.1的版本,和我們 Hive 版本一致,這樣得好處是很多行為都會(huì)和 Hive 的相一致,方便排查問題;比如刪除文件到 Trash,之前 SparkSQL 刪除表或者分區(qū)后是不會(huì)落到 Trash 的。

2.3 小文件問題

我們在使用 SparkSQL 過程中,發(fā)現(xiàn)小文件的問題比較嚴(yán)重,SparkSQL 在寫數(shù)據(jù)時(shí)會(huì)產(chǎn)生很多小文件,會(huì)對 namenode 產(chǎn)生很大的壓力,進(jìn)而帶來整個(gè)系統(tǒng)穩(wěn)定性的隱患,最近三個(gè)月文件個(gè)數(shù)幾乎翻了個(gè)倍。對于小文件問題,我們采用了社區(qū) SPARK-24940 的方式處理,借助 SQL hint 的方式合并小文件。同時(shí),我們有一個(gè)專門做 merge 的任務(wù),定時(shí)異步的對天級(jí)別的分區(qū)掃描并做小文件合并。

還有一點(diǎn)是spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2, MapReduce-4815 詳細(xì)介紹了 fileoutputcommitter 的原理,實(shí)踐中設(shè)置了 version=2 的比默認(rèn) version=1 的減少了70%以上的 commit 時(shí)間。

三. SparkSQL 遷移之路



解決了大部分的可用性問題以后,我們逐步開始了 SparkSQL 的推廣,引導(dǎo)用戶選擇 SparkSQL 引擎,絕大部分的任務(wù)的性能能得到較大的提升。于是我們進(jìn)一步開始將原來 Hive 執(zhí)行的任務(wù)向 SparkSQL 轉(zhuǎn)移。

在 SparkSQL 遷移之初,我們選擇的路線是遵循二八法則,從優(yōu)化耗費(fèi)資源最多的頭部任務(wù)開始,把Top100的任務(wù)從 Hive 往 SparkSQL 遷移,逐步積累典型錯(cuò)誤,包括 SparkSQL 和Hive的不一致行為,比較典型的問題由ORC格式文件為空,Spark會(huì)拋空指針異常而失敗,ORC 格式和 metastore 類型不一致,SparkSQL 也會(huì)報(bào)錯(cuò)失敗。經(jīng)過一波人工推廣之后,頭部任務(wù)節(jié)省的資源相當(dāng)客觀,在2017年底,切換到 SparkSQL 的任務(wù)數(shù)占比5%,占的資源20%,資源使用僅占 Hive 運(yùn)行的10%-30%。

在 case by case 處理了一段時(shí)間以后,我們發(fā)現(xiàn)這種方式不太能夠擴(kuò)展了。首先和作業(yè)的 owner 協(xié)商修改需要溝通成本,而且小作業(yè)的改動(dòng)收益不是那么大,作業(yè)的 owner 做這樣的改動(dòng)對他來說收益比較小,反而有一定概率的風(fēng)險(xiǎn)。所以到這個(gè)階段 SparkSQL 的遷移之路進(jìn)展比較緩慢。

于是我們開始構(gòu)思自動(dòng)化遷移方式,構(gòu)思了一種執(zhí)行引擎之上的智能執(zhí)行引擎選擇服務(wù) SQL Engine Proposer(proposer),可以根據(jù)查詢的特征以及當(dāng)前集群中的隊(duì)列狀態(tài)為 SQL 查詢選擇合適的執(zhí)行引擎。數(shù)據(jù)平臺(tái)向某個(gè)執(zhí)行引擎提交查詢之前,會(huì)先訪問智能執(zhí)行引擎選擇服務(wù)。在選定合適的執(zhí)行引擎之后,數(shù)據(jù)平臺(tái)將任務(wù)提交到對應(yīng)的引擎,包括 Hive,SparkSQL,以及較大內(nèi)存配置的 SparkSQL。

并且在 SQL Engine Proposer,我們添加了一系列策略:

規(guī)則策略,這些規(guī)則可以是某一種 SQL pattern,proposer 使用 Antlr4 來處理執(zhí)行引擎的語法,對于某些遷移有問題的問題,將這種 pattern 識(shí)別出來,添加到規(guī)則集合中,典型的規(guī)則有沒有發(fā)生 shuffle 的任務(wù),或者只發(fā)生 broadcast join 的任務(wù),這些任務(wù)有可能會(huì)產(chǎn)生很多小文件,并且邏輯一般比較簡單,使用Hive運(yùn)行資源消耗不會(huì)太多。

白名單策略,有些任務(wù)希望就是用Hive執(zhí)行,就通過白名單過濾。當(dāng) Hive 和 SparkSQL 行為不一致的時(shí)候,也可以先加入這個(gè)集合中,保持執(zhí)行和問題定位能夠同時(shí)進(jìn)行。

優(yōu)先級(jí)策略,在灰度遷移的時(shí)候,是從低優(yōu)先級(jí)任務(wù)開始的,在 proposer 中我們配置了灰度的策略,從低優(yōu)先級(jí)任務(wù)切一定的流量開始遷移,逐步放開,在優(yōu)先級(jí)內(nèi)達(dá)到全量,目前放開了除 P1P2 以外的3級(jí)任務(wù)。

過往執(zhí)行記錄,proposer 選擇時(shí)會(huì)根據(jù)歷史執(zhí)行成功情況以及執(zhí)行時(shí)間,如果 SparkSQL 效率比 Hive 有顯著提升,并且在過去一直執(zhí)行成功,那么 proposer 會(huì)更傾向于選擇 SparkSQL。

截止目前,執(zhí)行引擎選擇的作業(yè)數(shù)中 SparkSQL 占比達(dá)到了73%,使用資源僅占32%,遷移到 SparkSQL 運(yùn)行的作業(yè)帶來了67%資源的節(jié)省。


未來展望

我們計(jì)劃 Hadoop 集群資源進(jìn)一步向 SparkSQL 方向轉(zhuǎn)移,達(dá)到80%,作業(yè)數(shù)達(dá)70%,把最高優(yōu)先級(jí)也開放到選擇引擎,引入 Intel 開源的 Adaptive Execution 功能,優(yōu)化執(zhí)行過程中的 shuffle 數(shù)目,執(zhí)行過程中基于代價(jià)的 broadcast
join 優(yōu)化,替換 sort merge join,同時(shí)更徹底解決小文件問題。

最后打個(gè)小廣告,有贊大數(shù)據(jù)團(tuán)隊(duì)基礎(chǔ)設(shè)施團(tuán)隊(duì),主要負(fù)責(zé)有贊的數(shù)據(jù)平臺(tái)(DP), 實(shí)時(shí)計(jì)算(Storm, Spark Streaming, Flink),離線計(jì)算(HDFS, YARN, HIVE, SPARK SQL),在線存儲(chǔ)(HBase),實(shí)時(shí) OLAP(Druid) 等數(shù)個(gè)技術(shù)產(chǎn)品,歡迎感興趣的小伙伴聯(lián)系 zouchenjun@youzan.com

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/19910.html

相關(guān)文章

  • SparkSQL 在有贊的實(shí)踐

    摘要:在有贊的技術(shù)演進(jìn)。業(yè)務(wù)數(shù)據(jù)量正在不斷增大,這些任務(wù)會(huì)影響業(yè)務(wù)對外服務(wù)的承諾。監(jiān)控需要收集上執(zhí)行的的審計(jì)信息,包括提交者執(zhí)行的具體,開始結(jié)束時(shí)間,執(zhí)行完成狀態(tài)。還有一點(diǎn)是詳細(xì)介紹了的原理,實(shí)踐中設(shè)置了的比默認(rèn)的減少了以上的時(shí)間。 前言 有贊數(shù)據(jù)平臺(tái)從2017年上半年開始,逐步使用 SparkSQL 替代 Hive 執(zhí)行離線任務(wù),目前 SparkSQL 每天的運(yùn)行作業(yè)數(shù)量5000個(gè),占離線...

    Xufc 評(píng)論0 收藏0
  • Flink 有贊實(shí)時(shí)計(jì)算的實(shí)踐

    摘要:第三個(gè)就是比較重點(diǎn)的內(nèi)容,在有贊的實(shí)踐。第四部分是將實(shí)時(shí)計(jì)算化,界面化的一些實(shí)踐。二有贊實(shí)時(shí)平臺(tái)架構(gòu)有贊的實(shí)時(shí)平臺(tái)架構(gòu)呢有幾個(gè)主要的組成部分。實(shí)時(shí)平臺(tái)提供了集群管理,項(xiàng)目管理,任務(wù)管理和報(bào)警監(jiān)控的功能。。 一、前言 這篇主要由五個(gè)部分來組成: 首先是有贊的實(shí)時(shí)平臺(tái)架構(gòu)。 其次是在調(diào)研階段我們?yōu)槭裁催x擇了 Flink。在這個(gè)部分,主要是 Flink 與 Spark 的 structure...

    琛h。 評(píng)論0 收藏0
  • Flink 有贊實(shí)時(shí)計(jì)算的實(shí)踐

    摘要:第三個(gè)就是比較重點(diǎn)的內(nèi)容,在有贊的實(shí)踐。第四部分是將實(shí)時(shí)計(jì)算化,界面化的一些實(shí)踐。二有贊實(shí)時(shí)平臺(tái)架構(gòu)有贊的實(shí)時(shí)平臺(tái)架構(gòu)呢有幾個(gè)主要的組成部分。實(shí)時(shí)平臺(tái)提供了集群管理,項(xiàng)目管理,任務(wù)管理和報(bào)警監(jiān)控的功能。。 一、前言 這篇主要由五個(gè)部分來組成: 首先是有贊的實(shí)時(shí)平臺(tái)架構(gòu)。 其次是在調(diào)研階段我們?yōu)槭裁催x擇了 Flink。在這個(gè)部分,主要是 Flink 與 Spark 的 structure...

    fish 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

hzx

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<