摘要:缺陷雖然目前確實能給基于存儲的大數據方案帶來進一步性能提高,但目前的設計還是有不少缺陷,主要在體現在幾個方面單點架構使得可靠性降低。
us3vmds基于Go語言開發,自帶了Go的profile功能,通過以下命令,可以在指定地址開啟Go的運行時性能分析HTTP服務:
</>復制代碼
? bin ? us3vmds pprof --open 127.0.0.1 8081
? bin ? netstat -tunpl | grep 8081
tcp 0 0 127.0.0.1:8081 0.0.0.0:* LISTEN 3312/us3vmds
? bin ? us3vmds pprof --close // 關閉運行時性能分析HTTP服務
? bin ? netstat -tunpl | grep 8081
Go的運行時分析可以參考Go的官方文檔Package pprof
硬件環境部署服務數量操作系統CPU內存數據盤(數量/單盤容量/規格)NameNodeResourceManager<>ZookeeperJournalNode3Centos7.664位32C128G1/100G/RSSD云盤DataNodeNodeManager10Centos7.664位32C128G10/300G/RSSD云盤軟件環境軟件版本號限制約束Hadoop2.8.5標準社區版本Hive2.3.7標準社區版本Spark2.4.3標準社區版本Zookeeper3.5.6標準社區版本關鍵參數Hadoop配置文件配置項配置值hdfs-site.xmldfs.replication3HiBench測試
HiBench是 Intel 開源的大數據基準測試工具,可幫助評估速度,吞吐量和系統資源利用率方面的不同大數據框架。 它包含一組Hadoop,Spark和流工作負載,包括Sort,WordCount,TeraSort,Repartition, Sleep,SQL,PageRank,Nutch indexing,Bayes,Kmeans,NWeight和enhanced DFSIO等。它還包含一些用于Spark流的流工作負載 ,Flink,Storm和Gearpump。HiBench中總共有29個工作負載。 工作負載分為6類,分別是micro,ml(machine learning),sql,graph,websearch和stream。
本次HiBench測試的版本為:
公共配置信息為:
配置文件配置項配置值hibench.confhibench.scale.profilemydatahibench.confhibench.default.map.parallelism40960hibench.confhibench.default.shuffle.parallelism10240spark.confhibench.yarn.executor.num50spark.confhibench.yarn.executor.cores4spark.confspark.executor.memory16gspark.confspark.driver.memory8g
測試選擇了其中的7個工作負載進行,且分別基于us3(只采用適配器工具)、us3vmds(適配器和us3vmds)、hdfs三種底層存儲進行:
sort
測試參數調整為:
hibench.sort.mydata.datasize: 3000000000000
該參數表示總體數據量,約為3TB
測試數據:
terasort
測試參數調整為:
hibench.sort.mydata.datasize: 30000000000
該參數表示生成的多少行數據,結合源碼可知,隨機生成每行數據大小為100字節,所以為了跟micro.sort總體測試數據量保持一致設置為30000000000。
測試數據:
wordcoun
測試參數調整為:
hibench.dfsioe.mybigdata.read.number_of_files 44704hibench.dfsioe.mybigdata.read.file_size 64 // 64MiBhibench.dfsioe.mybigdata.write.number_of_files 44704hibench.dfsioe.mybigdata.write.file_size 64 // 64MiB
測試的讀寫數據量約為3TB
測試數據:
dfsioe
測試參數調整為:
hibench.dfsioe.mybigdata.read.number_of_files 44704hibench.dfsioe.mybigdata.read.file_size 64 // 64MiBhibench.dfsioe.mybigdata.write.number_of_files 44704hibench.dfsioe.mybigdata.write.file_size 64 // 64MiB
測試的讀寫數據量約為3TB
測試數據:
scan
測試參數調整為:
hibench.scan.mybigdata.uservisits 20000000000hibench.scan.mybigdata.pages 100000000
測試數據:
join
測試參數調整為:
hibench.scan.mybigdata.uservisits 20000000000hibench.scan.mybigdata.pages 100000000
測試數據:
注意: Create rankings和Create uservisits任務同sql.scan,所以忽略
aggregation
測試參數調整為:
hibench.scan.mybigdata.uservisits 20000000000hibench.scan.mybigdata.pages 100000000
測試數據:
注意: Create rankings和Create uservisits任務同sql.scan,所以忽略
總體來看,基于us3目前的方案相對原生分布式存儲hdfs有一定差距,但基于us3vmds的方案在大部分場景性能有了大幅提高,后續也會不斷改進,推出媲美甚至超越hdfs的方案。
雖然us3vmds目前確實能給基于US3存儲的大數據方案帶來進一步性能提高,但us3vmds目前的設計還是有不少缺陷,主要在體現在幾個方面:
單點架構使得可靠性降低。不過us3vmds是無狀態的設計,如果由于某些原因導致us3vmds退出,不會導致索引的丟失,只要快速重啟,還是能根據us3的索引重建目錄樹物化視圖,一般在服務過程中us3vmds退出10s內,不會對大數據任務產生影響,因為us3大數據適配器工具對錯誤做了一定時長的重試。只要及時保證us3vmds處于啟動狀態,就可以使得因us3vmds異常退出導致的可靠性問題大幅減少。當然由于us3vmds所在節點故障需要遷移而導致us3vmds需要更新服務地址影響時延相對會長,這個時候可以簡單的修改配置,暫時改回只使用us3大數據適配器的方案。某些操作不能保證原子性。比如移動目錄、刪除目錄,在us3vmds中的操作會變成批量操作這個目錄前綴下的相關文件,中間任何一個文件即使加上了重試邏輯也可能會失敗。目前us3vmds對這類問題只通過盡可能的重試來解決。非大數據集群寫入數據,us3vmds索引不能保證強一致性。由于通過非us3大數據適配器方式(比如SDK)寫入us3的數據不能及時通知us3vmds,所以us3vmds只能依賴大數據集群主動觸發同步操作去同步最新索引,只能做到弱一致性。通過us3vmds方案中us3大數據適配器方式寫入us3的數據,由于在寫入us3成功后會主動通知us3vmds,所以us3vmds能及時更索引信息,做到強一致性。
因此目前us3vmds不滿足ACID,只滿足BASE。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/127233.html
摘要:本次大會上,優刻得基于自研的全新存儲底層架構推出新一代對象存儲產品。推出新一代自研存儲引擎,持續降低存儲成本優刻得在今年月推出了元月的歸檔存儲產品,打破了存儲領域降本的邊界。伴隨著5G、大數據的廣泛應用,帶來了數據量的爆炸式增長。根據IDC預測,2025年全球數據總量將達到驚人的175ZB。數據存儲在未來的數字化時代將面臨更多挑戰:每秒鐘存儲數據寫入性能、數據云端存儲可靠性、數據存儲成本增高...
摘要:概覽概覽產品簡介產品概述功能概覽產品優勢使用限制存儲類型地域和域名計量計費產品價格計費規則欠費處理計費案例快速上手開通服務開始使用控制臺指南存儲空間日志管理文件管理生命周期靜態網站托管域名管理鏡像回源跨區域復制跨域設置數據分析防盜鏈統計報 概覽產品簡介產品概述功能概覽產品優勢使用限制存儲類型地域和域名計量計費產品價格計費規則欠費處理計費案例快速上手開通 US3 服務開始使用 US3控制臺指南...
摘要:對象存儲產品正式升級為,采用新一代自研存儲引擎,為更多用戶提供安全可靠極致性能成本可控便捷易用的對象存儲服務。穩定可用性提升倍,帶寬提升倍,提升倍,歸檔存儲型對象存儲價格降低。UCloud對象存儲產品UFile正式升級為US3,采用新一代自研存儲引擎,為更多用戶提供安全可靠、極致性能、成本可控、便捷易用的對象存儲服務。US3穩定可用性提升5倍,帶寬提升2倍,IOPS提升10倍,歸檔存儲型對象...
摘要:修復了寫入過程中可能出現的進程中斷的問題。修復了在對象存儲中創建同名的目錄和文件,會顯示兩個目錄的問題修復了初始化分片上傳失敗會阻塞的問題 歷史版本本篇目錄US3FS V1.6.7US3FS V1.6.6US3FS V1.6.5US3FS V1.6.4US3FS V1.6.3US3FS V1.6.2US3FS V1.6.0US3FS v1.5.5US3FS v1.5.4US3FS v1.5....
導語▼上篇講到產品的一致性是產品的金鑰匙,通過對一致性的設計可以使產品在品牌標識、用戶使用和開發效率等方面得到提升。交互設計對于產品有哪些價值呢?本質是站在多維角度挖掘,分析,梳理,提煉用戶更深層?的?需求和痛點?,利用交互理論方法,保證產品的設計完整性,產品用戶體驗的流暢性,產品商業價值的最大化。What|什么是交互設計?我們的日常生活中處處可見交互行為,從使用淘寶購物到掃場所碼向防疫人員展示核...
閱讀 423·2024-11-07 18:25
閱讀 130617·2024-02-01 10:43
閱讀 922·2024-01-31 14:58
閱讀 885·2024-01-31 14:54
閱讀 82901·2024-01-29 17:11
閱讀 3196·2024-01-25 14:55
閱讀 2032·2023-06-02 13:36
閱讀 3121·2023-05-23 10:26
极致性价比!云服务器续费无忧!
Tesla A100/A800、Tesla V100S等多种GPU云主机特惠2折起,不限台数,续费同价。
NVIDIA RTX 40系,高性价比推理显卡,满足AI应用场景需要。
乌兰察布+上海青浦,满足东推西训AI场景需要