搭建私有云平臺：Hadoop還是選擇OpenStack？

MonoLog 2022-06-28 17:34 回答0 收藏2

問題描述：搭建私有云平臺選擇Hadoop還是OpenStack? 搭建一個(gè)私有云平臺，主要是用于機(jī)器人工作站的各種傳感器、相機(jī)等傳感設(shè)備對工業(yè)作業(yè)現(xiàn)場環(huán)境數(shù)據(jù)的采集和實(shí)時(shí)處理，為機(jī)器人的運(yùn)動(dòng)提供決策。傳感器采集的數(shù)據(jù)量大且該系統(tǒng)希望實(shí)時(shí)性較好，所以希望數(shù)據(jù)處理等過程快而準(zhǔn)確。最近在調(diào)研各種組件各種工具，但是資料太多眼花繚亂了。據(jù)我目前了解的話，Hadoop更側(cè)重的是分布式存儲和計(jì)算，而OpenStack則是對平臺和虛擬機(jī)的管理，不知道這樣理解對不對？那么具體到系統(tǒng)平臺的實(shí)際設(shè)計(jì)實(shí)現(xiàn)上，該如何選擇呢?

收藏問題

2條回答

TigerChain

回答于2022-06-28 17:34

首先建議題主描述清楚應(yīng)用場景，否則別人做的方案可能都不符合需求。

就Hadoop和OpenStack的糾結(jié)而言，支撐數(shù)據(jù)分析用前者，做資源管理用后者。

=================補(bǔ)充=============

題主的需求，實(shí)質(zhì)是搭建一個(gè)IoT實(shí)時(shí)大數(shù)據(jù)平臺，而不是一般意義的私有云。IoTa大數(shù)據(jù)平臺除了數(shù)據(jù)采集和結(jié)果反饋，其余部分和一般的大數(shù)據(jù)平臺相差不多。OpenStack長于管理VM資源管理，Hadoop長于批處理，不擅長實(shí)時(shí)處理，所以需要尋找一種更加完善的解決方案。這里推薦考慮Storm或者Apache Flink。

OpenStack是一個(gè)開源的IaaS實(shí)現(xiàn)，由Nova、Cinder、Neutron、Swift、Glance等一系列相互關(guān)聯(lián)的子項(xiàng)目組成，可以理解為云計(jì)算領(lǐng)域的Linux。OpenStack架構(gòu)松耦合，高可擴(kuò)展，能適應(yīng)不同企業(yè)的需求，已經(jīng)成為IaaS私有云事實(shí)標(biāo)準(zhǔn)。國內(nèi)外各大廠都在OpenStack上有很大的投入。當(dāng)然項(xiàng)目成長的同時(shí)，也受到大廠博弈的一些影響，但項(xiàng)目本身就是大家求同存異的結(jié)果，我們相信OpenStack會(huì)在競合中有更美好的未來。

大數(shù)據(jù)平臺可以完全不鳥OpenStack，分布式文件系統(tǒng)有HDFS，資源調(diào)度和管理YARN就行。YARN都已經(jīng)支持Docker，希望細(xì)粒度調(diào)度模式可以考慮Mesos，Mesos提供良好的API，支持很多成熟的框架，不過Mesos不在Hadoop生態(tài)中，這是一個(gè)缺憾。Apache Hadoop能夠以低成本進(jìn)行海量數(shù)據(jù)的多維統(tǒng)計(jì)分析，還是很有優(yōu)勢。

核心流式計(jì)算部分，有Storm、Spark、Flink可以選擇。

Storm編程模型簡單，毫秒級延遲，容錯(cuò)性、擴(kuò)展性和可靠性都比較好，在國內(nèi)有很多團(tuán)隊(duì)采用。不過Storm只是流計(jì)算框架，且不能直接利用YARN。

Apache Spark是和Hadoop一樣流行的開源大數(shù)據(jù)框架，社區(qū)活躍，在流計(jì)算、圖處理、機(jī)器學(xué)習(xí)方面都投入很大，支持對SQL的優(yōu)化，很適合多種大數(shù)據(jù)平臺的需求，不過Spark Streaming本質(zhì)還是批處理，把數(shù)據(jù)流分解成一系列小的RDD，通過時(shí)間窗來控制數(shù)據(jù)塊的大小，有測試說只能支持秒級計(jì)算。

Apache Flink是可擴(kuò)展的批處理和流式數(shù)據(jù)處理的數(shù)據(jù)處理平臺，能夠基于同一個(gè)Flink運(yùn)行時(shí)提供支持流處理和批處理兩種類型應(yīng)用的功能。不同于Spark，F(xiàn)link把批處理當(dāng)初特殊的流處理，并且支持增量迭代，這是非常贊的設(shè)計(jì)，可以快速地處理數(shù)據(jù)密集型和迭代任務(wù)，性能很有保證。不過目前Flink用戶群和社區(qū)還沒有Spark那么強(qiáng)大。但Flink的未來很值得期待，可能需要時(shí)間的沉淀。

Spark和Flink的對比，Apache Flink現(xiàn)在在大數(shù)據(jù)處理方面能夠和Apache Spark分庭抗禮么這個(gè)問題的最佳答案質(zhì)量很棒，轉(zhuǎn)載自知乎，翻譯的這篇文章：Introduction to Apache Flink for Spark Developers : Flink vs Spark

最后，上一張網(wǎng)易猛犸大數(shù)據(jù)平臺架構(gòu)圖，供參考。

評論0 贊同0

加載中...

ChanceWong

回答于2022-06-28 17:34

hadoop適合幾百臺電腦聯(lián)合處理數(shù)據(jù)的大型應(yīng)用，電腦少時(shí)體現(xiàn)不出優(yōu)勢，反而耗費(fèi)資源卻效率不高。

潤乾集算器是個(gè)不錯(cuò)的大數(shù)據(jù)計(jì)算引擎，資源投入很少，性價(jià)比相當(dāng)高，而且開發(fā)語言十分簡潔易懂。目前已在很多企業(yè)大數(shù)據(jù)計(jì)算中得到了應(yīng)用，比如北京銀行、國家電網(wǎng)、油田環(huán)境監(jiān)測數(shù)據(jù)處理等

評論0 贊同0

加載中...

MonoLog

男|

我要關(guān)注我要私信

TA的文章

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

問答專欄Q & A COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

搭建私有云平臺：Hadoop還是選擇OpenStack？

寫回答

2條回答

TigerChain

回答于2022-06-28 17:34

ChanceWong

回答于2022-06-28 17:34

相關(guān)問題