回顧2012,更多開放,更多協(xié)作,更多機會產(chǎn)生。從來沒有一項服務(wù)會將幾乎所有IT、互聯(lián)網(wǎng)、通信技術(shù)整合在一起,沒有合作、開放的心態(tài)就沒有云計算。接下來,將從IaaS、NoSQL與NewSQL、數(shù)據(jù)中心、大數(shù)據(jù)、安全這幾個方面對過去一年作出總結(jié)。
IaaS——群雄追趕AWS
談到IaaS,Google和AWS是公認的業(yè)界最強。AWS是全球?qū)aaS這個business運營的較好的公司,除了技術(shù)領(lǐng)先,還要得益于其多年的B2C領(lǐng)域積累的經(jīng)驗和口碑。而Google的強大在于其對技術(shù)極致的探索,從“三駕馬車”Big Table、GFS和MapReduce,到Pregel、Dremel、Big Query(與之對應(yīng)的還有Twitter的Blobstore、Cloudrea?Impala以及Apache?Drill。),能夠完成跨數(shù)據(jù)中心的數(shù)據(jù)存儲和快速SQL查詢,毫無疑問,這些技術(shù)都是互聯(lián)網(wǎng)巨頭和IaaS服務(wù)商必須要解決的。這背后還需要強大的網(wǎng)絡(luò)拓撲、IDC設(shè)計等等,今年Google一反常態(tài)的公布了數(shù)據(jù)中心內(nèi)部的照片和文檔,雖然信息量不大,但這足夠證明Google在數(shù)據(jù)中心PUE控制方面的自信。
圖:AWS正在與PaaS和SaaS服務(wù)結(jié)合。Redshift大數(shù)據(jù)分析工具,其成本只有Teradata IBM Oracle的十分之一。
說了半天廢話,以下將從:私有與開源、商業(yè)模式探索、國內(nèi)格局三個話題展開:
1、私有與開源
2012年不得不說的開源項目之一OpenStack,這是一個基于ASF 2.0協(xié)議的開源IaaS平臺,說白了,任何一個人通過OpenStack都可以復(fù)制出一個AWS(當然,服務(wù)器、交換機這些還是需要的。)。正因為OpenStack巨大的魅力,包括IBM、HP、Intel、Red Hat、VMware以及國內(nèi)的新浪、華為均先后加入組織。OpenStack對于所有IT和通信廠商而言都是全新的機遇和挑戰(zhàn)。眾所周知,硬件利潤越來越低,而VMware等虛擬化廠商卻“肥的流油”。已經(jīng)打的不可開交HP和Dell都不想錯過重新排定生態(tài)鏈次序的機會,兩者均與Cloud Foundry合作,擴展渠道,并在差異化上下足功夫。
和OpenStack擁有類似功能的開源IaaS平臺還包括CloudStack、OpenNebula和Eucalyptus。這四大開源平臺將與AWS在未來的相當一段時間共同成長。明年,CloudStack將迎來爆發(fā),更有可能成為Apache正式的項目。OpenNebula更顯低調(diào),Eucalyptus則專注在私有云市場。
另外,IBM、HP、VMware等傳統(tǒng)IT廠商私有云或共有云產(chǎn)品并不是真正的IaaS,這也是這些廠商積極投入OpenStack的原因。同時,來自新浪、趣游等本土公司也在積極參與到OpenStack的貢獻和交流。
2、商業(yè)模式探索
AWS是全球最成功的IaaS服務(wù)商,雖然占Amazon整體的營收比例依然很小,外界仍十分看好AWS的未來。在Amazon披露的財報中,沒有對AWS業(yè)務(wù)的營收數(shù)據(jù)做具體描述,十分低調(diào)。只能看到:包括AWS和內(nèi)容增值服務(wù)的業(yè)務(wù),一直處于增長。包括分析師、投資公司的報告普遍認為,今年AWS的營收將達到10-15億美元,根據(jù)一般的經(jīng)驗判斷,這些數(shù)據(jù)的可靠性是比較高的。
之所以AWS能夠成為IaaS的領(lǐng)軍者,離不開其多年在B2C領(lǐng)域積累的經(jīng)驗和口碑,這點是Google所不具備的,國內(nèi)的阿里與AWS基因最相似。同時,AWS、OpenStack的成員們都在緊密與PaaS或SaaS服務(wù)商合作。只有與用戶最接近,利潤率才越高。如果把Saleforce看作IaaS,無疑是最賺錢的IaaS平臺。
3、國內(nèi)的IaaS格局
相對于國外的幾大陣營和發(fā)展趨勢,國內(nèi)的情況更為復(fù)雜。割裂的網(wǎng)絡(luò)、不透明的準入機制、電信運營商的壟斷、信用卡支付壁壘、用戶習(xí)慣的培養(yǎng)等等,所有這些問題一個問題解決不了都可能制約IaaS運營商的發(fā)展。目前國內(nèi)兩大IaaS平臺分別是阿里云和盛大云,阿里的優(yōu)勢在前文已經(jīng)提到,壟斷了大量珍貴的BGP網(wǎng)絡(luò),先天優(yōu)勢明顯。
微軟Azure與世紀互聯(lián)的合作可以看作國外IaaS平臺進入大陸的起點,這也讓AWS進軍國內(nèi)充滿了更多期待。
第二梯隊中Ucloud、Linkcloud、西部數(shù)碼、華云等比較有代表性。當然,還有一個隱蔽的企業(yè)華為。全球電信運營商的設(shè)備大部分由華為提供,依靠多年積累的BOSS系統(tǒng)支持經(jīng)驗,以及與運營商的良好關(guān)系,華為IaaS上線只待更好的時機。但關(guān)鍵在于,華為幾乎沒有B2C的經(jīng)驗,這是華為必須解決的難題。
新時代的數(shù)據(jù)庫
在過去一年中隨著數(shù)據(jù)體積的爆發(fā)性增長,大數(shù)據(jù)技術(shù)也越發(fā)的炙手可熱。俗話說工欲善其事必先利其器——為了實現(xiàn)對越來越多數(shù)據(jù)的挖掘和分析,2012無疑是絞盡腦汁的一年。好吧,言歸正傳。下面分幾個方面簡單的討論一下2012年的數(shù)據(jù)庫發(fā)展趨勢。
SQL 、NoSQL、NewSQL
隨著NoSQL這場運動最終被定義為Not Only SQL,數(shù)據(jù)庫領(lǐng)域的人們也確定了NoSQL不是SQL的取代——更應(yīng)該作為對數(shù)據(jù)庫領(lǐng)域非關(guān)系數(shù)據(jù)類型補充。而隨著各個廠商以各種方式在NoSQL數(shù)據(jù)庫產(chǎn)品中添加對SQL的支持,在面對大數(shù)據(jù)帶來的挑戰(zhàn)上也終于達成了“兩手抓,兩手硬”的共識。而就目前的市場調(diào)研來看10gen的MongoDB仍然是更受歡迎的NoSQL數(shù)據(jù)庫。然而NoSQL的精髓在于百花齊放,用細分的技術(shù)解決各種大數(shù)據(jù)所帶來的挑戰(zhàn);所以MongoDB不能完全的代表NoSQL。期間Neo4j等產(chǎn)品也是擁有了一定的擁護度。
再看NewSQL,NewSQL概念的存在更像是對早期NoSQL的補充,這里需要先看一下NoSQL以及NewSQL的設(shè)置宗旨:NoSQL數(shù)據(jù)庫,旨在滿足分布式系統(tǒng)結(jié)構(gòu)的可擴展性需求和/或無模式數(shù)據(jù)管理的需求;NewSQL數(shù)據(jù)庫,旨在滿足分布式體系結(jié)構(gòu)的需求,或者提高性能以便不必再進行橫向擴展。這就意味著在NoSQL數(shù)據(jù)庫發(fā)展為Not Only SQL的大趨勢下,NewSQL與NoSQL之間的界限就變的越發(fā)的模糊。所以再去強調(diào)NewSQL或者是NoSQL的意義顯然已經(jīng)不大。
數(shù)據(jù)庫發(fā)展的趨勢
在這個數(shù)據(jù)的年代,更多的數(shù)據(jù)勝過更好的算法已經(jīng)被大多數(shù)人所接受。然而面對數(shù)據(jù)這座寶山卻沒有對應(yīng)的處理和分析技術(shù),無疑只能望梅止渴。隨著數(shù)據(jù)能采集到數(shù)據(jù)體積的暴增,數(shù)據(jù)的實時處理無疑成為了重中之重。這里我們不得不提的就是數(shù)據(jù)處理工具。
快,還要更快
圖:Apache S4分布式流數(shù)據(jù)處理平臺
說到數(shù)據(jù)分析工具就不得不提到Apache Hadoop,它的開源和強大的批處理能力得到了眾多大數(shù)據(jù)玩家的喜愛。然而隨著數(shù)據(jù)的爆發(fā)性增長一些數(shù)據(jù)分析產(chǎn)品相繼問世,比如:Dremel、Storm、Impala、Apache S4和Drill;而他們共有的顯著特性就是優(yōu)于Hadoop幾倍甚至幾十倍的查詢能力。這無疑說明了各個組織及機構(gòu)把數(shù)據(jù)分析和處理的關(guān)鍵聚焦于實時之上,并開始著手解決望梅止渴的窘境。
是的數(shù)據(jù)的處理和分析需要快,那么數(shù)據(jù)的存儲呢?
可靠還要更可靠
眾所周知,Hadoop及HBase、HDFS其實是在Google的MapReduce、BigTable和GFS三篇論文的啟發(fā)下開發(fā)出來的。而近年來Google的基礎(chǔ)機構(gòu)又有了一波新的補充及更新——Caffeine、Pregel和Dremel。然而Google的腳步并不僅如此,Google在OSDI 2012上公布了分布數(shù)據(jù)庫Spanner。這是第一個擴展到世界規(guī)模的數(shù)據(jù)庫系統(tǒng),并支持了外部一致性分布式事務(wù)。然而外部事務(wù)強一致性的保障以及全球及的分布,無疑確定了人們對數(shù)據(jù)庫可靠性的要求越來越高。也只有全球及數(shù)據(jù)轉(zhuǎn)移才能保證大范圍自然災(zāi)害下的強可靠性,比如這次颶風(fēng)Sandy的過境。
數(shù)據(jù)中心在這一年中有很多精彩的內(nèi)容,比如亞馬遜三番五次宕機、谷歌歷經(jīng)7年終于開放其數(shù)據(jù)中心等等。我們在接下來的內(nèi)容里將為您盤點幾個重要公司在數(shù)據(jù)中心方面的現(xiàn)狀、發(fā)展、技術(shù)等內(nèi)容。
圖:Google Concil Bluffs數(shù)據(jù)中心內(nèi)部
亞馬遜
亞馬遜的數(shù)據(jù)中心歷來都很神秘,對其的報道也很少很少,大家的目前都集中在它的云服務(wù)上,但這離不開其龐大的數(shù)據(jù)中心支持。去年年底,亞馬遜已經(jīng)增加了其第七個云數(shù)據(jù)中心,作為全球數(shù)據(jù)中心容量擴張的一部分。新設(shè)施位于美國俄勒岡州博德曼,在哥倫比亞河沿岸采用低成本的水力發(fā)電。除了廉價的水電,博德曼位于波特蘭市以東80英里,提供了充足的冷卻水供應(yīng)。現(xiàn)代數(shù)據(jù)中心安裝較低數(shù)量的空調(diào),并經(jīng)常使用某種形式的蒸發(fā)來冷卻外界空氣,讓其在數(shù)據(jù)中心流通。通過這種方式,兩排服務(wù)器虹吸釋放出的暖空氣到熱通道,在熱通道熱空氣被收集,強大的風(fēng)扇將其排出建筑物。熱通道的溫度為華氏95-100度。
由于經(jīng)濟惡化,亞馬遜在2009年停止對博德曼設(shè)施的建設(shè),但在今年早先時候恢復(fù)工作并完成了中心的配置。并在十月初開始運營,11月9日亞馬遜開始提供服務(wù),設(shè)置標準為IaaS:EC2的彈性計算云,簡單存儲服務(wù),簡單的數(shù)據(jù)庫服務(wù),亞馬遜簡單隊列服務(wù),以及其他。
6月15日,亞馬遜北維吉尼亞的數(shù)據(jù)中心遭遇停電,由此導(dǎo)致亞馬遜網(wǎng)絡(luò)服務(wù)AWS中斷約6個小時,影響波及亞馬遜彈性計算EC2、亞馬遜關(guān)系數(shù)據(jù)庫服務(wù)以及AWS Elastic Beanstalk。今年的10月,亞馬遜再次發(fā)生宕機事故,導(dǎo)致用戶信心流失不少。最后再圣誕節(jié)平安夜的時候,亞馬遜AWS位于美國東部的數(shù)據(jù)中心發(fā)生故障,其彈性負載均衡服務(wù)(Elastic Load Balancing Service)中斷,導(dǎo)致Netflix和Heroku受到影響,不過作為Netflix的競爭對手,Amazon Prime Instant Video并未受到影響。
Facebook選擇俄勒岡州的高度沙漠化地區(qū)建立新數(shù)據(jù)中心,這里的夜晚是涼爽的,即使是在夏天。該設(shè)施坐落于尤金以東100英里,并成為Facebook四月聲稱要運行一個高效的數(shù)據(jù)中心來支撐其數(shù)以百萬計在線應(yīng)用的基礎(chǔ)。 Facebook在其開放計算項目中發(fā)表了服務(wù)器架構(gòu)的細節(jié),作為它創(chuàng)造更高效數(shù)據(jù)中心的承諾的標志。
Facebook透露,開源服務(wù)器的有效率達到94.5%,這個成績離不開整個數(shù)據(jù)中心的供電和散熱系統(tǒng)的幫助。和Facebook在Virginia和California的數(shù)據(jù)中心相比,Prineville的數(shù)據(jù)中心電力節(jié)省38%,成本降低24%。數(shù)據(jù)中心的PUE平均在1.6到1.8,然而Facebook的Prineville數(shù)據(jù)中心的PUE則達到在驚人1.05到1.10之間。
谷歌
過去,數(shù)據(jù)中心被Google視為核心技術(shù),因此Google對自己數(shù)據(jù)中心的細節(jié)總是三緘其口。一般而言,每當Google公開一項技術(shù),意味著Google已經(jīng)掌握了更先進的技術(shù)。即便如此,已經(jīng)被Google“解密”的技術(shù)依然值得深入研究、學(xué)習(xí)。谷歌于今年的10月份,終于向媒體開放了它的數(shù)據(jù)中心,并發(fā)布了一些照片。
通過照片我們可以看到,谷歌的數(shù)據(jù)中心是一個巨大的房間,而不是被分成若干獨立的區(qū)域。完全采用風(fēng)道設(shè)備,徹底避免服務(wù)器或機架產(chǎn)生的空氣泄露。冷空氣直接流入服務(wù)器,熱空氣并不會流回,而是通過熱交換器將熱量傳遞出去。空氣流動控制格外重要,空氣流動經(jīng)濟性(air-side economization)是提升散熱效率的關(guān)鍵。提高空氣流動經(jīng)濟性的關(guān)鍵是讓冷空氣流入服務(wù)器,而不是讓服務(wù)器排出熱空氣。
Google把整個建筑視為風(fēng)道的一部分,并沒有完全棄用水冷系統(tǒng),而是將其升級進化,從而提高水冷系統(tǒng)的效率。固然直通到機架的水冷系統(tǒng)擁有高效率,但任何一個空氣流動經(jīng)濟系統(tǒng)都可以屏蔽戶外的熱空氣,并讓冷空氣長途跋涉輸送給服務(wù)器。然而,隨著服務(wù)器密度不斷增加,單位空間的功率也隨之增長,水冷系統(tǒng)就十分必要了。
在微軟Azure宕機的同一天,Google Gmail用戶使用的Gtalk中斷了近5小時。Gtalk服務(wù)的控制面板頁為用戶提供了因服務(wù)中斷所導(dǎo)致的升級。Google對此也做出了道歉“請相信google是極度重視系統(tǒng)可靠性的,我們會更加注意提升我們系統(tǒng)的性能”。
GAE是用于開發(fā)和托管WEB應(yīng)用程序的平臺,數(shù)據(jù)中心由google管理,中斷時間是10月26日,持續(xù)4小時,因為突然變得反應(yīng)緩慢,而且出錯。受此影響,50%的GAE請求均失敗。google表示沒有數(shù)據(jù)丟失,應(yīng)用程序行為也有備份可以還原。google表示他們正在加強其網(wǎng)絡(luò)服務(wù)以應(yīng)對網(wǎng)絡(luò)延遲問題,“我們已經(jīng)增強了流量路由能力,并調(diào)整了配置,這些將會有效防止此類問題再次發(fā)生”。
微軟
微軟今年花了1.3億美元擴展了其位于都柏林的數(shù)據(jù)中心,本次投資將新增11.2萬平方英尺第4代設(shè)備。該數(shù)據(jù)中心全年充分利用風(fēng)能冷卻設(shè)備,降低能耗,減少微軟碳足跡。每年能耗高峰時期平均電源使用效率PUE為1.25。微軟稱,設(shè)備99%的剩余能耗將實現(xiàn)循環(huán)使用,水能耗僅相當于同等大小的數(shù)據(jù)中心水能耗的1%。此外,微軟計劃在懷俄明州夏延 (Cheyenne)建立一個新的數(shù)據(jù)中心,預(yù)計在2013年春季開工。
新的數(shù)據(jù)中心將幫助微軟承載更多的產(chǎn)品,而不是銷售客戶在他們自己的計算機上安裝的軟件。微軟除了提供它的PaaS產(chǎn)品、Azure、去年開始銷售的Office 365、提供的電子郵件托管和協(xié)作服務(wù)外,它也希望能增長其Bing搜索量,這就要求數(shù)據(jù)中心為用戶服務(wù)搜索結(jié)果。
2月28日,由于“閏年bug”導(dǎo)致微軟Azure在全球范圍內(nèi)大面積服務(wù)中斷,中斷時間超過24小時。雖然微軟表示該軟件BUG是由于閏年時間計算不正確導(dǎo)致,但這一事件激起了許多用戶的強烈反應(yīng),許多人要求微軟為此做出更合理詳細的解釋。
7月26日,Azure再次故障,導(dǎo)致西歐用戶受影響。微軟對故障的解釋是“由于錯誤配置了網(wǎng)絡(luò)設(shè)備導(dǎo)致了西歐區(qū)域的服務(wù)網(wǎng)絡(luò)中斷”。此次中斷持續(xù)2.5小時。微軟表示此次事故中并無用戶數(shù)據(jù)丟失。
2013發(fā)展趨勢
今年的數(shù)據(jù)中心發(fā)展道路可以說很順利,F(xiàn)acebook、谷歌紛紛向媒體公開其數(shù)據(jù)中心,這表明未來的數(shù)據(jù)中心將是越來越開放的。但我們也要看到發(fā)展中遇到的一些問題,AWS今年在運行過程中三番五次的宕機,這反映出數(shù)據(jù)中心的安全運行問題值得迫切關(guān)注。還有一個趨勢就是清潔能源在數(shù)據(jù)中心運行中占的比重越來越大,風(fēng)能、太陽能等清潔能源正被更多的數(shù)據(jù)中心所使用。最后,隨著科學(xué)技術(shù)向亞太地區(qū)轉(zhuǎn)移,以及亞太地區(qū)特有的人力資源優(yōu)勢,我們可以想象到隨著時間的推移更多的數(shù)據(jù)中心將向亞太地區(qū)遷移。
2012年,大數(shù)據(jù)的發(fā)展勢頭可謂“如火如荼”。因為移動互聯(lián)網(wǎng)和云計算的崛起,數(shù)據(jù)量的激增讓很多企業(yè)看到了無限的商機。很多人談到大數(shù)據(jù)時,首先想到的就是Hadoop,此時很多“專業(yè)人士”就會告訴你,Hadoop不是大數(shù)據(jù)的全部。當然,我們必須認識到Hadoop自身還有很多局限性。不過這也側(cè)面說明:Hadoop是大數(shù)據(jù)的“超級明星”!
在2012年1月1日,CSDN對Hadoop的開篇之作就是“Hadoop 1.0正式發(fā)布”,歷時六年,這一個較高級Apache開源項目終于發(fā)布,雅虎是其最主要的貢獻者,它也是由前雅虎開發(fā)者Doug Cutting(也是Nutch和Lucene的創(chuàng)始人)開發(fā)的分布式計算平臺,受Google的MapReduce和GFS啟發(fā),主要被應(yīng)用于分析大容量數(shù)據(jù)集。Hadoop被eBay、Facebook、Yahoo、AOL和Twitter等互聯(lián)網(wǎng)公司廣泛采用,今年微軟、IBM和甲骨文等也都紛紛擁抱了Hadoop。
Hadoop具備低成本和前所未有的高擴展性,已被公認為是新一代的大數(shù)據(jù)處理平臺。就像30年前SQL出現(xiàn)一樣,Hadoop正帶來了新一輪的數(shù)據(jù)革命。如今Hadoop已從初出茅廬的小象變成了行業(yè)的巨人,但Hadoop仍需繼續(xù)完善。不過今天,Hadoop已經(jīng)從初出茅廬的小象變身行業(yè)巨人。
Hadoop相關(guān)技術(shù)的那點事
技術(shù)干貨!如果想深入理解Hadoop集群和網(wǎng)絡(luò),那么不妨看一下Dell企業(yè)技術(shù)專家Brad Hedlund撰寫的文章,他闡述了Hadoop主要的任務(wù)部署分為3個部分,分別是:Client機器,主節(jié)點和從節(jié)點。主節(jié)點主要負責Hadoop兩個關(guān)鍵功能模塊HDFS、Map Reduce的監(jiān)督。當Job Tracker使用Map Reduce進行監(jiān)控和調(diào)度數(shù)據(jù)的并行處理時,名稱節(jié)點則負責HDFS監(jiān)視和調(diào)度。從節(jié)點負責了機器運行的絕大部分,擔當所有數(shù)據(jù)儲存和指令計算的苦差。每個從節(jié)點既扮演者數(shù)據(jù)節(jié)點的角色又沖當與他們主節(jié)點通信的守護進程。守護進程隸屬于Job Tracker,數(shù)據(jù)節(jié)點在歸屬于名稱節(jié)點。不過如果發(fā)現(xiàn)部署Hadoop還有困難,那么你就需要關(guān)注管理Hadoop集群的5大工具,它們就是Apache Ambari、Apache Mesos、Platform MapReduce、StackIQ Rocks+ Big Data以及Zettaset Orchestrator。
眾所周知,Google在2003年到2004年公布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文,這也成為后來云計算發(fā)展的重要基石,如今Google在后Hadoop時代的新“三駕馬車”——Caffeine、Pregel、Dremel再一次影響著全球大數(shù)據(jù)技術(shù)的發(fā)展潮流。?
不過,CSDN總編劉江曾經(jīng)撰文:有媒體稱之為后Hadoop時代的三駕馬車Caffeine、Pregel和Dremel。當然,這種說法有混淆了輩份之嫌,而且并不十分科學(xué)。Pregel是圖數(shù)據(jù)庫,據(jù)說在MapReduce之外擔負了另外20%的數(shù)據(jù)處理任務(wù),與三大論文之間沒有承繼關(guān)系。其實某種程度上,Caffeine是MapReduce的演進,在今年OSDI上大火的Spanner可以視為BigTable的演進,而Dremel則是新出的。
Hadoop的相關(guān)產(chǎn)品
2012年10月24日,實時運營信息軟件供應(yīng)商Splunk在Strata Conference + Hadoop World上推出Splunk Hadoop Connect和Splunk App for HadoopOps。前者實現(xiàn)與Hadoop相集成,并且能夠與其進行互動,后者監(jiān)控超越Hadoop本身的集群資源,這些都意味著Hadoop外延應(yīng)用越來越豐富。
以此同時,大數(shù)據(jù)技術(shù)會議Strata Conference + Hadoop World同樣傳來消息,Cloudera發(fā)布了實時查詢開源項目Impala 1.0 beta版,稱比原來基于MapReduce的Hive SQL查詢速度提升3~90倍。
再看一下微軟,他已經(jīng)將Hadoop作為自身大數(shù)據(jù)戰(zhàn)略的核心。微軟此舉的理由就是看中了Hadoop的潛力,在大數(shù)據(jù)領(lǐng)域Hadoop已經(jīng)成為分布式數(shù)據(jù)處理的標準。通過集成Hadoop技術(shù),微軟也允許客戶訪問快速增長的Hadoop生態(tài)系統(tǒng)。 讓我們一起走進“Microsoft Azure Hadoop特性一覽”。
目前Facebook Hadoop集群內(nèi)的HDFS物理磁盤空間承載超過100PB的數(shù)據(jù)(分布在不同數(shù)據(jù)中心的100多個集群)。由于HDFS存儲著Hadoop應(yīng)用需要處理的數(shù)據(jù),因此優(yōu)化HDFS成為Facebook為用戶提供高效、可靠服務(wù)至關(guān)重要的因素。Facebook公開其Hadoop與Avatarnode代碼——有效解決Namenode的頑疾。
Hadoop領(lǐng)域的那些大牛們
其實在Hadoop領(lǐng)域有很多傳奇人物,先說說Hortonworks的CTO Eric Baldeschwieler,Eric在2006年毅然投入雅虎Apache Hadoop項目的懷抱,將其從20個節(jié)點的原型系統(tǒng)發(fā)展為42000個節(jié)點的服務(wù)。而后,當雅虎決定全力支持Apache Hadoop項目,并于2011年7月成立新公司Hortonworks時,Eric當之無愧地成為首任CTO。作為資深技術(shù)人士,但當CTO的Eric感覺自己面臨了諸多挑戰(zhàn)。但他對Hadoop的前景非常樂觀,“大家多貢獻一點,Hadoop將會創(chuàng)造奇跡。”
根據(jù)目前的狀況來看,Hadoop作為企業(yè)級數(shù)據(jù)倉庫體系結(jié)構(gòu)核心技術(shù),在未來的數(shù)年中將會保持持續(xù)增長的勢頭。下一代的MapReduce節(jié)點數(shù)將從目前的4000增加到6000-10000,其次并發(fā)的任務(wù)數(shù)從目前的40000增加到100000。
Hadoop不是萬能的
雖然Hadoop有很多忠實的擁護者。畢竟它可以輕而易舉地處理PB級別的數(shù)據(jù),它可以將運算擴展到數(shù)千個節(jié)點的分布式計算能力,它也具有存儲和加載數(shù)據(jù)的靈活性。但在經(jīng)歷過一系列的探索與使用之后,你會發(fā)現(xiàn),Hadoop也有自己的軟肋,下面列舉了為什么不使用Hadoop做數(shù)據(jù)分析的原因:
不過更為諷刺的是,Hadoop較大的缺點之一就是其較大的優(yōu)勢所在——分布式文件系統(tǒng)(HDFS)。現(xiàn)在越來越多想要取代HDFS的選項證明了HDFS并不是適合所有的領(lǐng)域。一些Hadoop用戶對于性能、可用性和企業(yè)級功能有嚴格的要求,而對直連存儲(DAS)架構(gòu)并不熱衷。而關(guān)注可用性的用戶一定特別關(guān)注方方面面,比如絕不會使用沒有內(nèi)建高可用性名稱節(jié)點(High Availability NameNode)的舊版本。這里就有8項產(chǎn)品(或方案)聲稱可以取代HDFS:Cassandra (DataStax)、CEPH、Dispersed Storage Network (Cleversafe)、GPFS(IBM)、Isilon (EMC)、Lustre、MapR File System以及NetApp Open Solution for Hadoop。
Hadoop的輝煌還能延續(xù)多久?
Hadoop的靈魂是MapReduce。但是面對數(shù)據(jù)的爆炸性增長,谷歌的工程師Jeff Dean和Sanjay Ghemawat架構(gòu)并發(fā)布了兩個開創(chuàng)性的系統(tǒng):GFS和谷歌MapReduce(GMR)。前者是一個出色而實用的解決方案-使用常規(guī)的硬件擴展并管理數(shù)據(jù),后者同樣輝煌,造就了一個適用于大規(guī)模并行處理的計算框架。不過一個有趣的現(xiàn)象是,MapReduce在谷歌已不再顯赫。當企業(yè)矚目MapReduce的時候,谷歌好像早已進入到了下一個時代。事實上,我們談?wù)摰倪@些技術(shù)早就不是新技術(shù)了,MapReduce也不例外。
盡管當前大數(shù)據(jù)技術(shù)的核心依然是Hadoop,但谷歌卻已經(jīng)為我們展現(xiàn)了許多更先進的大數(shù)據(jù)技術(shù)。谷歌開發(fā)這些技術(shù)的本意并不是要立刻拋棄掉MapReduce,但毫無疑問這是未來大數(shù)據(jù)技術(shù)的趨勢。盡管已經(jīng)出現(xiàn)了上述大數(shù)據(jù)技術(shù)的開源實現(xiàn),但我們不禁要問,Hadoop的輝煌還能延續(xù)多久?
基于Hadoop的改進以及的成果
圍繞Hadoop,產(chǎn)業(yè)鏈更加清晰。十月或許是大數(shù)據(jù)歷史上值得標注的一個月,因為Hadoop會被重新定義:既可以是大數(shù)據(jù)批量處理的一個研究框架,也可以是結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)大規(guī)模并行分析數(shù)據(jù)高速的發(fā)動機,交互分析的產(chǎn)品。Birst、Splice Machine和Teradata這三家企業(yè)的產(chǎn)品從外延提升了Hadoop的應(yīng)用范疇。
接下來,就要說說一些常用的開源工具了。首先看看Storm,這是我們經(jīng)常用的一個非常有效的開源實時計算工具,它由Twitter開發(fā),通常被比作“實時的Hadoop”。然而Storm遠比Hadoop來的簡單,因為用它處理大數(shù)據(jù)不會帶來新老技術(shù)的交替。當然對比Hadoop的批處理,Storm是個實時的、分布式以及具備高容錯的計算系統(tǒng)。同Hadoop一樣Storm也可以處理大批量的數(shù)據(jù),然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時;也就是說,所有的信息都會被處理。Storm同樣還具備容錯和分布計算這些特性,這就讓Storm可以擴展到不同的機器上進行大批量的數(shù)據(jù)處理。
不過說到Twitter,就不得不提起近期剛剛發(fā)布的Blobstore圖片存儲系統(tǒng),是由Twitter開發(fā)的一個低成本和可擴展的的存儲系統(tǒng),可以用來存儲圖片以及其他的二進制對象(稱為“blob”)。不過令人遺憾的是,Blobstore并不是一個開源工具。
不過我們還有其他的選擇,F(xiàn)acebook最近在他們官方Github上發(fā)布了Corona的開源版本,聲稱這是下一代MapReduce,他們馬上將用這一新技術(shù)替代他們的Hadoop系統(tǒng)中的MapReduce。其實Corona就是一個取代MapReduce用來調(diào)度Hadoop Job的新的系統(tǒng)。其目的是為了更好的利用集群的資源,同時能夠讓Hadoop的應(yīng)用范圍更廣。
還有上文提到的Cloudera發(fā)布了實時查詢開源項目Impala。多款產(chǎn)品實測表明,比原來基于MapReduce的Hive SQL查詢速度提升3~90倍。雖然Impala是Google Dremel的模仿,但在SQL功能上青出于藍勝于藍。
大數(shù)據(jù)面臨的一個很大的問題是大多數(shù)分析查詢都很緩慢且非交互式。Google的Dremel能以極快的速度處理網(wǎng)絡(luò)規(guī)模的海量數(shù)據(jù)。據(jù)谷歌的研究報告顯示,Dremel能以拍字節(jié)(petabyte,PB,1PB等于1024TB)的數(shù)量級來進行查詢,而且只需幾秒鐘時間就能完成。而其對應(yīng)的開源版本就是Drill。 Drill與MapReduce相輔相成。在谷歌,數(shù)以千計的工程師每天都在使用Dremel和MapReduce,未來也將有著更多的人來使用Drill與MapReduce。如果想了解的更多,可能你還需要看看Google Dremel?與 Apache Hadoop的對比篇。
隨著IT技術(shù)本身的發(fā)展和更加深入廣泛的生活應(yīng)用,讓我們先盤點下2012年計算機安全上的大事件:
隨著云計算和大數(shù)據(jù)技術(shù)的成熟,對于的安全技術(shù)也在逐漸發(fā)展,下面就一些熱門的云安全技術(shù)做下盤點:
策略
以往的安全解決方案就是一套殺毒軟件,一套安全設(shè)施再加一套安全體系。如今,在云背景下安全早已經(jīng)上升到企業(yè)戰(zhàn)略這個高度,那么面對云計算,對企業(yè)在策略上的變化做下盤點:
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/4019.html
摘要:國內(nèi)領(lǐng)頭企業(yè)金蝶,年上半年收入億元。金蝶自年轉(zhuǎn)型企業(yè)云服務(wù)開始,云服務(wù)營收占比逐年上漲。政府推動企業(yè)上云,應(yīng)用迎來機會年月,政府頒發(fā)了推動企業(yè)上云實施指南年,提出到年,云計算要在企業(yè)生產(chǎn)經(jīng)營管理中的應(yīng)用廣泛普及,全國新增上云企業(yè)萬家。經(jīng)常有人問,SaaS行業(yè)有前途嗎?先看個例子。P圖鼻祖Photoshop,大家都知道吧。打造Photoshop的Adobe公司,2018全年營收達高達90.3 ...
摘要:,普通表格近日,兩位云計算高管離職,此次離開距離他們加入這個公司只有一年左右時間。是兩位離職高管之一,這一消息已經(jīng)從發(fā)言人那里得到確認。走了之后,或?qū)⒉扇⌒碌牟呗浴? 近日,兩位SAP云計算高管離職,此次離開距離他們加入這個公司只有一年左右時間。這兩位高管都是跟隨Ariba的被收購而進入SAP,2012年5月,SAP以 43億美元收購Ariba。 Bob Calderon...
摘要:有市場分析機構(gòu)預(yù)測,年國內(nèi)公有云服務(wù)市場規(guī)模將超過億元,增速超過。更老牌的科技巨頭華為在大會上明確表示,未來發(fā)展要構(gòu)建云生態(tài)戰(zhàn)略,主打行業(yè)云,以業(yè)務(wù)為主,每年在業(yè)務(wù)的投資將不低于億美元。 2015年,云計算產(chǎn)業(yè)廣被熟知。更為重要的是,以往言必稱亞馬遜、谷歌、微軟的云計算市場,由于大批國產(chǎn)廠商的崛起而備具中國特色:阿里云成阿里巴巴增長最快業(yè)務(wù);騰訊云、金山云(聯(lián)合小米)、百度云全力上陣;甚至...
摘要:從技術(shù)的角度來看,當前國內(nèi)云計算尚處于初級的階段,在鄂爾多斯市構(gòu)建一個健康的云計算產(chǎn)業(yè)鏈,不僅需要對技術(shù)有清晰的認識,而且必須嚴把安全關(guān)口。而技術(shù)的發(fā)展要符合自身的發(fā)展規(guī)律,云計算是不可能在年的時間內(nèi)迅速發(fā)展成熟的。 從技術(shù)的角度來看,當前國內(nèi)云計算尚處于初級的階段,在鄂爾多斯市構(gòu)建一個健康的云計算產(chǎn)業(yè)鏈,不僅需要對技術(shù)有清晰的認識,而且必須嚴把安全關(guān)口。今后鄂爾多斯云計算產(chǎn)業(yè)研究院將抓大扶...
摘要:在年第三季度,來自最新公布的報告顯示,全球整體企業(yè)級存儲市場收入獲得了的增長,其中戴爾易安信與去年同期相比在該季度獲得了的增長,并以的行業(yè)份額排名第一。在戴爾易安信繼續(xù)領(lǐng)跑全球服務(wù)器市場的同時,自然也帶來了在服務(wù)器的存儲銷售增長與良好勢頭。云計算不但沒有將企業(yè)級存儲拋棄,而且還給了企業(yè)級存儲新的發(fā)展機會。RightScale的《2018年云狀況調(diào)查》報告分析,針對不同工作負載、不同的云,自然...
閱讀 2595·2023-04-25 15:07
閱讀 705·2021-11-24 10:21
閱讀 2298·2021-09-22 10:02
閱讀 3517·2019-08-30 15:43
閱讀 3222·2019-08-30 13:03
閱讀 2287·2019-08-29 17:18
閱讀 3586·2019-08-29 17:07
閱讀 1872·2019-08-29 12:27