摘要:支持解決方案規模的快速有效擴大,使不斷增長的容量速度以及多樣的數據能夠得到快速的處理。谷歌的解決方案使用一種稱為的算法谷歌解決了這個問題。使用谷歌提供的解決方案,和他的團隊開發了一個開源項目叫做。
如今有很多公司都在努力挖掘他們擁有的大量數據,包括結構化、非結構化、半結構化以及二進制數據等,來探索對數據的深入利用。
大多數公司估計他們只分析了已有數據的12%,剩余88%還沒有被充分利用。大量的數據孤島和分析能力的缺乏是造成這種局面的主要原因。另外一個難題是如何判斷數據是否有價值。尤其是在大數據時代,為了避免數據丟失你必須采集并存儲這些數據。一些看起來與業務無關的數據,如手機GPS數據,將來也可能會有大用處。
所以,大量公司都寄希望于使用Hadoop解決如下難題:
采集并存儲與公司業務職能相關的所有數據。支撐先進的分析功能,包括商業智能,采用現代方式對數據進行先進的可視化和預測性分析。將數據快速分享給所需之人。整合多個數據孤島來解答以前根本沒人提過,甚至是未知的復雜問題。Hadoop支持解決方案規模的快速、有效擴大,使不斷增長的容量、速度以及多樣的數據能夠得到快速的處理。
如今Hadoop的購買周期正處于上升階段,因此在該領域催生了越來越多的廠商。盡管Hadoop是Apache的開源項目,任何人都可以免費下載,但大多數消費者還是傾向于采用廠商的打包方案。除了將所有的Hadoop組件打包并保證其能正常使用(兼容版本)之外,廠商一般還會提供企業級支持和擴展:以Apache Hadoop(HDFS)作為方案的核心組件,搭配額外實現增強Hadoop的功能,并增加差異化功能使其解決方案更具吸引力。
在大數據Hadoop解決方案評測中,廠商有Amazon Web Services、Cloudera、Hortonworks、IBM、MapR科技、華為和大快搜索。這些廠商都是基于Apache開源項目,然后增加打包、支持、集成等特性以及自己的創新等內容以彌補Hadoop在企業中的短板。所有廠商都實現了這些功能,盡管方式略有不同——從各廠商的評測得分和廠商資料可見一斑。
大快大數據平臺(DKH),是大快搜索為了打通大數據生態系統與傳統非大數據公司之間的通道而設計的一站式搜索引擎級,大數據通用計算平臺。傳統公司通過使用DKH,可以輕松的跨越大數據的技術鴻溝,實現搜索引擎級的大數據平臺性能。
? DKH,有效的集成了整個HADOOP生態系統的全部組件,并深度優化,重新編譯為一個完整的更高性能的大數據通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大數據平臺,在計算性能上有了高達5倍(最大)的性能提升。
? DKH,更是通過大快獨有的中間件技術,將復雜的大數據集群配置簡化至三種節點(主節點、管理節點、計算節點),極大的簡化了集群的管理運維,增強了集群的高可用性、高可維護性、高穩定性。
? DKH,雖然進行了高度的整合,但是仍然保持了開源系統的全部優點,并與開源系統100%兼容,基于開源平臺開發的大數據應用,無需經過任何改動,即可在DKH上高效運行,并且性能會有最高5倍的提升。
傳統的企業方法
在這種方法中,一個企業將有一個計算機存儲和處理大數據。對于存儲而言,程序員會自己選擇的數據庫廠商,如Oracle,IBM等的幫助下完成,用戶交互使用應用程序進而獲取并處理數據存儲和分析。
局限性
這種方式能完美地處理那些可以由標準的數據庫服務器來存儲,或直至處理數據的處理器的限制少的大量數據應用程序。但是,當涉及到處理大量的可伸縮數據,這是一個繁忙的任務,只能通過單一的數據庫瓶頸來處理這些數據。
谷歌的解決方案
使用一種稱為MapReduce的算法谷歌解決了這個問題。這個算法將任務分成小份,并將它們分配到多臺計算機,并且從這些機器收集結果并綜合,形成了結果數據集。
Hadoop
使用谷歌提供的解決方案,DougCutting和他的團隊開發了一個開源項目叫做HADOOP。
Hadoop使用的MapReduce算法運行,其中數據在使用其他并行處理的應用程序。總之,Hadoop用于開發可以執行完整的統計分析大數據的應用程序。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/72154.html
閱讀 3077·2021-09-22 15:20
閱讀 2599·2019-08-30 15:54
閱讀 1965·2019-08-30 14:06
閱讀 3114·2019-08-30 13:05
閱讀 2456·2019-08-29 18:36
閱讀 567·2019-08-29 15:10
閱讀 522·2019-08-29 11:17
閱讀 817·2019-08-28 18:11