摘要:如果我們可以克服一些數據遷移的挑戰,將一個數據倉庫以及其數據分析工具從數據中心中的專用服務器轉移到基于云的文件系統和數據庫就可以解決這個問題。數據遷移工具輔助向云端遷移從數據庫抽取數據很容易,從數據庫中有效挖掘大容量數據確是一項挑戰。
云計算和數據倉庫是合理的一對。云存儲可以按需擴展,云可以將大量服務器貢獻于某一具體任務。數據倉庫通用功能是本地數據分析工具,受到計算和存儲 資源的限制,同時也受到設計者考慮新數據源集成的能力的限制。如果我們可以克服一些數據遷移的挑戰,將一個數據倉庫以及其數據分析工具從數據中心中的專用 服務器轉移到基于云的文件系統和數據庫就可以解決這個問題。
云端數據管理通常牽扯到在分布式文件系統中加載和維護文件,像Hadoop分布式文件系統(HDFS),隨后用類似MapReduce這樣的工具處理數據。對于數據倉庫和其他的分析人物,像Hive這樣的數據庫工具在分布式文件系統之上提供了類SQL的功能。
盡管傳統關系型數據庫管理系統和云端非關系型數據庫之間可以并行描述,但是在兩個片段之間轉移數據時,不同的運行方式會導致問題。抽取、轉換和加載流程甚至會造成更多挑戰。
數據遷移工具輔助向云端遷移
從數據庫抽取數據很容易,從數據庫中有效挖掘大容量數據確是一項挑戰。如果由于數據量的增長,數據倉庫面臨性能或者存儲問題,可能就是時候考慮使用運資源了。下面提供了一些工具來協助從關系型數據庫加載數據到云文件系統和數據庫。
專業工具,像Sqoop(SQL-to-Hadoop)生成代碼從關系型數據庫抽取數據,并將其拷貝到HDFS或者Hive。Sqoop使用JDBC驅動,同多種類型的關系型數據庫工作,但是通過JDBC推出大量數據導致了性能成本。
為了遷移到云端,從關系型數據庫抽取數據時,你可能需要進行數據轉換。如果你所工作的所有數據來自于單一數據庫,就可以在源數據庫中進行轉換。如果 從兩個分離的系統合并數據,在抽取之后再轉移數據源更有效。然而,你應該在加載數據到最終數據存儲庫之前做這些。Cascading數據處理API可以協 助這項任務的進行。
Cascading提供了運行在Hadoop之上的功能,像工作流處理、計劃和調度。就比如說,它同管道過濾器工作;數據應用過濾器通過管道從一個 源流到目的源。其他功能像grouping可以應用于數據流。Cascading用Java實現,在MapReduce工作中調用轉換API。
如果你正在同MySQL共事,Sqoop介意使用MySQL轉儲功能繞離JDBC并更加有效地抽取數據。Sqoop也可以生成Java類,這個類可 以用于操縱加載數據并將其直接導入Hive。HIHO (Hadoop Input and Output)從關系型表抽取數據并提供一些基本的轉換服務,像去重以及合并輸入流。
當生成文件在將其加載到HDFS文件系統或者Hive數據倉庫之前,要求最小化轉換,你就能直接加載文件了。在確定目標表和分割規格后,Hive有 一個命令來加載數據。Pig是數據分析程序的一種高水平語言,尤其是和Java中的MapReduce編碼對比的時候。它提供了一種基本的統計函數,你可 以在關系型數據庫中找到(像min、max、count),在數學和字符串處理功能中也能找到。Pig支持架構化和非結構化文本文件的壓縮。
云計算資源補充了數據倉庫基礎架構。然而,為將數據倉庫轉移到云端的利益較大化,適當結構化數據并使用正確的數據分析工具很重要。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/3563.html
摘要:如果我們可以克服一些數據遷移的挑戰,將一個數據倉庫以及其數據分析工具從數據中心中的專用服務器轉移到基于云的文件系統和數據庫就可以解決這個問題。數據遷移工具輔助向云端遷移從數據庫抽取數據很容易,從數據庫中有效挖掘大容量數據確是一項挑戰。 云計算和數據倉庫是合理的一對。云存儲可以按需擴展,云可以將大量服務器貢獻于某一具體任務。數據倉庫通用功能是本地數據分析工具,受到計算和存儲資源的限制,同時也受...
摘要:但是,雖然解決備份和災難恢復問題的答案已經改變,但這些關鍵問題仍然存在,并且在考慮云中的備份和恢復時,企業仍面臨著五大挑戰。一旦到位,企業將如何管理基于云計算的備份和災難恢復準備備份和災難恢復到云端的最后挑戰是持續管理。Iland公司自從11年前開始提供服務以來,云計算的災難恢復和備份服務幾乎沒有什么改變。如今,業務環境更加復雜,云采用已經成為主流,監管環境與10年前相比已大相徑庭。但是,雖...
摘要:雖然分析機構的看法各不相同,但公司產品副總裁分享了他對未來幾年企業如何進入和應用云計算環境的預測。無論如何,企業的業務向云端遷移仍將繼續實施,但大多數企業肯定不會在短短六年時間內部署基于云計算的戰略。如今,許多企業在云端運營業務,以利用這些環境中提供的可擴展性和靈活性。研究機構Gartner公司預測,隨著越來越多的組織將業務遷移到云端,到2025年,80%的企業將不再運行其內部部署數據中心。...
摘要:事實上,云計算應用的快速增長正在徹底改變全球市場和基礎設施的發展趨勢。在調查中,只有的受訪者認為自己最終對云計算服務中存儲的數據的合規性負責。云計算服務提供商的服務級別協議不包括數據保護。如今,只要人們了解一下云計算市場,可以看到其發展非常健康。事實上,云計算應用的快速增長正在徹底改變全球市場和IT基礎設施的發展趨勢。云計算正在改變人們在企業所有職能上的工作方式。從公司辦公室到工廠車間,從分...
摘要:但公共云可以帶來的靈活性意味著業務需求越來越強大,那么企業面臨的挑戰是什么以及如何克服這些挑戰,以便采用公共云存儲成為企業的選擇面臨的挑戰重力數據具有批量大小和重量。行業專家最近與一家大型企業的技術團隊討論云計算策略,其中一個主要關注點是使用公共云存儲。他們認為公共云存儲提供了靈活性、敏捷性,以及分散風險的機會,并且可以擺脫服務提供商的鎖定。但很多企業表示正在面臨重大挑戰,這并不罕見。雖然云...
閱讀 2121·2023-04-26 02:19
閱讀 1914·2021-11-19 09:40
閱讀 1704·2021-09-29 09:35
閱讀 3575·2021-09-29 09:34
閱讀 4297·2021-09-07 10:16
閱讀 5530·2021-08-11 11:14
閱讀 3578·2019-08-30 15:54
閱讀 1629·2019-08-30 15:53