摘要:利益相關網易云打造的大數據平臺,能夠提供更好的建設方案,歡迎免費試用。網易有數則定位于敏捷數據可視化分析平臺,可便捷地嵌入企業經營的業務模塊,且面對不同客戶的需求提供定制化服務,數據分析效率最高提升。
歡迎訪問網易云社區,了解更多網易技術產品運營經驗。
數據倉庫作為企業提供決策支持而構建的集成化數據環境,本身并不產生或者消費數據,基本架構包含的是數據流入流出的過程,首先放上一張數據倉庫的架構圖。數據倉庫作為中間集成化數據管理的一個平臺,底層有多種數據來源,流入數據倉庫之后對上層應用開放。
1、分析業務需求,確定數據倉庫主題
數據模型的創建依賴數據倉庫主題的確定,在搭建數據倉庫之前,首先就是要充分了解業務部門的問題需求,明確我們所要創建的數據倉庫真正可以解決的問題,在多次溝通的前提下,可以準確的確定系統能夠實現的功能。在這個過程中,基于雙方理解問題的不同,還需要我們對需求做出一些原型的演示,避免理解上的分歧。
需要做到包括:從業務方需求中提取出重要的業務數據主題,并對業務數據主題進行詳細的解釋;對提取出的業務數據主題進行主題域的劃分,并對主題域進行詳細的解釋;根據主題域的劃分,對內部的組織結構和業務關系細節化,構建出主題域的概念模型。
2、構建邏輯模型
在概念模型的基礎上,對其進行進一步的細化和分解,通過實體和實體之間的關系描述業務的需求和系統實現的技術領域。邏輯模型的構建在數據倉庫的實施中最為重要,是業務需求人員和技術人員進行溝通的橋梁和平臺,能夠直接反映業務部門實際的需求和對業務的規劃,同時對下面物理模型的構建也具有指導意義。邏輯模型通過實體與實體之間的關系勾勒出了整個業務部門的數據藍圖和規劃。
邏輯模型主要關注細節性的業務規則,同時也需要解決每個主題域包含的概念范疇和跨主題域的集成和共享問題,構建的步驟一般包括:分析需求,列出需要分析的主題,明確需求目標、維度指標、分析的指標、分析的方法、數據的來源以及需要關注的對象等;選擇用戶感興趣的數據,通過業務需求將需要分析的指標分離抽取出來,轉換為實體;在實體中增加時間戳屬性;考慮粒度層次的劃分,粒度決定了數據倉庫的實現方式、性能、靈活性以及數據倉庫的數據量;在粒度層次劃分的基礎上,進行關系模式的定義,關系模式一般采取第三范式的特點進行定義;同時在邏輯模型的基礎上對實體的屬性、屬性的值域等信息進行明確、完善和細化,保證真實的反映業務的邏輯關系和業務的規則。
3、邏輯模型轉換為物理模型
基于邏輯模型,接下來就是為應用環境選擇一個合適的物理結構,包括合適的存儲結構以及合適的存儲方法。將邏輯模型轉換為物理模型主要包括:實體名轉換為表名;屬性名轉換為列名,并且確定列的屬性;在物理模型的創建過程中,必須要對列的屬性進行明確,包括列名、數據類型、是否是空值以及長度等。確定物理模型之后,對于數據的存放位置和存儲空間的分配等也需要進行規劃。
4、數據源接入
在數據倉庫的建立之前,需采集底層多種數據源數據,明確數據源中的數據種類,采用合適的工具。比如,Flume NG作為實時日志收集系統,支持在日志系統中定制各類數據發送方,用于收集數據,同時,對數據進行簡單處理,并寫到各種數據接收方;NDC,Netease Data Canal,直譯為網易數據運河系統,可以實現結構化數據庫的數據實時遷移;Sqoop可以將關系型數據庫中的數據導入到平臺中;Logstash作為開源的服務端數據處理管道,也可以輕松的將日志、WEB應用等數據采集到平臺中。
5、數據存儲清洗和轉換
對數據進行清洗和轉換,保證進入到數據倉庫中的數據的一致性。結合業務需求,采用合適的數據清洗轉換工具。
6、對接BI,數據展示
為業務部門選擇合適的工具實現對數據倉庫中的數據進行分析的目的,正確清晰的展現用戶的功能需求。
數據倉庫搭建成功之后,還需對其安全性、備份恢復等方面進行管理。
利益相關:網易云打造的大數據平臺,能夠提供更好的建設方案,歡迎免費試用。
網易猛犸是一個大數據應用開發與數據管理平臺,覆蓋了數據傳輸、計算及作業流調度等多個環節,日處理數據量達到 PB 級。
網易有數則定位于敏捷數據可視化分析平臺,可便捷地嵌入企業經營的業務模塊,且面對不同客戶的需求提供定制化服務,數據分析效率最高提升80%。
文章來源: 網易云社區
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/25318.html
摘要:作為互聯網工作者,相信對這個全球最大的同性交友網站一定不會陌生,使用的是目前如日中天的分布式版本控制系統。等這個狀態變成時則說明已經部署完成,可以訪問了。修改完成后,輸入命令使配置生效,然后重啟即可。 showImg(https://segmentfault.com/img/remote/1460000018991664); 作為互聯網工作者,相信對 GitHub 這個 全球最大的同性...
摘要:我們平時鏡像都是習慣于放在公共倉庫的,比如。但在企業里,我們經常會需要搭建公司自己的鏡像倉庫。這樣可以將數據持久化,當容器掛掉時鏡像不會丟失。下面會講解如何創建一個協議的高可用倉庫。于是我為集群添加了一個節點,來做集群的鏡像倉庫。 我們平時鏡像都是習慣于放在公共倉庫的,比如Dockerhub, Daocloud。但在企業里,我們經常會需要搭建公司自己的鏡像倉庫。 這篇文章講解如何用d...
閱讀 2838·2021-09-10 10:50
閱讀 2196·2019-08-29 16:06
閱讀 3199·2019-08-29 11:02
閱讀 1100·2019-08-26 14:04
閱讀 2810·2019-08-26 13:24
閱讀 2303·2019-08-26 12:16
閱讀 551·2019-08-26 10:29
閱讀 3098·2019-08-23 18:33