国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

數據中臺基礎能力建設

IT那活兒 / 3030人閱讀
數據中臺基礎能力建設



背景介紹



隨著企業業務信息系統的快速發展,新舊業務系統替換、各業務系統間交互、數據體量迅速增長,需進一步強化新舊各系統之間的互聯互通性,破除“數據壁壘”和“信息孤島”,并契合信息化數字轉型目標,開展數據中臺基礎能力建設相關工作,為推進信息化建設實現數字化轉型打下堅實的基礎。



設計目標



數據中臺建設目標如下:
  1. 實現不同系統數據的互通,消除數據孤島。
  2. 數據倉庫的建設,根據業務活動,分層進行數據的建模。
  3. 數據的共享,實現為不同部門提供不同數據的共享能力。
  4. 數據質量管理,實現數據全生命周期的質量管理工作。
  5. 元數據管理,實現數據之間血緣關系的管理。
  6. 數據安全管理,實現不同用戶不同的應用權限,對于敏感數據進行脫敏處理,防止數據的泄露和個人信息的被惡意利用。



技術架構





數據倉庫建設



1. 總線架構繪制

總線架構是多維體系結構(MD)中的關鍵性概念之一,另兩個是一致性維度和一致性事實,多維體系架構中,主導思想是分布建立數據倉庫,由數據集市組合成數據倉庫,但是在建立第一個數據集市前,架構師首先要做的就是設計出整個企業內具有統一解釋的標準化維度和事實,即一致性維度和事實,其中一致性維度要么是統一的要么是維度表的一個子集,一致性事實指每個度量在數據倉庫中都是唯一的統計口徑,為避免歧義,一個度量只有唯一的業務術語。應該按照這個體系進行數據集市的迭代開發。
在總線矩陣中,列為一致性維度,行為不同的業務處理過程,即事實,在交叉點打上標記表示該業務處理過程與該維度相關,例如:

2. 高層模型建設

高層模型圖形化的展示了業務過程的維度表和事實表,總線矩陣的一行可能會用多個高層模型表示,每個高層模型表示特定粒度的事實表。

3. 維度建模

有了高層模型就要設計維度和度量,維度和度量清單不僅僅是業務用戶所關心,還要從業務過程出發,自上而下的設計所涉及的維度和度量,防止業務用戶需求變化帶來的沖擊。
維度建模步驟:
  • 選擇業務過程
業務過程是通常表示的是業務執行的活動,與之相關的維度描述和每個業務過程事件關聯的描述性環境。
通常由某個操作型系統支持,例如:訂單系統。
業務過程建立或獲取關鍵性能度量。
一系列過程產生一系列事實表。
  • 聲明粒度
粒度傳遞的是與事實表度量有關的細節級別。
精確定義某個事實表的每一行表示什么。
對事實表的粒度要達成共識。
  • 確認維度

健壯的維度集合來粉飾事實表。
維度表示承擔每個度量環境中所有可能的單值描述符。
  • 確認事實

不同粒度的事實必須放在不同的事實表中。
事實表的設計完全依賴物理活動,不受最終報表的影響。
事實表通過外健關聯與之相關的維度。
查詢操作主要是基于事實表開展計算和聚合。
其中粒度是非常重要的,粒度用于確定事實表的行表示什么,建議從關注原子級別的粒度數據開始設計,因為原子粒度能夠承受無法預估的用戶查詢,而且原子數據可以以各種可能的方式進行上卷,而一旦選擇了高粒度,則無法滿足用戶下鉆細節的需求。
事實是整個維度建模的核心,其中雪花模型或者星型模型都是基于一張事實表通過外健關聯維表進行擴展,生成一份能夠支撐可預知查詢需求的模型寬表,而且最后的查詢也是落在事實表中進行。例如:

4. ETL設計開發

數據抽取:從數據源獲取所需數據的過程。數據抽取過程會過濾掉目標數據集中不需要的源數據字段或數據記錄。
數據轉換:按照目標表的數據結構,對一個或多個源數據的字段進行翻譯、匹配、聚合等操作得到目標數據的字段。
數據轉換主要包括:格式轉換、字段合并與拆分、數據翻譯、數據匹配、數據聚合其他復雜計算。
數據裝載:將數據加載到目標數據庫中。
 ETL應用:完整的ETL應用過程包含三個階段:
  • 設計階段:分析源和目標數據集的數據結構,定義合理的數據轉換邏輯。

  • 實施階段:按照設計階段制定的邏輯規則進行編碼,實現數據的E、T、L過程。

  • 維護階段:對于非一次性數據整合項目,ETL過程需要重復執行,同時也需要不間斷的維護和完善。

規范制定目的:ETL規范是為保證ETL正確設計、實施和維護所定義的一些規則和方法,具體包括ETL設計規范、開發規范以及維護規范。
設計規范:設計規范主要應用于ETL編碼的前期工作。本階段要形成多個關于數據流的在不同層次的映射(Mapping)文檔。
Mapping應該包含以下幾個部分:
  • 數據源的相關屬性,包括:實體名稱—含DSN、所有者等信息;字段名—英文名稱;字段簡述—中文名稱,如為參數信息應該有相關取值解釋,如性別字段(1:男;2:女;0:不詳);類型—字段類型,含長度和精度信息;非空屬性—字段是否可以為空;

  • 目標數據集的相關屬性,包括:實體名稱—含DSN、所有者等信息;字段名—英文名稱,建議根據字段含義來命名,而不是簡單用拼音來定義字段(此部分由負責設計數據集的人員控制);字段簡述—中文名稱,對于保留字段應該給出默認值;類型—字段類型,含長度和精度信息;非空屬性—字段是否可以為空;

  • 規則,主要描述ETL各個環節的轉換規則,包括:數據源過濾規則—描述從源數據集獲取數據過程中過濾掉記錄的規則;關聯規則—當源數據集為多個時,描述相互之間的關聯關系;列轉換規則—描述源數據集到目標數據集的字段間的轉換規則(業務邏輯相關);目標數據集更新規則—描述目標數據集的更新策略,包括更新機制和更新頻度,如每日全量更新、每周增量更新;

ETL作業列表:ETL所開發的作業之間包含一定的業務邏輯和編碼邏輯,所以調度過程中應遵循一定的邏輯順序,包括:
  • 作業名稱——實現Mapping的作業名稱,包括該作業功能描述;

  • 調度順序——用序號或者是流程圖模式描述作業的調度順序,需要綜合考慮業務邏輯、編碼邏輯以及系統資源等多方面情況,在保證業務邏輯和編碼邏輯的基礎上,通過控制調度,最大限度地合理利用系統資源;

  • 參數列表——列舉每個作業中所使用的參數,不同作業中的相同參數最好使用相同的名稱,便于調度時進行控制;

版本管理:
ETL設計會隨著對業務、系統理解的深入以及結構框架的變化而發生變化,所以Mapping設計也應該同步更新。在開發過程中,要嚴格遵守一個規則:當規則發生變更時,要先變更Mappig,然后才變更相應的作業設計。在Mapping變更管理方面,應該有詳細的版本變更記錄,以便追蹤到ETL開發的變動情況。變更記錄包括如下內容:
版本—每次變更應給出一個新的版本號;作者—變更人;更新時間—變更時間;更新內容—簡要說明變更內容;備注—可用于記錄變更的原因等相關信息。



數據管理



1. 元數據管理

元數據(Meta Data),主要記錄數據倉庫中模型的定義、各層級間的映射關系、監控數據倉庫的數據狀態及 ETL 的任務運行狀態。一般會通過元數據資料庫(Metadata Repository)來統一地存儲和管理元數據,其主要目的是使數據倉庫的設計、部署、操作和管理能達成協同和一致。元數據是數據倉庫管理系統的重要組成部分,元數據管理是企業級數據倉庫中的關鍵組件,貫穿了數據倉庫的整個生命周期,使用元數據驅動數據倉庫的開發,使數據倉庫自動化,可視化。
構建數據倉庫的主要步驟之一是 ETL。這時元數據將發揮重要的作用,它定義了源數據系統到數據倉庫的映射、數據轉換的規則、數據倉庫的邏輯結構、數據更新的規則、數據導入歷史記錄以及裝載周期等相關內容。數據抽取和轉換的專家以及數據倉庫管理員正是通過元數據高效地構建數據倉庫。
使用數據平臺可以方便的對數據元數據進行方便的管理,其中作業管理模塊可以方便的將元數據更新作為作業進行執行,任務調度模塊可以將作業進行調度管理,可以定時執行作業,定時更新元數據。可以圖形化的展示數據表字段、元數據屬性、血緣關系、影響分析等。

2. 數據質量管理

數據質量一直是數據倉庫領域一個比較令人頭疼的問題,因為數據倉庫上層對接很多業務系統,業務系統的臟數據,業務系統變更,都會直接影響數據倉庫的數據質量。因此數據倉庫的數據質量建設是一些公司的重點工作。
數據質量的高低代表了該數據滿足數據消費者期望的程度,這種程度基于他們對數據的使用預期。數據質量必須是可測量的,把測量的結果轉化為可以理解的和可重復的數字,使我們能夠在不同對象之間和跨越不同時間進行比較。數據質量管理是通過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證數據的恰當使用。
評判數據質量維度有:
  • 準確性:數據不正確或描述對象過期
  • 合規性:數據是否以非標準格式存儲
  • 完備性:數據不存在
  • 及時性:關鍵數據是否能夠及時傳遞到目標位置
  • 一致性:數據沖突
  • 重復性:記錄了重復數據

3. 數據安全管理

數據分級標準:
通過對數據表設置合理的等級,加強對數據倉庫平臺下的數據表的安全管理,表的安全等級需要根據表中安全等級最高的字段進行等級設定。可以將數據表安全等級劃分為以下四個等級:
  • S4:非業務核心表,刪除對于其他計算任務無影響。
  • S3:非業務核心表,但是刪除對于其他計算任務有一定的影響。
  • S2:業務核心表,僅限本部門使用,刪除對于其他部門使用無影響。
  • S1:業務核心表,刪除對于其他部分使用有影響。
數據安全流程:
  • 數據產生過程中對比較敏感的字段打上專門的標簽。
  • 數據的存儲對于比較私密的人員信息,像身份證、手機號之類的數據要進行加密存儲。
  • 數據使用過程中對于不同的人員要賦予不同的數據獲取權限,且如果要獲取權限外的數據需要進行申請,審核通過后方可進行使用。
  • 數據傳輸過程中要通過專門的API接口進行,且需要進行加密處理。
  • 數據的銷毀,對于敏感的數據銷毀,不能夠只做邏輯刪除,還要進行物理上的刪除。
權限申請,權限審批需要遵循如下原則:
  • 權限只根據需求進行授權,不能授予超過需求的使用字段及等級。
  • 不允許直接查詢底層表,只能查詢中間表以上的表。
  • 不允許查詢全量數據,只能根據條件進行過濾。
  • S2級以上的數據,不允許下載。
  • 單次只能申請一張表,不能批量進行申請。

END


更多精彩干貨分享

點擊下方名片關注

IT那活兒

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/129812.html

相關文章

  • 微服務應用新趨勢:Service Mesh、AIOps和中臺

    摘要:目前,網易云輕舟微服務平臺已經應用于銀行證券視頻監控物流工業等行業不少中大型企業,幫助其實施微服務化改造,建設符合行業特點的業務中臺,支撐企業數字化戰略的落地。 微服務技術由于天生支持快速迭代、彈性擴展的特點,使企業能夠在不確定性下提升發展速度及抗風險能力,受到了越來越多的關注。當前,云服務商紛紛試水微服務產品,最為典型的,當屬推出輕舟微服務平臺、劍指整個微服務應用生命周期的網易云。 ...

    tunny 評論0 收藏0
  • AI中臺:一種敏捷的智能業務支持方案|宜信技術學院沙龍分享實錄

    摘要:因此數據中臺必須具備智能化能力,能夠為業務提供一定的智能數據分析能力。宜信作為一家金融科技公司,更多面對的是金融領域的智能業務需求。 showImg(https://segmentfault.com/img/bVbqQM0?w=1155&h=492); 內容來源:宜信技術學院第1期技術沙龍-線上直播|AI中臺:一種敏捷的智能業務支持方案 主講人介紹:井玉欣 宜信技術研發中心AI應用團隊...

    makeFoxPlay 評論0 收藏0
  • 專有云:激發政企大腦的潛能

    摘要:二阿里云專有云定位政府企業數字化轉型專家如果說公共云是把本地應用帶到云上,那專有云則是連接過去和未來,將云帶到本地部署里。政府和大型企業的規模之大,對系統穩定性可靠性要求之高,與阿里云公共云十分相似。一、數據的價值一粒藥丸,激發你的大腦潛能,存儲、計算、學習能力飆升,短時間內可進行海量信息的迅速挖掘與串聯,一天學會外語,三天學會鋼琴,投身金融界,迅速累積財富成為華爾街新秀……醒醒~這是只有電...

    liuhh 評論0 收藏0

發表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<