導語:
隨著越來越多的企業認識到數據作為生產要素的價值,加快了企業數字化轉型,把完善企業級的數據治理體系作為企業數字化轉型的一個目標。長亮科技在大數據領域始終保持足夠的技術敏銳度,并積累了豐富的經驗與資產。為此,我們組織了一個系列專文,分期發表,與您一起探索更適合當下行業發展的數據觀,歡迎大家持續關注。
作者|長亮科技大數據研究院
內容|本篇共4010字,預計閱讀時間15分鐘
創建企業數據模型的過程與最終結果同樣重要。正是因為數據建模的缺失,更迫切需要治理數據。即使一個小的業務處理系統的關系數據建模,也可以避免或減少數據質量問題的產生,有效降低未來數據管理和運營的成本和風險。一些企業的數據治理僅僅是為了滿足監管要求而進行的被動行為,在IT建設過程中,沒有通過企業級數據建模進行頂層設計和統籌規劃,隨著監管科技的發展,監管日益精細化,處罰力度不斷加強,僅僅完成“規定動作”而沒有通過體系化設計、未能得到根本解決的各類數據問題逐漸暴露出來并帶來了越來越多的負面影響。反之,借助數字化轉型,在內部推動企業級數據模型規劃和落地,并通過數據治理有效清理積弊,提升數據資產質量的企業,則在數據資產化、要素化的浪潮中獲得了領先的競爭優勢。
01
關系數據建模方法
仍是企業級數據建模的唯一選擇
DAMA-DMBOK2總結了用于表示數據的六個最常見的模式是:關系、維度、面向對象、基于事實、基于時間和NoSQL,其中最常用的是關系、維度、面向對象的UML,每種建模模式都使用特定的表示法-圖表符號進行表達,良好的設計模式提供豐富的可擴展建模語言,便于提煉專家知識的原型,降低建模難度。
關系數據庫管理系統的強大能力與Peter Chen的原始ER實體關系模型的概念密不可分,即邏輯數據模型。將數據與流程(與業務流程和系統流程)分開的核心思想,打破了面向流程的系統開發模式,同時實現更新(操作運營)和訪問(決策支持)的目的,邏輯數據模型從業務角度實現了這種分離,而物理數據模型從數據庫角度實現了這種分離。關系數據模型的實體完整性、參照完整性、用戶定義的完整性約束為高質量數據的實現提供了保障,四十多年來,關系數據建模一直是理解復雜業務與數據,設計和部署具有高質量數據的關系數據庫與支持應用開發的敏捷的、正確的、可靠的最佳方法。銀行業務交易系統數據仍以關系數據為主,并適度降范,可以與企業關系數據模型便捷映射。
對象建模與面向對象的程序設計方法配合主要用于交易系統數據模型設計,對象中可以包含對象,冗余設計不可避免地造成數據的不一致,很難提供一個準確的定義來說明目標建設的數據,數據可移植性差,維護困難。維度建模是應用需求驅動的設計,即使設計企業一致的維度(也必須經歷范式與抽象的思維邏輯過程),也存在數據冗余。對象建模與維度建模這兩種方法的初衷都不是為了用一種穩定而客觀的方式描述事實,以提供高質量數據并保證數據的連續性,因而這兩種方式的建模過程不但無助于發現數據問題,反而可能產生更多的問題,不適合用于企業級的數據建模。
數據質量的度量管理與評價體系核心仍是基于關系數據模型建立的。DAMA-DMBOK2歸納了8個具有普遍一致性的數據質量維度:準確性、完備性、一致性、參考完整性、合理性、及時性、唯一性、有效性。ISO/IEC 25012數據質量模型把數據質量特性分為不排它的固有的數據質量與依賴系統的數據質量,排除依賴系統的數據質量特性后,固有的數據質量特性都可以用關系數據庫管理系統來管理。
一表通監管數據采集接口標準把明細類數據劃分為機構、客戶、關系、財務、產品、協議、交易、狀態、資源、參數等10個主題,把關系、狀態單列主題,分別管理關系與歷史變化,關系模型設計模式的監管要求比過去更加模型化,可以更加完整、體系化評價數據,對數據質量的要求越來越高。一表通接口標準存在一定的冗余,需要在支撐一表通的底層實現上提供一致的數據。
02
企業級數據建模
如何有效幫助治理數據?
數據是業務與信息的最后載體,企業級數據建模應自上而下參考企業業務架構與應用架構,自下而上結合數據需求和數據現狀。從數據現狀出發,整體上可以劃分為信息探索、模型設計兩個大的階段。
1.信息探索階段
了解企業數據現狀及其元數據是企業級數據建模實質行為必不可少的一步。信息探索是對企業現有數據與文檔進行調研分析,識別其數據結構、業務含義、數據關系、數據流, 從源數據中探索出信息的過程??梢哉f信息探索的每一步,都可能發現需要治理的問題,數據模型師作為數據考古學家必須耗費大量時間深入穿透紛亂復雜的數據表象,反復提出假設,驗證或推翻。
可視化業務源數據模型。由于業務系統很少提供源模型,反向工程還原源數據模型是企業數據建模人員應該嘗試完成的一項工作,通過與數據生產者以及業務人員的交互,更好地理解與驗證數據,確認業務規則,更容易發現與確認數據質量問題。源數據建模還有助于將數據與真實業務世界本體進行比較,發現差異。
探索跨業務系統的數據關系與數據流。理想情況下,企業應具備應用架構、數據架構來說明不同業務源系統之間的數據交互關系,業務系統應提供詳細的設計說明。把數據集中到一起進行跨系統深入探索驗證,還可以進一步發現不同系統之間的業務不一致、賬務不一致以及業務與賬務不一致問題,使各種問題充分暴露。
形成企業數據CRUD分布圖,識別出有用的關鍵數據,進一步確定黃金數據源。發現與確定什么是以及為什么是關鍵數據,數據治理的主要目的之一是保護、管理與共享重用這些關鍵數據。如果不知道要管理的數據是什么、數據的含義以及為什么對組織重要,就不可能很好地保護和管理數據。識別出冗余數據,區別垃圾數據,確定企業數據分布與集成的問題。許多數據問題是因為不科學的CRUD造成的,企業建模思維很容易發現應用架構、數據架構在主數據、數據交互與集成等方面存在的問題,如同一主數據多個系統創建與修改。
發起數據資產評估,盤點數據資產現狀是數據治理早期關鍵活動。企業級數據建模過程中的信息探索,從數據到信息,找到有價值數據,發現需要治理的問題,應是數據治理實質工作的重點內容。
2.模型設計階段
數據模型是本體模型,數據建模是一項專業設計任務,在數據建模過程中融入數據管理思維,經過專業負責的深思熟慮與驗證,精準設計與定義模型本體——每個概念業務實體、邏輯數據實體及其固有屬性。模型設計包括主題模型設計、概念數據模型設計與邏輯數據模型設計,企業級數據倉庫模型是企業級的分析數據模型,還包括物理數據模型的設計。在定義數據模型本體過程中,可以發現更多數據問題。
采用范式與適度抽象設計思想與通用數據模型設計模式,設計穩定的數據模型,使模型收斂而不發散,改善業務一致性。嚴格按照第3范式要求設計邏輯模型,必然會發現源系統很多因冗余設計造成的不一致性問題(雖然業務系統一般采用范式設計模式,但沒有達到第3范式要求),在物理模型設計中考慮適度降范。
部署準確的高質量數據源。根據信息探索的結果,確定準確權威的數據源映射模型,執行完整的數據模型設計任務,確保數據完整性。在集成的數據環境中,基于數據模型進行全維度質量檢查,把問題提交給治理團隊安排治理,推動上游業務系統治理,在源頭產生高質量的數據。
03
提升數據建模效率
數據建模和數據治理都是數據全生命周期管理的關鍵職能領域,二者相輔相成,對提升數據的可用性、發揮數據價值具有重要的意義。
數據治理是對數據資產管理行使權威與控制,數據治理組織發起企業數據建模,可以將數據建模視為對數據定義的權威與控制的執行和實施。企業數據建模的原則(在“正確的”時間,由“正確的”人員為組織定義“正確的”數據,確保唯一正確的數據放在唯一正確的地方),必須要有規范或準則來確保數據設計符合需要,這些規范由數據治理委員會委托相關職能團隊設計并批準發布。
數據管理職責描述數據管理崗位管理數據和流程的職責和責任, 確保有效控制和使用數據資產。數據管理專員職責的主要活動包括創建和管理核心元數據、記錄規則和標準、管理數據質量問題、執行數據治理運營活動,需要把這些管理職責與活動嵌入到企業數據建模活動中,在整個數據生態系統中的人員、流程和系統中定義和開發“正確的”數據行為。
企業數據建模各階段必然會遇到許多問題,需要業務職能領域和 IT 組織協同,與數據建模人員一起工作,協助數據建模,需要數據治理組織為數據的集成與整合提供推動與決策支持。在正式的數據治理組織建立之前,企業級數據倉庫的模型建設主要由IT部門發起,業務僅是作為數據應用的需求方參與,項目中發現的數據問題沒有相應的“司法”解決途徑。
END
僅治理數據而不建模數據,治理成果得不到鞏固,不能應用于新的設計中避免或減少類似問題的發生,各種問題循環反復。與單獨進行不同的工作相比,企業數據治理與數據建模聯合起來更好,嵌入數據治理可以更有效開發和維護企業數據模型,企業數據建模使數據治理工作更有效,全面提升數據生產質量,給數據消費者提供高質量數據。