編者按:
長亮科技在大數據領域始終保持足夠的技術敏銳度,并積累了豐富的經驗與資產。為此,我們組織了一個系列專文,分期發表,與您一起探索更適合當下行業發展的數據觀,歡迎大家持續關注。
在前一篇文章《數據架構是管理數據的基礎》中,我們回顧了數據管理領域具體實踐歷程與反思、數據架構的內涵以及應用架構、技術架構的關系,認為應該以企業級的架構視角來管理與使用數據。本文將進一步圍繞企業數據模型核心,探討如何實施有效的數據治理。
作者|長亮科技大數據研究院
內容|本篇共3427字,預計閱讀時間12分鐘
越來越多的企業認識到數據要素對企業的意義,意圖從數據中挖掘出更多的業務價值,成百上千的數據庫,數十萬張表,就是企業的數字資產金礦。他們大量采購外部數據,在WAP與WEB中大量埋點跟蹤用戶行為,應采盡采,源源不斷流入數據湖中。他們在使用數據時才意識到自己不知道有什么數據,該如何解讀與使用數據,已知的數據大都存在需要治理的各種質量問題。
數據治理的定義是對數據資產的管理行使權威與控制(規劃、監控和執行),對企業中使用的數據的可獲得性、可使用性、完整性、一致性、可審計性和安全性進行全面管理。數據治理的目的是確保根據政策和最佳實踐對數據正確地進行管理,數據治理的驅動力通常集中在降低風險與改進流程上(DAMA-DMBOK2)。
目前數據治理工作中的問題與誤區
金融行業已經經歷了比較久的數據治理歷程,一些企業積累了豐富的數據治理經驗,無論實施路徑,解決方案,還是具體實施,如果沒有抓住重點,治理工作很難取得實質改進效果。
目前數據治理工作或多或少存在一些問題,主要表現為:
重建章立制,而很少深入到實際業務與數據之中去發現與解決實際問題,脫離實際數據治理活動;
數據治理工作常被設計為一個或若干個項目,沒有作為一項日常工作來做。早期有些企業轟轟烈烈啟動了項目,制定了激進的計劃,一旦遭遇挫折便偃旗息鼓;
數據的開發、管理與使用,沒有章法,沒有協作。如,盤點數據資產時,深度陷入字段級沼澤,遲遲得不到輸出,而業務系統、數據分析應用一直在動態變化中,與數據治理各行其是,因此輸出的數據資產清單新鮮度低,可用性差;
數據治理常常被當作重要而不緊急甚至是不重要、不緊急的工作,在面臨緊急的業務需求時,常受所謂的敏捷開發干擾,一邊治理問題,一邊制造問題。
有些企業雖經過10多年的數據治理,但沒有取得實質進展,僅是低水平的重復:數據資產快速膨脹,但高價值資產不多;日常工作效率不高,長期見效緩慢;系統建設周期性推倒重來,沒有積累沉淀;數據建設、使用與治理的成本以及被監管部門的處罰長期居高不下。越來越多的數據管理部門認識到數據治理工作陷入了困境,步履維艱。
主要原因可以歸納為以下幾個方面:
數據治理依據不充分:數據治理的立法與司法職能欠缺,數據治理者執法依據不完善,沒有得到高層管理支持,沒有執行力;
沒有達成一致的目標:咨詢可能提出了一個空洞的或不切實際的目標,開發部門以快速支持業務為目標,甚至有些部門以增加數據資產為目標,都不以定義與交付高質量資產為前提,沒有認識到高質量的數據帶來的價值;
路徑不清晰:有些走過場的數據治理咨詢項目交付了一條沒有如何達到目標、沒有實操的實施路徑,甚至可能數據治理走出的第一步就錯了;
職責不明確:數據生產者、消費者與管理者等干系人之間關于數據管理的認知存在巨大的差異,職責不明確,生產者不對自己生產的數據負責,治理部門對資產的膨脹缺少有效控制;
專業能力不足:受過數據管理專業培訓的人員很少,合格數據治理專業人員更少,沒有形成數據治理文化與社區;
缺乏有效的工具:缺少便于生產者、管理者和消費者之間溝通協作的工具來支持日常數據管理工作,以提升工作質量與效率。
充分利用企業數據模型驅動數據治理工作
良好的數據治理工作除了設立組織機構、建章立制之外,還需要設置和強制執行數據質量和數據架構標準,作為治理與行政的依據,確保數據在全企業范圍內被準確、一致的定義、產生和使用。
許多企業的數據治理工作一般先制訂數據標準,以數據標準為依據治理數據。數據標準僅是衡量數據質量的參考依據之一。
很多數據標準沒有建立清晰的概念與邏輯關系,缺少理解標準目錄的詞匯與分類體系,使用者不清楚數據標準背后的邏輯,沒有公共理解的基礎,數據治理工作大多僅限于治理孤立的數據類型與碼值;
以Excel、Word、PPT等文件形式展現的數據標準,所能表達的內容很有限,所能度量的數據質量維度也有限,數據的完整性與一致性不是其追求的目標,不能直接轉化為可以實施的細節與執行的依據;
把實施寬泛的大而全的數據標準作為數據治理的切入點或啟動項目不是一個好的選擇。大而全的數據標準可能還沒有實施就已經過時。
企業數據模型使數據治理真正成為現實。企業數據模型作為業務元數據,提供了數據的參考分類框架、關鍵實體與關系的定義,以及企業數據元素的標準定義,作為支持數據治理利益相關者協作、自助服務和數據資產探索等核心基礎設施,為明確數據治理目標形成全面的認知與共識,為如何成功實施達到目標奠定基礎。
對數據進行分類,是理解數據對數據進行治理的第一步。數據模型是一種本體論模型,它首先定義數據類別,使用既定的規則收集、管理這些不同類別數據。企業數據模型主題域清單表達企業最關鍵的領域——是最重要的分類方法之一。銀行業數據標準的主題劃分一般參照成熟的行業數據模型,每個主題之下的劃分標準,各家銀行有比較大的差異;
對數據有準確的定義與一致的理解,是衡量數據是否符合要求,進行數據管理活動的基礎。許多數據問題是因為各種概念沒有清晰的定義造成的;
數據之間的關系表達了業務規則,是企業數據實現與使用需要遵循執行的依據,但這一點普遍被忽視;
企業數據模型可以幫助數據管理人員識別和定位敏感數據,設計不同用戶訪問控制權限以強制執行機密性、完整性與合規,確保敏感數據得到保護;
企業數據模型幫助干系人站在企業的視角而不是局限于某個特定的系統或特定的數據集,可以發現影響全局的系統性問題,而不是一個局部范圍,或者某個設計師的問題,可以有的放矢,重點解決系統性的問題,推動高效治理。
數據的定義、分類與關系的表達形式是ER模型圖,模型的可視化帶來友好性,可以面向各類人員,因此企業數據模型是數據管理必不可少的基礎設施工具。
企業數據模型一般采用IDEF本體論建模圖形化方法,易于理解,便于不同的用戶討論、辨析與定義數據表達的本體,使各類用戶的認知達成一致;
基于企業數據模型規劃數據治理工作,幫助制訂如何達到目標的實施路徑與長期漸進的計劃。在模型體系指導下,自上而下從關鍵的主題開始(如跨各業務系統的參與人、機構、員工等,高級管理人員不被細節所困擾,實施人員更容易理解和消化重點)逐個主題、逐個關鍵實體穩步推進,自下而上從關鍵的屬性開始治理(如證件類型、幣種代碼等);
基于企業數據模型安排責任分工與協作,支持日常數據管理工作。將明確的、透明的、正式的責任和行動應用于組織與流程實踐,建立相互協作信任,保證每項數據治理任務都有明確的治理內容與RASCI責任人,確保它處于受控狀態,提升數據治理實施的效率與績效;
基于企業數據模型體系有效管理數據資產,指導、盤點數據資產。建立統一的數據資源目錄統一管理維護,避免陷于治理沼澤,幫助數據治理人員獲得數據資產狀態信息,哪些方面存在問題以找出需要治理的有毒資產,哪些得到了增強和改進,作為最終用戶跟蹤、控制、判斷是否符合數據治理要求的衡量參考標準,提高交互效率,減少溝通成本。
企業數據模型是企業綿延數十年的積累,覆蓋業務經營、管理和決策數據需求,是數據領域長期發展的穩定基石,預防新數據問題的發生,支持可持續發展。
銀行的業務發展變化是相對穩定的,業務邏輯很少發生顛覆性的改變,業務的變化同步更新到企業數據模型中。企業數據模型是新系統開發的關鍵輸入與數據需求和建模的基線,指導和規劃業務系統與分析系統的模型設計,可以預防數據問題的發生;
由于技術的快速發展以及企業應用架構的優化,許多銀行業務應用系統每隔若干年都會大規模開發“新一代”。重用企業數據模型的組件,監控新系統的數據模型設計與數據分布,可以減少大量數據重構與遷移工作,提升數據的質量,保護歷史投資,實現可持續發展;
數據治理不應僅專注于數據的治理而忽視數據分布流轉的治理,不合理的應用架構與數據流轉造成的數據問題往往是成片成面的,甚至是災難性的。如一些業務系統數據經過數據中臺或ODS復雜的整合,作為數據倉庫模型的貼源區,不但拉長了加工路徑,大大降低了時效性,由于數據中臺或ODS的整合可能使源數據面目全非,導致數據倉庫在設計模型時很難還原出業務源模型,這樣混亂的數據流架構在原本數據質量不高的業務數據中制造了更多的垃圾。
寫在最后
做正確的事,正確地做事。只有站在企業架構的高度,圍繞企業數據模型核心,關注技術架構與應用架構對數據可能造成的負面影響,明確各自的職責,達成一致的目標,提升專業能力,精心設計專業科學的方法與清晰的實施路徑,才能實施有效的數據治理,與應用架構、技術架構協同支持業務目標的實現!