導語:
隨著越來越多的企業(yè)認識到數(shù)據(jù)作為生產(chǎn)要素的價值,加快了企業(yè)數(shù)字化轉(zhuǎn)型,把完善企業(yè)級的數(shù)據(jù)治理體系作為企業(yè)數(shù)字化轉(zhuǎn)型的一個目標。長亮科技在大數(shù)據(jù)領(lǐng)域始終保持足夠的技術(shù)敏銳度,并積累了豐富的經(jīng)驗與資產(chǎn)。為此,我們組織了一個系列專文,分期發(fā)表,與您一起探索更適合當下行業(yè)發(fā)展的數(shù)據(jù)觀,歡迎大家持續(xù)關(guān)注。
作者|長亮科技大數(shù)據(jù)研究院
內(nèi)容|本篇共4010字,預計閱讀時間15分鐘
創(chuàng)建企業(yè)數(shù)據(jù)模型的過程與最終結(jié)果同樣重要。正是因為數(shù)據(jù)建模的缺失,更迫切需要治理數(shù)據(jù)。即使一個小的業(yè)務(wù)處理系統(tǒng)的關(guān)系數(shù)據(jù)建模,也可以避免或減少數(shù)據(jù)質(zhì)量問題的產(chǎn)生,有效降低未來數(shù)據(jù)管理和運營的成本和風險。一些企業(yè)的數(shù)據(jù)治理僅僅是為了滿足監(jiān)管要求而進行的被動行為,在IT建設(shè)過程中,沒有通過企業(yè)級數(shù)據(jù)建模進行頂層設(shè)計和統(tǒng)籌規(guī)劃,隨著監(jiān)管科技的發(fā)展,監(jiān)管日益精細化,處罰力度不斷加強,僅僅完成“規(guī)定動作”而沒有通過體系化設(shè)計、未能得到根本解決的各類數(shù)據(jù)問題逐漸暴露出來并帶來了越來越多的負面影響。反之,借助數(shù)字化轉(zhuǎn)型,在內(nèi)部推動企業(yè)級數(shù)據(jù)模型規(guī)劃和落地,并通過數(shù)據(jù)治理有效清理積弊,提升數(shù)據(jù)資產(chǎn)質(zhì)量的企業(yè),則在數(shù)據(jù)資產(chǎn)化、要素化的浪潮中獲得了領(lǐng)先的競爭優(yōu)勢。
01
關(guān)系數(shù)據(jù)建模方法
仍是企業(yè)級數(shù)據(jù)建模的唯一選擇
DAMA-DMBOK2總結(jié)了用于表示數(shù)據(jù)的六個最常見的模式是:關(guān)系、維度、面向?qū)ο蟆⒒谑聦崱⒒跁r間和NoSQL,其中最常用的是關(guān)系、維度、面向?qū)ο蟮腢ML,每種建模模式都使用特定的表示法-圖表符號進行表達,良好的設(shè)計模式提供豐富的可擴展建模語言,便于提煉專家知識的原型,降低建模難度。
關(guān)系數(shù)據(jù)庫管理系統(tǒng)的強大能力與Peter Chen的原始ER實體關(guān)系模型的概念密不可分,即邏輯數(shù)據(jù)模型。將數(shù)據(jù)與流程(與業(yè)務(wù)流程和系統(tǒng)流程)分開的核心思想,打破了面向流程的系統(tǒng)開發(fā)模式,同時實現(xiàn)更新(操作運營)和訪問(決策支持)的目的,邏輯數(shù)據(jù)模型從業(yè)務(wù)角度實現(xiàn)了這種分離,而物理數(shù)據(jù)模型從數(shù)據(jù)庫角度實現(xiàn)了這種分離。關(guān)系數(shù)據(jù)模型的實體完整性、參照完整性、用戶定義的完整性約束為高質(zhì)量數(shù)據(jù)的實現(xiàn)提供了保障,四十多年來,關(guān)系數(shù)據(jù)建模一直是理解復雜業(yè)務(wù)與數(shù)據(jù),設(shè)計和部署具有高質(zhì)量數(shù)據(jù)的關(guān)系數(shù)據(jù)庫與支持應(yīng)用開發(fā)的敏捷的、正確的、可靠的最佳方法。銀行業(yè)務(wù)交易系統(tǒng)數(shù)據(jù)仍以關(guān)系數(shù)據(jù)為主,并適度降范,可以與企業(yè)關(guān)系數(shù)據(jù)模型便捷映射。
對象建模與面向?qū)ο蟮某绦蛟O(shè)計方法配合主要用于交易系統(tǒng)數(shù)據(jù)模型設(shè)計,對象中可以包含對象,冗余設(shè)計不可避免地造成數(shù)據(jù)的不一致,很難提供一個準確的定義來說明目標建設(shè)的數(shù)據(jù),數(shù)據(jù)可移植性差,維護困難。維度建模是應(yīng)用需求驅(qū)動的設(shè)計,即使設(shè)計企業(yè)一致的維度(也必須經(jīng)歷范式與抽象的思維邏輯過程),也存在數(shù)據(jù)冗余。對象建模與維度建模這兩種方法的初衷都不是為了用一種穩(wěn)定而客觀的方式描述事實,以提供高質(zhì)量數(shù)據(jù)并保證數(shù)據(jù)的連續(xù)性,因而這兩種方式的建模過程不但無助于發(fā)現(xiàn)數(shù)據(jù)問題,反而可能產(chǎn)生更多的問題,不適合用于企業(yè)級的數(shù)據(jù)建模。
數(shù)據(jù)質(zhì)量的度量管理與評價體系核心仍是基于關(guān)系數(shù)據(jù)模型建立的。DAMA-DMBOK2歸納了8個具有普遍一致性的數(shù)據(jù)質(zhì)量維度:準確性、完備性、一致性、參考完整性、合理性、及時性、唯一性、有效性。ISO/IEC 25012數(shù)據(jù)質(zhì)量模型把數(shù)據(jù)質(zhì)量特性分為不排它的固有的數(shù)據(jù)質(zhì)量與依賴系統(tǒng)的數(shù)據(jù)質(zhì)量,排除依賴系統(tǒng)的數(shù)據(jù)質(zhì)量特性后,固有的數(shù)據(jù)質(zhì)量特性都可以用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理。
一表通監(jiān)管數(shù)據(jù)采集接口標準把明細類數(shù)據(jù)劃分為機構(gòu)、客戶、關(guān)系、財務(wù)、產(chǎn)品、協(xié)議、交易、狀態(tài)、資源、參數(shù)等10個主題,把關(guān)系、狀態(tài)單列主題,分別管理關(guān)系與歷史變化,關(guān)系模型設(shè)計模式的監(jiān)管要求比過去更加模型化,可以更加完整、體系化評價數(shù)據(jù),對數(shù)據(jù)質(zhì)量的要求越來越高。一表通接口標準存在一定的冗余,需要在支撐一表通的底層實現(xiàn)上提供一致的數(shù)據(jù)。
02
企業(yè)級數(shù)據(jù)建模
如何有效幫助治理數(shù)據(jù)?
數(shù)據(jù)是業(yè)務(wù)與信息的最后載體,企業(yè)級數(shù)據(jù)建模應(yīng)自上而下參考企業(yè)業(yè)務(wù)架構(gòu)與應(yīng)用架構(gòu),自下而上結(jié)合數(shù)據(jù)需求和數(shù)據(jù)現(xiàn)狀。從數(shù)據(jù)現(xiàn)狀出發(fā),整體上可以劃分為信息探索、模型設(shè)計兩個大的階段。
1.信息探索階段
了解企業(yè)數(shù)據(jù)現(xiàn)狀及其元數(shù)據(jù)是企業(yè)級數(shù)據(jù)建模實質(zhì)行為必不可少的一步。信息探索是對企業(yè)現(xiàn)有數(shù)據(jù)與文檔進行調(diào)研分析,識別其數(shù)據(jù)結(jié)構(gòu)、業(yè)務(wù)含義、數(shù)據(jù)關(guān)系、數(shù)據(jù)流, 從源數(shù)據(jù)中探索出信息的過程。可以說信息探索的每一步,都可能發(fā)現(xiàn)需要治理的問題,數(shù)據(jù)模型師作為數(shù)據(jù)考古學家必須耗費大量時間深入穿透紛亂復雜的數(shù)據(jù)表象,反復提出假設(shè),驗證或推翻。
可視化業(yè)務(wù)源數(shù)據(jù)模型。由于業(yè)務(wù)系統(tǒng)很少提供源模型,反向工程還原源數(shù)據(jù)模型是企業(yè)數(shù)據(jù)建模人員應(yīng)該嘗試完成的一項工作,通過與數(shù)據(jù)生產(chǎn)者以及業(yè)務(wù)人員的交互,更好地理解與驗證數(shù)據(jù),確認業(yè)務(wù)規(guī)則,更容易發(fā)現(xiàn)與確認數(shù)據(jù)質(zhì)量問題。源數(shù)據(jù)建模還有助于將數(shù)據(jù)與真實業(yè)務(wù)世界本體進行比較,發(fā)現(xiàn)差異。
探索跨業(yè)務(wù)系統(tǒng)的數(shù)據(jù)關(guān)系與數(shù)據(jù)流。理想情況下,企業(yè)應(yīng)具備應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)來說明不同業(yè)務(wù)源系統(tǒng)之間的數(shù)據(jù)交互關(guān)系,業(yè)務(wù)系統(tǒng)應(yīng)提供詳細的設(shè)計說明。把數(shù)據(jù)集中到一起進行跨系統(tǒng)深入探索驗證,還可以進一步發(fā)現(xiàn)不同系統(tǒng)之間的業(yè)務(wù)不一致、賬務(wù)不一致以及業(yè)務(wù)與賬務(wù)不一致問題,使各種問題充分暴露。
形成企業(yè)數(shù)據(jù)CRUD分布圖,識別出有用的關(guān)鍵數(shù)據(jù),進一步確定黃金數(shù)據(jù)源。發(fā)現(xiàn)與確定什么是以及為什么是關(guān)鍵數(shù)據(jù),數(shù)據(jù)治理的主要目的之一是保護、管理與共享重用這些關(guān)鍵數(shù)據(jù)。如果不知道要管理的數(shù)據(jù)是什么、數(shù)據(jù)的含義以及為什么對組織重要,就不可能很好地保護和管理數(shù)據(jù)。識別出冗余數(shù)據(jù),區(qū)別垃圾數(shù)據(jù),確定企業(yè)數(shù)據(jù)分布與集成的問題。許多數(shù)據(jù)問題是因為不科學的CRUD造成的,企業(yè)建模思維很容易發(fā)現(xiàn)應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)在主數(shù)據(jù)、數(shù)據(jù)交互與集成等方面存在的問題,如同一主數(shù)據(jù)多個系統(tǒng)創(chuàng)建與修改。
發(fā)起數(shù)據(jù)資產(chǎn)評估,盤點數(shù)據(jù)資產(chǎn)現(xiàn)狀是數(shù)據(jù)治理早期關(guān)鍵活動。企業(yè)級數(shù)據(jù)建模過程中的信息探索,從數(shù)據(jù)到信息,找到有價值數(shù)據(jù),發(fā)現(xiàn)需要治理的問題,應(yīng)是數(shù)據(jù)治理實質(zhì)工作的重點內(nèi)容。
2.模型設(shè)計階段
數(shù)據(jù)模型是本體模型,數(shù)據(jù)建模是一項專業(yè)設(shè)計任務(wù),在數(shù)據(jù)建模過程中融入數(shù)據(jù)管理思維,經(jīng)過專業(yè)負責的深思熟慮與驗證,精準設(shè)計與定義模型本體——每個概念業(yè)務(wù)實體、邏輯數(shù)據(jù)實體及其固有屬性。模型設(shè)計包括主題模型設(shè)計、概念數(shù)據(jù)模型設(shè)計與邏輯數(shù)據(jù)模型設(shè)計,企業(yè)級數(shù)據(jù)倉庫模型是企業(yè)級的分析數(shù)據(jù)模型,還包括物理數(shù)據(jù)模型的設(shè)計。在定義數(shù)據(jù)模型本體過程中,可以發(fā)現(xiàn)更多數(shù)據(jù)問題。
采用范式與適度抽象設(shè)計思想與通用數(shù)據(jù)模型設(shè)計模式,設(shè)計穩(wěn)定的數(shù)據(jù)模型,使模型收斂而不發(fā)散,改善業(yè)務(wù)一致性。嚴格按照第3范式要求設(shè)計邏輯模型,必然會發(fā)現(xiàn)源系統(tǒng)很多因冗余設(shè)計造成的不一致性問題(雖然業(yè)務(wù)系統(tǒng)一般采用范式設(shè)計模式,但沒有達到第3范式要求),在物理模型設(shè)計中考慮適度降范。
部署準確的高質(zhì)量數(shù)據(jù)源。根據(jù)信息探索的結(jié)果,確定準確權(quán)威的數(shù)據(jù)源映射模型,執(zhí)行完整的數(shù)據(jù)模型設(shè)計任務(wù),確保數(shù)據(jù)完整性。在集成的數(shù)據(jù)環(huán)境中,基于數(shù)據(jù)模型進行全維度質(zhì)量檢查,把問題提交給治理團隊安排治理,推動上游業(yè)務(wù)系統(tǒng)治理,在源頭產(chǎn)生高質(zhì)量的數(shù)據(jù)。
03
提升數(shù)據(jù)建模效率
數(shù)據(jù)建模和數(shù)據(jù)治理都是數(shù)據(jù)全生命周期管理的關(guān)鍵職能領(lǐng)域,二者相輔相成,對提升數(shù)據(jù)的可用性、發(fā)揮數(shù)據(jù)價值具有重要的意義。
數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)管理行使權(quán)威與控制,數(shù)據(jù)治理組織發(fā)起企業(yè)數(shù)據(jù)建模,可以將數(shù)據(jù)建模視為對數(shù)據(jù)定義的權(quán)威與控制的執(zhí)行和實施。企業(yè)數(shù)據(jù)建模的原則(在“正確的”時間,由“正確的”人員為組織定義“正確的”數(shù)據(jù),確保唯一正確的數(shù)據(jù)放在唯一正確的地方),必須要有規(guī)范或準則來確保數(shù)據(jù)設(shè)計符合需要,這些規(guī)范由數(shù)據(jù)治理委員會委托相關(guān)職能團隊設(shè)計并批準發(fā)布。
數(shù)據(jù)管理職責描述數(shù)據(jù)管理崗位管理數(shù)據(jù)和流程的職責和責任, 確保有效控制和使用數(shù)據(jù)資產(chǎn)。數(shù)據(jù)管理專員職責的主要活動包括創(chuàng)建和管理核心元數(shù)據(jù)、記錄規(guī)則和標準、管理數(shù)據(jù)質(zhì)量問題、執(zhí)行數(shù)據(jù)治理運營活動,需要把這些管理職責與活動嵌入到企業(yè)數(shù)據(jù)建模活動中,在整個數(shù)據(jù)生態(tài)系統(tǒng)中的人員、流程和系統(tǒng)中定義和開發(fā)“正確的”數(shù)據(jù)行為。
企業(yè)數(shù)據(jù)建模各階段必然會遇到許多問題,需要業(yè)務(wù)職能領(lǐng)域和 IT 組織協(xié)同,與數(shù)據(jù)建模人員一起工作,協(xié)助數(shù)據(jù)建模,需要數(shù)據(jù)治理組織為數(shù)據(jù)的集成與整合提供推動與決策支持。在正式的數(shù)據(jù)治理組織建立之前,企業(yè)級數(shù)據(jù)倉庫的模型建設(shè)主要由IT部門發(fā)起,業(yè)務(wù)僅是作為數(shù)據(jù)應(yīng)用的需求方參與,項目中發(fā)現(xiàn)的數(shù)據(jù)問題沒有相應(yīng)的“司法”解決途徑。
END
僅治理數(shù)據(jù)而不建模數(shù)據(jù),治理成果得不到鞏固,不能應(yīng)用于新的設(shè)計中避免或減少類似問題的發(fā)生,各種問題循環(huán)反復。與單獨進行不同的工作相比,企業(yè)數(shù)據(jù)治理與數(shù)據(jù)建模聯(lián)合起來更好,嵌入數(shù)據(jù)治理可以更有效開發(fā)和維護企業(yè)數(shù)據(jù)模型,企業(yè)數(shù)據(jù)建模使數(shù)據(jù)治理工作更有效,全面提升數(shù)據(jù)生產(chǎn)質(zhì)量,給數(shù)據(jù)消費者提供高質(zhì)量數(shù)據(jù)。