當前越來越多的組織認識到了數據的重要性,為了發揮數據的價值,數據倉庫、大數據平臺、數據中臺的建設如雨后春筍。但數據是一把雙刃劍,它能給企業帶來業務價值的同時也是組織最大的風險來源。糟糕的數據質量常常意味著低效的、錯誤的業務決策,將直接導致數據統計分析不準確、監管業務難、高層領導難以決策等問題。如何在數據中臺搭建數據質量管理體系,形成常態化的數據質量管理流程是決定數據中臺運營應用的重要因素。
目錄:
1.數據質量問題的產生來源
2.數據質量問題域及分類
3.數據質量管理體系建設的五個原則
4.數據質量管理框架及關鍵技術
5.數據質量管理的最佳實踐
1、數據質量問題的產生來源
現在的數據集成融合就和古人筑堤壩一樣,古人筑堤壩是為約束河水,讓自然資源為我所用,發揮自然資源的價值;今人做數據集成融合,建數據中臺,是為了挖掘數據價值,發揮數據資源的價值,讓數據資源為企業的業務創新發揮價值。
在企業信息化初期,各類業務系統恣意生長,這個階段就像沒有修筑大堤前的黃河,河水雖然漫流,但是河道寬闊,雖然也有數據問題,但不明顯。
在企業進行數字化轉型的背景下,尤其是搭建了數據中臺的組織,需要按照統一的結構和標準把各類數據集成起來,就像筑堤束水之后的黃河,泄流不暢、決口不斷等問題紛紛出現,數據不一致、不完整、不準確等各種問題撲面而來。
大數據時代數據集成融合的需求會愈加迫切,不僅要融合企業內部數據,也要融合外部(互聯網等)數據。如果沒有對數據質量問題建立相應的管理策略和技術工具,那么數據質量問題的危害會更加嚴重。據IBM統計,數據分析員每天有30%的時間浪費在了辨別數據是否是“壞數據”上。
2、數據質量問題域及分類
數據質量問題從大的方面可以劃分為技術、業務和管理問題域。技術問題域包括數據校驗不夠、默認值使用不當等問題,通常是由于系統建設和數據處理導致的。業務問題域細分為信息問題域和流程問題域,業務上存在多渠道數據創建、不合理的數據變更流程的問題。管理問題域包括數據責任人不明確、沒有獎懲制度,缺少培訓等。
下圖是企業數據創建、加載、匯總、分析到展現的5個步驟,很顯然,步驟①~⑤任何一步出錯都會導致整個結論分析失真。
業務操作部門在數據錄入過程可能輸入錯誤的數據。這決定了數據源的質量。
在數據抽取、加載工程中導致數據記錄丟失、數據重復等問題。
在數據加工、轉換過程中,由于數據加工、轉換的代碼魯棒性和穩定性不夠,導致的數據加工結果出現的錯誤。
數據計算匯總過程中,導致的數據的錯誤。
分析展現工具將加工好的數據展現給數據分析人員、管理決策人員出現的錯誤。
在某種意義上講,分析者所做出的決策的正確性來源于企業信息源的質量、數據倉庫本身的質量、數據集市的質量以及數據倉庫各過程的質量。我們可以看到,在數據應用過程中5步中有4步是技術或管理造成的,只有1步會是錄入環節導致。而恰好是這一步是數據中臺無法管理和解決的業務系統的數據。因此從根本上解決數據質量問題,從源頭解決是最有效的途徑,在輔助數據中臺從技術和管理上加強測試、規范和監控,那么數據質量問題的解決就水到渠成了。
3、數據質量管理體系建設的五個原則
總結古人治理黃河水患,主要有兩種策略,一種是“疏通”,上策遷移民眾和中策分流黃河水患,都是具體體現;另一種是“圍堵”,加高增厚堤防,抑制河水爛漫。
治理數據質量的問題可以應用下古人的智慧和考量。采用規劃頂層設計,制定統一數據架構、數據標準,設計數據質量的管理機制,建立相應的組織架構和管理制度,采用分類處理的方式持續提升數據質量,這是數據質量管理“疏”的方式。而單純依賴技術手段,通過增加ETL數據清洗處理邏輯的復雜度,使用數據質量工具來發現ETL數據處理中的問題屬于“堵”的方式,只能解決表面的問題,不是根本的解決方法。事實上這種方式也在好多企業中使用,其根本目的在于提高ETL處理的準確度,做法無可厚非,畢竟找別人的問題之前,先要保證自身是沒有問題的。
按照多個行業實施數據質量管理項目的經驗,數據質量管理應該是采用“疏”和“堵”相結合的方式,通過這種方式解決數據質量問題有5個原則。如下圖所示:
1)全程監控原則:全程監控是針對數據生命周期全過程中各環節進行數據質量監控,從數據的定義、錄入、獲取、計算、使用的全過程進行質量監控。數據定義階段,對數據模型、字典枚舉值進行監控,判斷是否遵循了統一的標準。數據錄入階段對輸入的合法性進行校驗等,數據獲取階段對數據記錄數、數據一致性進行檢核等。明確各部門在數據全生命周期中的責任,全方位保證數據質量。
2)閉環管理原則:從問題定義、問題發現、問題整改、問題跟蹤、效果評估5個方面建立問題處理的閉環機制。從業務、技術兩個維度出發做問題定義,由工具自動發現問題,明確問題責任人,通過郵件、短信等方式進行通知,將問題及時通知到責任人,跟蹤問題整改進度,建立相應的質量問題評估KPI,保證數據質量問題管理閉環。
3)全員參與原則:數據質量提升涉及到組織多個部門,包括不僅限于數據提供方、數據消費方、數據質量管理員等。尤其在數據質量問題定義和整改階段需要多方人員的參與才能達到效果。在數據質量問題定義階段,需要數據責任人、業務專家、數據使用人員對數據問題校驗規則達成一致,共同制定數據檢核范圍、數據問題條件等。問題整改階段,要由數據責任方、數據質量管理員和技術人員,共同定位問題原因并進行整改。
4)借助工具,自動檢核:數據質量工具保證問題發現的效率。在數據使用過程中深入分析已發現的數據質量問題的成因,及時由IT部門將其轉化為技術規則落地到系統中,通過技術手段自動檢核數據質量問題,提升數據質量檢核效率。數據質量工具在采集到的數據模型元數據的基礎上,通過配置自動生成檢核規則的腳本,并通過設置數據質量檢核任務的運行周期,定時檢核數據質量問題,并將數據質量問題數據保存到系統中,便于用戶進行查看和定位問題。
5)提升意識、主動管理:數據質量管理工作需要提升全員數據質量意識,形成組織數據治理的文化氛圍。數據使用方發現數據質量問題后,及時主動的進行問題的上報,避免數據問題對業務造成影響。數據責任人接到問題通知后,應主動配合數據管理部門進行問題整改。數據管理部門應該從事前預防數據問題出發,制定企業數據標準并加強宣貫,減少因為缺少統一的標準、規范導致數據質量問題。
4、數據質量管理框架及關鍵技術
在“五個原則”的指導下開展數據質量提升工作,從系統層面需要制定數據質量管理的功能框架。數據質量系統應具備數據質量規則管理、檢核腳本管理、任務管理、檢核結果管理、數據質量報告等功能,以度量規則和檢核腳本管理為主線,通過自身任務管理模塊或者第三方調度為觸發點,幫助企業建立統一的數據質量管理工具。
從系統實現的角度上,要解決三個關鍵技術。
1、檢核腳本的自動生成。數據質量檢核實際上是按照腳本執行并篩選出有問題的數據。隨著數據質量度量規則的增多,通過人為手工編寫腳本的方式就無法應對快速增加的度量規則,通常一個中等規模的金融企業,就具備上千條度量規則。因此通過配置的方式,利用腳本生成引擎自動生成檢核腳本,是數據質量工具必須具備的功能。
2、多線程檢核架構。檢核腳本的執行時間是影響能夠及時查看到數據質量問題的另一個關鍵因素。在腳本執行過程中,需要采用多線程并發來執行保證在較短的時間內檢核出有問題的數據。
3、數據質量報告。數據質量報告是對企業數據質量情況的總結分析,需要能夠從不同維度系統、部門、檢核類別等維度生成固定數據質量報告。還需要支持按照選擇的數據質量規則,時間等條件,來生成個性化的數據質量報告。
5、數據質量管理的最佳實踐
為實現數據質量的切實落地,推進數據質量問題的有效解決,某銀行將數據質量問題考核作為重中之重,將數據質量問題解決效果與部門KPI掛鉤,減小了數據質量整改的難度,為數據質量的推進提供驅動力,能夠及時對發現的數據質量問題進行處理。該銀行的數據質量工作開展,分為了三個階段:
第一階段:搭建數據質量系統。借助數據質量管理系統自動對數據倉庫進行檢核, 摸清數據質量情況,解決技術原因導致數據質量問題。
第二階段:定位問題責任主體。將數據質量問題檢核提前到業務系統中來,將問題數據所在分行業務數據錄入人一并獲取到數據質量管理平臺,從而為數據質量問題的追本溯源奠定了技術基礎。
第三階段:成立數據質量考核評價小組。為保證已發現的業務原因導致的問題能得到有效地解決,設計出了分層級的考核體系,由數據質量考核評價小組對各家分行數據質量問題的解決情況進行打分,計入各家分行的KPI績效考核中。
在后續數據質量系統的運行,開展對銀行內部多個業務部門進行了考核,考核范圍包括多個重要的業務系統,并檢核出了各家分行的多項數據問題,大大提升了數據質量問題的修改率,整改的數據問題數據涉及到超過數千億的貸款額度。
參考文獻:
[1]DAMA-DMBOK2數據管理知識體系指南.機械工業出版社2020.5
[2]劉慶會.大數據是否值得信賴——淺談商業銀行如何提升數據質量 [EB/OL], 2016-04-14
[3] 賈讓.治河三策千古鑒.河北水利,2016(2):36-36
責任編輯:xj
-
數據
+關注
關注
8文章
7080瀏覽量
89175 -
數據中心
+關注
關注
16文章
4806瀏覽量
72208 -
人工智能
+關注
關注
1792文章
47409瀏覽量
238923
發布評論請先 登錄
相關推薦
評論