在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據中臺下的數據質量問題

ss ? 來源:EAWorld ? 作者:劉慶會 ? 2020-11-12 14:08 ? 次閱讀

當前越來越多的組織認識到了數據的重要性,為了發揮數據的價值,數據倉庫、大數據平臺、數據中臺的建設如雨后春筍。但數據是一把雙刃劍,它能給企業帶來業務價值的同時也是組織最大的風險來源。糟糕的數據質量常常意味著低效的、錯誤的業務決策,將直接導致數據統計分析不準確、監管業務難、高層領導難以決策等問題。如何在數據中臺搭建數據質量管理體系,形成常態化的數據質量管理流程是決定數據中臺運營應用的重要因素。

目錄:

1.數據質量問題的產生來源

2.數據質量問題域及分類

3.數據質量管理體系建設的五個原則

4.數據質量管理框架及關鍵技術

5.數據質量管理的最佳實踐

1、數據質量問題的產生來源

現在的數據集成融合就和古人筑堤壩一樣,古人筑堤壩是為約束河水,讓自然資源為我所用,發揮自然資源的價值;今人做數據集成融合,建數據中臺,是為了挖掘數據價值,發揮數據資源的價值,讓數據資源為企業的業務創新發揮價值。

在企業信息化初期,各類業務系統恣意生長,這個階段就像沒有修筑大堤前的黃河,河水雖然漫流,但是河道寬闊,雖然也有數據問題,但不明顯。

在企業進行數字化轉型的背景下,尤其是搭建了數據中臺的組織,需要按照統一的結構和標準把各類數據集成起來,就像筑堤束水之后的黃河,泄流不暢、決口不斷等問題紛紛出現,數據不一致、不完整、不準確等各種問題撲面而來。

大數據時代數據集成融合的需求會愈加迫切,不僅要融合企業內部數據,也要融合外部(互聯網等)數據。如果沒有對數據質量問題建立相應的管理策略和技術工具,那么數據質量問題的危害會更加嚴重。據IBM統計,數據分析員每天有30%的時間浪費在了辨別數據是否是“壞數據”上。

2、數據質量問題域及分類

數據質量問題從大的方面可以劃分為技術、業務和管理問題域。技術問題域包括數據校驗不夠、默認值使用不當等問題,通常是由于系統建設和數據處理導致的。業務問題域細分為信息問題域和流程問題域,業務上存在多渠道數據創建、不合理的數據變更流程的問題。管理問題域包括數據責任人不明確、沒有獎懲制度,缺少培訓等。

下圖是企業數據創建、加載、匯總、分析到展現的5個步驟,很顯然,步驟①~⑤任何一步出錯都會導致整個結論分析失真。

業務操作部門在數據錄入過程可能輸入錯誤的數據。這決定了數據源的質量。

在數據抽取、加載工程中導致數據記錄丟失、數據重復等問題。

在數據加工、轉換過程中,由于數據加工、轉換的代碼魯棒性和穩定性不夠,導致的數據加工結果出現的錯誤。

數據計算匯總過程中,導致的數據的錯誤。

分析展現工具將加工好的數據展現給數據分析人員、管理決策人員出現的錯誤。

在某種意義上講,分析者所做出的決策的正確性來源于企業信息源的質量、數據倉庫本身的質量、數據集市的質量以及數據倉庫各過程的質量。我們可以看到,在數據應用過程中5步中有4步是技術或管理造成的,只有1步會是錄入環節導致。而恰好是這一步是數據中臺無法管理和解決的業務系統的數據。因此從根本上解決數據質量問題,從源頭解決是最有效的途徑,在輔助數據中臺從技術和管理上加強測試、規范和監控,那么數據質量問題的解決就水到渠成了。

3、數據質量管理體系建設的五個原則

總結古人治理黃河水患,主要有兩種策略,一種是“疏通”,上策遷移民眾和中策分流黃河水患,都是具體體現;另一種是“圍堵”,加高增厚堤防,抑制河水爛漫。

治理數據質量的問題可以應用下古人的智慧和考量。采用規劃頂層設計,制定統一數據架構、數據標準,設計數據質量的管理機制,建立相應的組織架構和管理制度,采用分類處理的方式持續提升數據質量,這是數據質量管理“疏”的方式。而單純依賴技術手段,通過增加ETL數據清洗處理邏輯的復雜度,使用數據質量工具來發現ETL數據處理中的問題屬于“堵”的方式,只能解決表面的問題,不是根本的解決方法。事實上這種方式也在好多企業中使用,其根本目的在于提高ETL處理的準確度,做法無可厚非,畢竟找別人的問題之前,先要保證自身是沒有問題的。

按照多個行業實施數據質量管理項目的經驗,數據質量管理應該是采用“疏”和“堵”相結合的方式,通過這種方式解決數據質量問題有5個原則。如下圖所示:

1)全程監控原則:全程監控是針對數據生命周期全過程中各環節進行數據質量監控,從數據的定義、錄入、獲取、計算、使用的全過程進行質量監控。數據定義階段,對數據模型、字典枚舉值進行監控,判斷是否遵循了統一的標準。數據錄入階段對輸入的合法性進行校驗等,數據獲取階段對數據記錄數、數據一致性進行檢核等。明確各部門在數據全生命周期中的責任,全方位保證數據質量。

2)閉環管理原則:從問題定義、問題發現、問題整改、問題跟蹤、效果評估5個方面建立問題處理的閉環機制。從業務、技術兩個維度出發做問題定義,由工具自動發現問題,明確問題責任人,通過郵件、短信等方式進行通知,將問題及時通知到責任人,跟蹤問題整改進度,建立相應的質量問題評估KPI,保證數據質量問題管理閉環。

3)全員參與原則:數據質量提升涉及到組織多個部門,包括不僅限于數據提供方、數據消費方、數據質量管理員等。尤其在數據質量問題定義和整改階段需要多方人員的參與才能達到效果。在數據質量問題定義階段,需要數據責任人、業務專家、數據使用人員對數據問題校驗規則達成一致,共同制定數據檢核范圍、數據問題條件等。問題整改階段,要由數據責任方、數據質量管理員和技術人員,共同定位問題原因并進行整改。

4)借助工具,自動檢核:數據質量工具保證問題發現的效率。在數據使用過程中深入分析已發現的數據質量問題的成因,及時由IT部門將其轉化為技術規則落地到系統中,通過技術手段自動檢核數據質量問題,提升數據質量檢核效率。數據質量工具在采集到的數據模型元數據的基礎上,通過配置自動生成檢核規則的腳本,并通過設置數據質量檢核任務的運行周期,定時檢核數據質量問題,并將數據質量問題數據保存到系統中,便于用戶進行查看和定位問題。

5)提升意識、主動管理:數據質量管理工作需要提升全員數據質量意識,形成組織數據治理的文化氛圍。數據使用方發現數據質量問題后,及時主動的進行問題的上報,避免數據問題對業務造成影響。數據責任人接到問題通知后,應主動配合數據管理部門進行問題整改。數據管理部門應該從事前預防數據問題出發,制定企業數據標準并加強宣貫,減少因為缺少統一的標準、規范導致數據質量問題。

4、數據質量管理框架及關鍵技術

在“五個原則”的指導下開展數據質量提升工作,從系統層面需要制定數據質量管理的功能框架。數據質量系統應具備數據質量規則管理、檢核腳本管理、任務管理、檢核結果管理、數據質量報告等功能,以度量規則和檢核腳本管理為主線,通過自身任務管理模塊或者第三方調度為觸發點,幫助企業建立統一的數據質量管理工具。

從系統實現的角度上,要解決三個關鍵技術。

1、檢核腳本的自動生成。數據質量檢核實際上是按照腳本執行并篩選出有問題的數據。隨著數據質量度量規則的增多,通過人為手工編寫腳本的方式就無法應對快速增加的度量規則,通常一個中等規模的金融企業,就具備上千條度量規則。因此通過配置的方式,利用腳本生成引擎自動生成檢核腳本,是數據質量工具必須具備的功能。

2、多線程檢核架構。檢核腳本的執行時間是影響能夠及時查看到數據質量問題的另一個關鍵因素。在腳本執行過程中,需要采用多線程并發來執行保證在較短的時間內檢核出有問題的數據。

3、數據質量報告。數據質量報告是對企業數據質量情況的總結分析,需要能夠從不同維度系統、部門、檢核類別等維度生成固定數據質量報告。還需要支持按照選擇的數據質量規則,時間等條件,來生成個性化的數據質量報告。

5、數據質量管理的最佳實踐

為實現數據質量的切實落地,推進數據質量問題的有效解決,某銀行將數據質量問題考核作為重中之重,將數據質量問題解決效果與部門KPI掛鉤,減小了數據質量整改的難度,為數據質量的推進提供驅動力,能夠及時對發現的數據質量問題進行處理。該銀行的數據質量工作開展,分為了三個階段:

第一階段:搭建數據質量系統。借助數據質量管理系統自動對數據倉庫進行檢核, 摸清數據質量情況,解決技術原因導致數據質量問題。

第二階段:定位問題責任主體。將數據質量問題檢核提前到業務系統中來,將問題數據所在分行業務數據錄入人一并獲取到數據質量管理平臺,從而為數據質量問題的追本溯源奠定了技術基礎。

第三階段:成立數據質量考核評價小組。為保證已發現的業務原因導致的問題能得到有效地解決,設計出了分層級的考核體系,由數據質量考核評價小組對各家分行數據質量問題的解決情況進行打分,計入各家分行的KPI績效考核中。

在后續數據質量系統的運行,開展對銀行內部多個業務部門進行了考核,考核范圍包括多個重要的業務系統,并檢核出了各家分行的多項數據問題,大大提升了數據質量問題的修改率,整改的數據問題數據涉及到超過數千億的貸款額度。

參考文獻:

[1]DAMA-DMBOK2數據管理知識體系指南.機械工業出版社2020.5

[2]劉慶會.大數據是否值得信賴——淺談商業銀行如何提升數據質量 [EB/OL], 2016-04-14

[3] 賈讓.治河三策千古鑒.河北水利,2016(2):36-36

責任編輯:xj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7080

    瀏覽量

    89175
  • 數據中心
    +關注

    關注

    16

    文章

    4806

    瀏覽量

    72208
  • 人工智能
    +關注

    關注

    1792

    文章

    47409

    瀏覽量

    238923
收藏 人收藏

    評論

    相關推薦

    大型數據中心影響周邊電力質量

    近日,據最新監測數據顯示,美國本土約一百萬個住宅電力質量傳感器發現,大型數據中心附近的電力質量正呈現下降趨勢。這一發現引起了廣泛關注。 報告指出,電力
    的頭像 發表于 12-30 14:17 ?142次閱讀

    PCBA加工常見質量問題揭秘:焊接不良與解決方案

    一站式PCBA智造廠家今天為大家講講PCBA加工的常見質量問題有哪些?PCBA加工的常見質量問題及解決方案。在電子制造行業,PCBA(
    的頭像 發表于 12-13 09:28 ?154次閱讀

    ?安科瑞電能質量監測系統?直流分量,解決光伏發電諧波、電壓波動問題

    安科瑞戴婷 Acrel-Fanny 1. 概述 ?安科瑞電能質量監測系統?是一個用于監測和評估電力系統電能質量問題的系統。電能質量是指電力系統
    的頭像 發表于 12-02 16:26 ?163次閱讀
    ?安科瑞電能<b class='flag-5'>質量</b>監測系統?直流分量,解決光伏發電諧波、電壓波動問題

    LLM在數據分析的作用

    分析的游戲規則。 1. 數據預處理 數據預處理是數據分析的第一步,也是至關重要的一步。LLM在這一階段可以發揮重要作用。 文本清洗 :LLM可以幫助識別和糾正文本數據
    的頭像 發表于 11-19 15:35 ?318次閱讀

    國產芯片為什么質量問題多?

    芯片
    芯廣場
    發布于 :2024年10月31日 18:01:29

    艾體寶干貨 如何使用 IOTA?解決網絡電話(VoIP)質量問題

    本文探討了VoIP(語音通信)質量問題的常見原因,并提供了詳細的故障排除指南。文章首先解釋了VoIP質量問題可能涉及的網絡性能、設備配置、數據包丟失等多個方面。接著,文章使用一個示例使用IOTA
    的頭像 發表于 10-29 09:18 ?205次閱讀
    艾體寶干貨 如何使用 IOTA?解決網絡電話(VoIP)<b class='flag-5'>質量問題</b>

    電能質量問題包括哪些現象

    在現代電力系統,電能質量的優劣直接關系到工業生產效率、設備壽命以及日常生活質量等多個方面。常見的電能質量問題包括電壓波動與閃變、諧波污染以及三相不平衡等。這些問題不僅影響設備的正常運
    的頭像 發表于 08-30 10:03 ?677次閱讀

    智能工廠數據臺的功能和作用

    各類設備、系統和傳感器采集數據,包括生產設備、物流系統、質量檢測系統等。 2. 數據清洗與處理:對采集到的原始數據進行清洗、過濾和格式化,
    的頭像 發表于 08-19 14:13 ?351次閱讀

    人臉識別模型訓練失敗原因有哪些

    人臉識別模型訓練失敗的原因有很多,以下是一些常見的原因及其解決方案: 數據質量問題 數據集是訓練人臉識別模型的基礎。如果數據集存在質量問題
    的頭像 發表于 07-04 09:17 ?655次閱讀

    SMT加工中常見的錫膏印刷質量問題有哪些?

    在SMT加工錫膏印刷的質量也是能夠直接影響到產品整體質量的因素之一,并且在SMT貼片加工中大多焊接缺陷都來自錫膏印刷的質量問題,在高密度高精度的SMT貼片中尤為明顯,常見的錫膏印刷不
    的頭像 發表于 06-14 15:50 ?617次閱讀
    SMT加工中常見的錫膏印刷<b class='flag-5'>質量問題</b>有哪些?

    物聯數據棧網關是什么?

    物聯數據棧網關就是物聯網智能網關。 物聯數據棧網關是物聯網架構的重要組件之一。它是連接物聯網設備和云平臺的中間設備,負責將物聯網設備采集到的數據傳輸到云平臺,并將云平
    的頭像 發表于 03-29 17:10 ?334次閱讀

    數據臺:企業數據戰略的核心

    在當今數字化浪潮,“數據臺”成為企業賦能數據驅動決策,提升業務敏捷性和市場競爭力的秘訣。本文將詳細介紹數據
    的頭像 發表于 03-20 16:36 ?325次閱讀

    語音數據集在智能駕駛的關鍵作用與應用

    的關鍵作用、應用、挑戰以及未來的發展趨勢。 二、語音數據集在智能駕駛的關鍵作用 訓練與優化:高質量的語音數據集是訓練和優化語音識別模型的
    的頭像 發表于 01-31 16:22 ?508次閱讀

    管殼類產品縫焊過程質量問題分析及解決方法

    共讀好書 閆旭冬 李文浩 王雁 ( 中國電子科技集團公司第二研究所) 摘要: 針對微電子管殼類產品的高氣密性封裝,總結了對不同型號產品使用全自動平行縫焊機進行焊接過程中出現的質量問題,并提出了相應
    的頭像 發表于 01-17 17:10 ?471次閱讀
    管殼類產品縫焊過程<b class='flag-5'>質量問題</b>分析及解決方法

    智能張拉及壓漿數據監測系統是如何做到數據采集

    在公路建設過程中橋梁工程作為施工很重要的一個環節,而橋梁工程箱梁的質量問題又直接影響到橋梁的質量,同時箱梁在智能張拉、壓漿生產過程工序
    的頭像 發表于 01-16 17:56 ?653次閱讀
    智能張拉及壓漿<b class='flag-5'>數據</b>監測系統是如何做到<b class='flag-5'>數據</b>采集
    主站蜘蛛池模板: 乱色伦图片区| 午夜精品福利影院| 欧美三级在线观看黄| 日本免费成人| 久久综合丁香| 国产va免费精品高清在线观看| 国产免费久久精品| avtt天堂网永久资源| 手机看片三级| 国产精品国产午夜免费福利看 | 色综合天天综合网国产人| 天堂在线中文无弹窗全文阅读| 色偷偷7777www人| 毛片一级黄色| video另类蛇交| 午夜tv| 国产一级毛片午夜| 555夜色555亚洲夜色| 4338×亚洲全国最大色成网站| 特黄特色的视频免费播放| 美女网站在线观看视频18| 高清色| 人人插人人干| 222aaa免费| 性a爱片免费视频性| 欧美在线色视频| 99久久精品久久久久久婷婷| 神马午夜98| 中文一区二区在线观看| 亚洲最新在线| 欧美拍拍| 影音先锋五月天| 俺要操| 中文字幕有码视频| 女人张开腿让男人捅爽| 成人a毛片免费全部播放| 免费国产成人午夜私人影视 | 亚洲午夜精品久久久久| 狠狠干最新网址| 美女被异性狂揉下部羞羞视频| 四虎在线影院|