一直想寫一篇關于數據中臺正面文章,現在有閑時做些總結,想充分詮釋一下DT內部人如何看待數據中臺。
數據中臺的概念是最早由阿里巴巴首次提出,是為了應對內部眾多業務部門千變萬化的數據需求和高速時效性的要求而成長起來的,它既要滿足業務部門日常性的多個業務前臺的數據需求,又要滿足像雙十一,六一八這樣的業務高峰、應對大規模數據的線性可擴展問題、應對復雜活動場景業務系統的解耦問題,而在技術、組織架構等方面采取的一些變革。
數據中臺的定義
阿里巴巴數據中臺是阿里云上實現數據智能的最佳實踐,它是由數據中臺方法論+組織+工具所組成,數據中臺方法論采用實現企業數據的全局規劃設計,通過前期的設計形成統一的數據標準、計算口徑,統一保障數據質量,面向數據分析場景構建數據模型,讓通用計算和數據能沉淀并能復用,提升計算效能;數據中臺的建設實施必須有能與之配合的組織,不僅僅相應崗位的人員要配備齊全,而且組織架構建設也需要對應,有一個數據技術部門統籌企業的數字化轉型,數據賦能業務中形成業務模式,在推進數字化轉型中實現價值;數據中臺由一系列的工具和產品組成,阿里云數據中臺以智能數據構建與管理Dataphin產品、商業智能QuickBI工具和企業參謀產品為主體等一系列工具組成。
阿里云在過去幾年中經過數十個實際項目沉淀形成實施標準化流程和方法論。阿里云OneData數據中臺解決方案基于大數據存儲和計算平臺為載體,以OneModel統一數據構建及管理方法論為主干,OneID核心商業要素資產化為核心,實現全域鏈接、標簽萃取、立體畫像,以數據資產管理為皮,數據應用服務為枝葉的松耦性整體解決方案。其數據服務理念根植于心,強調業務模式,在推進數字化轉型中實現價值。
數據中臺的概念來自于阿里巴巴“大中臺,小前臺”業務戰略下的數據化實踐,它是關于“數據價值化和數據資產化”的一整套解決方案,內容包括數據中臺方法論,組織,數據產品三個方面。
數據中臺建設成果主要體現在兩方面:一個是數據的技術能力,另一個是數據的資產。今天阿里的各個業務都在共享同一套數據技術和資產。阿里內部為這個統一化的數據體系命名為“OneData”。Onedata體系包括OneModel,OneID,OneService3個方面,在OneData體系之下,不斷擴大的業務版圖內的各種業務數據,都將按統一的方式接入中臺系統,之后通過統一化的數據服務反哺業務。
如下圖所示:
數據中臺頂層設計
數據中臺定位于計算后臺和業務前臺之間,其關鍵職能與核心價值是大數據以業務視角而非純技術視角出發,智能化構建數據、管理數據資產與提供數據調用、數據監控、數據分析與數據展現等多種服務。承技術啟業務,是建設智能數據和催生數據智能的引擎;而以數據中臺內核價值為中段的數據中臺業務模式不是純數據、不是純技術、也不是純業務,它同時關注著與大數據能力相關的上下游,以大數據為中軸線,基于技術而又深入業務,它以數據產品+數據技術+方法論+場景實現的綜合性輸出,同時為智能化數據、技術極致提升和數據智能化業務負責。
一方面專注于從業務視角,建設標準統一、融會貫通、資產化、服務化、閉環自優化的數據中臺智能數據體系,同時極致化追求技術上的降本提效。另一方面,致力于智能數據與業務場景深度融合的業務數據化與數據業務化中的各類智能化價值創新。
數據中臺與傳統數據倉庫差異
數據倉庫已經經歷了40多年的發展,廣泛應用于大型商業企業,幫助業務人員和高層人員做分析和決策,它起源于決策支持系統(decision support system),其展現形式更多以報表方式實現。因此數據倉庫是一個面向主題的、集成的、非易失性的,隨時間變化的用來支持管理人員決策的數據集合。
傳統的企業級數倉還是以TD,Oracle,IBM/DB2等傳統數據庫為主, 由于受限于數據的處理能力,很少有EDW的數據容量超過1TB,因此不能對基礎數據進行跨域的處理(原因是RMDBS對大數據量的關聯join處理耗時非常長),因此要對新的指標分析的時候需要從基礎數據重新生成匯總表,耗時耗力,使用方法上無法實現跨數據集或數據域的處理。新一代的數據倉庫采用分布式架構,一般基于MPP數據庫或大數據平臺實現數據分析,因此傳統的數據倉庫具有以下幾個特點:
業務主題性:傳統的數倉要求解決服務問題,比如對一個生產型企業來說公司的主題域是產品、訂單、銷售商、材料等,要解決應用問題可能是庫存、銷售、銷售商等。其有業務是面向主題的。
系統集成性:在傳統數據倉庫中,集成是最重要的,由于計算和存儲的成本原因,其數據需要從不同的數據源抽取過來并集中,其數據的冗余度需要盡可能的降低,因此數據進入數據倉庫中需要進行轉化、格式化、重新排列和匯總等操作,其所有數據具有單一物理特性,都是結構化方式存在。在系統架構方面,也是以集中式存儲和計算方式存在,新一代的數倉采用分布式計算,但軟件產品采用集中部署方式存在。
非易失性:數倉系統會記錄所有記錄,與業務系統相比,它不會對記錄進行變化操作(update和delete),它會保留所有記錄的變化,但受限于成本和計算能力考慮,數倉不會記錄全量明細數據,特別是日志數據,因此大部分數倉平臺的數據容量在TB級別。
時間變化性:數據倉庫中每個數據單元只是在某一時間是準確的,因此數據單元的準確性與時間相關,數據倉庫中的數據時間范圍5-10年。
系統一體化: 傳統數倉以系統整體設計為特性,軟件平臺圍繞著數據庫或計算平臺以整套服務為主,結合度縝密,對外服務也較單一。傳統的數倉采用集
中式數據庫作為數據和計算平臺,近10年來,新興企業采用分布式數據庫和大數據技術實現OLAP類數倉建設,但其本質還是基于一個整體來考慮的。
在系統和服務上數據中臺與傳數倉有很多明顯的區別,首先表現在服務對象方面,傳統的數倉只是滿足領導數據決策的需要,因此更多的體現在報表輸出,使用者以小部分的業務人員和決策層為主,新需求的開發周期以月甚至到年為計。而數據中臺由于起家于互聯網企業,其使用對象擴大到一線服務人員和商家企業,其業務需求更繁雜,很難用一套報表系統滿足需求,因此催生出一個生態的數據服務。
其次是體系架構上,數據中臺是由多系統組成,除了計算平臺外,其方案由多個分布式服務系統提供,滿足不同業務需求和高并發和系統自動擴容需求,除了大數據存儲和計算平臺外,還包含數倉建設、工作臺開發IDE、任務調度、數據同步服務、對外統一數據服務、資產管理系統、實時流計算平臺和開發平臺、oneID計算和查詢模塊,敏捷BI報表開發等多個組件,通過多個維度組件組成一整套方案。
再則,在服務表現形式上數據中臺體現的更多樣化,數據中臺不僅能提供報表基礎服務功能,而且為了滿足各個業務部門不同需求,會提供領導決策系統、行業分析、業務洞察、業務重塑,自助查詢等多個功能,滿足從領導層、PD、業務人員、開發人員等各個層級的需求。
在繼承性方面,數據中臺采用傳統的數倉Kimball維度建模法,按照事實表,維表來構建數據中臺的數據模型。
數據中臺與數據湖區別
業界近3年對datalake說的比較多,是結合近10年來大數據理念興起的,首次由Dan Woods在2011年7月福布斯上的“Big Data Requires a Big, New Architecture”中提出,它提出CIO們應該考慮數據湖(“Data lake”)這個思維方式來替代數據倉庫(“data warehouse”)的思維,它的架構和理念是把原先不存儲的基礎數據也存儲起來,匯總各個數據源的數據方便以后的數據分析和查詢,因此數據湖是數據的聚集、加工為目的數據資源池,但是數據湖只是解決了聚集問題,在數據加工方面由于不可控制的需求變得異常繁重,由于數據的繁雜和混亂引入數據治理讓數據的加工更是舉步維艱。
傳統上數據湖中的數據會存儲原始數據,量大并且非結構化和半結構化的數據較多,需要有一個低成本分布式存儲和計算架構來承載這些數據,屬于ODS層,缺乏數據主題和加工能力,因此近期對數據湖上的數據治理項目和應用越來越多。
數據湖匯集了原始ODS數據,解決了傳統數倉基礎數據缺乏的問題,作為企業數倉平臺的補充,有其重要的意義,但數據湖的作用在于匯集企業的各個數據源,有一個存放和分析之地,在規劃中沒有一個整體的數據資產規劃和管理職能,這會導致其功能薄弱性,不能承擔整體的數據處理和管理之重,實際在一些大型企業,使用數據湖其數據陷阱就會馬上出現,業務人員的需求需要DBA或IT人員經過繁雜的處理步驟才能實現達到業務人員的數據分析目的,其會耗費開發人員的時間耗以周計,原因之一是數據湖沒有一個數據構建和管理平臺去管理和計算這些數據,因此不講治理的雜亂無章的數據看似能提升數據獲取,數據分析的效率,實際上并不能承擔企業智能化的使命。
企業數據智能需要解決企業數據智能所面臨的諸多問題,企業數據智能需要解決數據的快速計算和結果產出;需要對企業數據資產有整體規劃和掌控;需要有一個好的方法論處理業務邏輯繁雜的統計;需要有一個好的構建和管理平臺面向業務使用方和開發使用方。..這些都是數據湖所不能解決的問題。
數據中臺是由阿里巴巴在2015年在內部技術演進和組織優化中提出中臺戰略中提到的,數據湖本身的缺陷正是數據中臺強項,二者可以起到方案補充的作用,在現有技術框架中數據中臺可以基于Hadoop數據湖平臺作為數據存儲和計算載體,實現數據的加工和處理,數據中臺更多實現數據的管理,強調利用數據的能力,強調數據開發和高效的使用,數據中臺的數據資產管理可以對數據湖中的數據按照數據域方式進行管理并結合業務的邏輯實現整個數據模型的加工和開發。
數據中臺與數據域相比,數據中臺強調方法論,組織和工具的建設。非常強調數據賦能業務,衍生出很多的數據業務產品。比如在阿里面向商家的生意參謀,面向人物屬性的標簽服務、面向行業小二的行業洞察…這些都極大的擴展了數據價值,其次數據中臺按分析的原子指標和派生指標方式做計算并存儲在Maxcompute平臺上,如有及時查詢要求會同步分析結果數據給MPP或其他DB。這塊在數據頂層設計,全域資產、統一技術、產品業務上與Datalke及EDW是不同的。
現有大數據平臺廠商和云服務廠商推崇數據湖有其商業目的,AWS認為“云數據湖代表未來,能從數據中挖掘出更多價值”。AWS對數據湖的理解是基于同一存儲、對接各類引擎進行分析查詢工作,因此推崇Amazon S3來構建數據湖;微軟推崇“Azure Data lake”基于HDinsight(原先Hortonworks公司產品,現是Cloudera產品)上層使用hive,spark,U-SQL計算引擎實現計算和查詢;華為推薦DAYU數據湖運營平臺,強調統一管理和功能的豐富性。這些解決方案非常強調存儲服務和想配套的硬件銷售。
最后說到底都是企業提供數據計算、存儲和應用的平臺,最終各種平臺的目的都是要更好地服務于業務。
數據中臺所面臨的挑戰
隨著數據中臺理念的普及,各行各業逐步接受了這個概念,很多廠商通過招投標采購、自身投入等各種方式建設了數據中臺,但在建設和具體運營中發現了很多問題,諸如數據運營是否能產生效益,對業務是否有推動價值,取數是否快速敏捷等問題…
數據中臺建設是一個循序漸進的建設過程,數據積累和分析維度都有一個數據和知識積累,認知的過程,和業務系統的“交鑰匙”工程有本質不同,營銷,市場和供應鏈的數據是在不斷變化中,營銷活動,產品也在不斷發展和更新中,因此,數據中臺建設是一個不停迭代和發展的過程,需要持續投入是數據中臺運營部門所面臨的最大的挑戰。
業務數據的分析需求會有很大變化,回顧互聯網或傳統產業的發展歷程,在2007年iPhone智能手機以一個全新的形式推向市場前,傳統的數據分析需求還是停留在PC或線下數據的分析,而今天,幾乎所有的分析維度幾乎都是來自線上終端(手機)需求或由線上數據來推動線下運營的需求。而今天隨著5G和AI技術的發展,越來越多的IOT設備產生的數據開始支撐著數據分析場景,比如商場、飯店已經開始使用攝像頭等傳感器來收集游客對商品或服務的喜好,這些都觸動對數據中臺的分析需求,這2個小小例子說明數據中臺的分析需求是在不斷變化中,因此數據中臺建設也需要持續迭代和發展,而不是自我運行的,這需要開發人員在不斷迭代中找到事物發展的規律,總結形成數據服務應用,滿足普遍化的業務需求。在GPS傳感器集成到手機中前,人們無法獲知運動中的人位置,通過定位傳感器衍生出位置服務,比如大眾點評中的餐飲家政等生活圈的服務,這些數據會催生出人新的位置標簽,生活圈等指標數據,這些對業務運營有非常大的幫助,因為有了這個信息,你不會再給一個偶爾因為差旅去商家消費的顧客再發送促銷信息,也不會給偶爾消費的人有促銷廣告,這會幫助你的營銷更有針對性,更精準。
傳統企業在數倉建設都有一個分析平臺,固化了很多分析指標,這些分析指標每天發生一些變化,為決策層提供了決策支撐,但指標的更替和變化確以月和年計,這導致對新業務和事物的業務反饋不夠及時,因此面對這一挑戰需要有一個靈活的數據中臺加工機制來滿足這些需求。這首先需要有一個組織來支撐這個運營目標,使得運營和開發團隊為這個目標達成這個目標,在阿里巴巴內部數據技術及產品部門就是這個組織的典型代表,通過組織機制來推動運營,滿足業務部門不間斷的數據需求,同時基于需求開創了一套方法論并開發了一系列的工具幫助業務部門達成這一業務目標。這需要數據中臺的開發團隊開發一套方便,便捷的自助取數工具來滿足業務部門的需求。
誠然,在數據建設中還會碰到一些其他潛在問題,諸如需求不明確,分析場景設計不合理,數據指標和分析思路不夠能解決用戶痛點等情況,但這些都可以通過增加投入,特別是加強咨詢和調研的力度來解決這些問題。
尾聲
數據中臺是很多傳統企業做數字化轉型的重點投入,這需要從戰略、方法論、工具、執行和組織層面做系統規劃、有序執行,阿里過去多年經歷了內部多年的建設沉淀出多個工具和數據產品,經過央視網、海底撈、飛鶴、聯華商超、南航等多個傳統行業落地項目的淬煉得出實施的方法論,這些轉型先鋒為中國企業的數字化轉型具有借鑒意義。
阿里巴巴數據中臺團隊,致力于輸出阿里云數據智能的最佳實踐,助力每個企業建設自己的數據中臺,進而共同實現新時代下的智能商業!
阿里巴巴數據中臺解決方案,核心產品:
Dataphin,以阿里巴巴大數據核心方法論OneData為內核驅動,提供一站式數據構建與管理能力;
Quick BI,集阿里巴巴數據分析經驗沉淀,提供一站式數據分析與展現能力;
Quick Audience,集阿里巴巴消費者洞察及營銷經驗,提供一站式人群圈選、洞察及營銷投放能力,連接阿里巴巴商業,實現用戶增長。
來源:云棲社區
評論
查看更多