IDC調研顯示,大數據分析已在數字化轉型戰略中成為第一要務。今年1月發布的《大數據技術前瞻》中更指出:超大規模數據如何組織和管理、數據量指數級增長時效性差、數據如何打破多源異構造成的隔閡、從單域走向跨域數據融合、數據治理質量評估等仍是制約大數據發展的瓶頸。當前,湖倉一體是最佳解決方案。
湖倉一體是構建現代數據棧的關鍵
在近兩年的Gartner數據管理技術成熟曲線圖中,Lakehouse湖倉一體技術已成為主流架構,其主要觀點是結合數據湖和數據倉庫的優勢,旨在構建高效、靈活、簡潔的現代數據平臺。
數據湖內承載全量數據,根據業務需求靈活組合,對數據進行批量、實時加工,讓企業用一份數據,按需建立AI、BI、數據科學等多工作負載,加速數據在湖內流動,減少80%的數據搬遷,一個數據平臺按需支持批處理、流計算、交互式查詢和機器學習四大場景,根據上層業務建設多樣性數倉集市。
湖倉一體避免了煙囪式割裂建設導致的效率問題,進一步降低多技術平臺導致的運維復雜度,降低了跨湖倉來回ETL的時延。
云技術、開源社區和開放技術模式,促使大數據飛速發展
▎頭部云廠商引領大數據技術發展
根據《IDC大數據平臺市場報告,2021H1》發現大數據平臺的Top4廠商均為云廠商。云計算為大數據提供計算、存儲資源,具有彈性伸縮,動態擴展等優勢,加速了云與大數據技術深度融合。
·優勢一:資源彈性發放,業務快速上線
通過云原生大數據服務,實現小時級發放上線,容器化部署,讓客戶更加聚焦上層業務。
·優勢二:存算分離,更低TCO
云計算可以將計算和存儲資源分離,實現計算不夠擴計算、存儲不足擴存儲。
·優勢三:多服務組合,靈活按需建立多工作負載
通過湖倉一體和云原生技術,圍繞全局一份數據,按數據全生命周期展開,靈活按需構建。
▎大數據開源技術蓬勃發展
近十年來,經過全球持續技術投入,大數據開源技術已經成為事實標準,并在客戶數字化、智能化轉型推動下加速迭代更新。看似免費、易獲得的特點,使得開源軟件在各領域有意無意獲得廣泛使用。
根據DB-Engine顯示開源license流行度已經超過一半,開源技術仍將持續主導大數據技術發展,即“軟件吞噬世界,開源吞噬軟件”。
▎開放數據格式更加適合靈活建模分析
大數據如今已經從早期的批量加工深入到政企客戶全業務場景,但如果還采用傳統的FS-LDM方式建模,將會面臨靈活性差、周期長、成本高的問題。處于業務高速發展期的客戶,往往要求數據平臺要靈活、高效。
大數據技術通過開放的數據格式,幫助客戶快速構建面向不同使用者的貼源層-明細層-匯總層-集市層,結合大寬表自助式OLAP分析組件,進一步解決大數據的大表關聯問題,面向業務靈活建模,讓數據驅動業務創新更加輕量敏捷。
華為云Stack FusionInsight MRS,云原生數據湖讓數據走上“高速”路
華為在湖倉一體早有布局,在2020年華為全球分析師大會上華為云CTO張宇昕發布了FusionInsight湖倉一體架構。
作為部署在政企客戶本地數據中心的云基礎設施,華為云Stack提供FusionInsight MRS云原生數據湖(以下簡稱“FusionInsight MRS”),采用“一湖+多樣集群+數據智能”分層建設,加速現代數據棧構建。
當前,政企客戶數據平臺存在三種常見的建設方案:
X傳統數倉
興起于上世紀90年代,對于早期僅需求數據OLAP較為常用。隨著政企客戶業務高速發展,對于面對多樣性數據需要匹配業務特定場景的多樣化訴求,能力太過單一。
X傳統大數據
早期政企往往按業務部門需求,分開建設批處理集群、流處理集群,煙囪式建設導致建設成本居高不下。多系統平臺運維復雜,還存在大量數據冗余,造成ETL來回搬遷,制約了政企數據發揮要素關鍵價值。
X湖外建倉
數倉在上世紀90年代高速發展,當時信息化程度較高的金融、運營商等行業,大量使用了傳統數倉。2010-2020年之間,隨著Spark、Flink、Hive、HBase、ClickHouse等技術逐步成熟,大數據逐步成為數據處理主要平臺,湖外建倉導致湖倉來回搬遷的耗時問題日益凸顯,超長的數據處理鏈路,多系統維護的復雜度,成為政企客戶釋放數據價值的障礙。
上述三種傳統企業數據分析平臺,現在都可以平滑演進到FusionInsight MRS。
▎FusionInsight MRS“一湖+多樣集群+數據智能”分層建設
FusionInsight MRS通過“一湖+多樣集群+數據智能”分層建設,有效整合傳統大數據、傳統數倉、湖外建倉方案,實現傳統大數據平臺向云原生數據湖演進、傳統數倉數據集可以向MRS多樣性集市升級。
·FusionInsight MRS采用湖倉一體架構,結合湖倉優勢,即保障了全局一份數據,還實現了數據的一致性,進一步讓實現大數據平臺SQL化更好的落地;
·政企客戶可以采用全局一個數據湖,讓內部全量數據充分共享、存儲與計算,實現數據資源相關的集約化;
·現代數據棧可以提供多樣性集市,政企客戶按照業務場景,在一個數據湖之上,匹配最適合當前業務的數倉集市,讓數據計算達到極致性能;
·當然,近年來數智融合技術的成熟,在Gartner相關報告建設“以數據為中心的人工智能”的指導下,AI將基于數據湖,實現“數據->信息->知識->智慧”的價值閉環。
▎FusionInsight MRS湖倉一體架構實現集約化建設“一企一湖”
政企客戶使用湖倉一體后,可以實現:
·架構開放,讓企業數據平臺持續演進
相較傳統數倉、數據庫系統,大數據面向海量數據分析而生,其橫向擴展能力強,并隨著政企客戶業務的高速發展,最大單集群已經可擴至6萬多節點,還可以通過集群聯邦無限擴容。
·單向流動,數據一致性好
單向流動,無交叉。湖倉一體批流一體技術的成熟,讓一份數據在加工時就實現不同業務數據的分層解耦,即保障了靈活性,又保障了時效性,更是實現全局數據的一致性,保障數據的“清潔”,也進一步減輕了數據治理的負擔。
·全生命周期數據開發和數據治理,提高數據質量
數據治理是數據分析正確的前提,數據治理為政企客戶提供多源數據的集成,通過數據開發編排實現數據作業的ETL和作業自動化,采用數據適量實現政企客戶多層級全局統一的數據質量,最終形成可視、可管、可用的高質量數據地圖。
·數據“可用不可見”
隨著人工智能、密碼學、可信執行環境三個關鍵技術的成熟,以保障數據安全與隱私為前提,數據的可信流通與用數,將通過多域數據聯邦分析與訓練實現,在數據開放、數據交易、普惠金融、聯合營銷、聯合風控等場景大放異彩。
▎FusionInsight MRS多樣集市靈活匹配高速發展的業務訴求
為靈活匹配高速發展的業務訴求,FusionInsight MRS也提供了豐富的組件:
·在多表復雜關聯場景
大容量多表復雜關聯分析組件Doris可以實現PB級數據亞秒響應的。
·在多維分析場景
ClickHouse支持亞秒級大寬表實時OLAP,單表支持1萬多列,萬億行數據。
·在時序分析方面
專業的時序數據庫IoTDB提供“專、快、易、穩、省”能力,壓縮比相較傳統時序數據庫壓縮比高達20多倍。
同時在眾多分析數倉集市場景,還提供了GES圖引擎、MRS HBase、Elasticsearch、Redis等其他多樣集市,滿足客戶針對業務場景數據量、時效性等業務特點,按需、經濟地建設多樣數據集市的訴求。
基于FusionInsight智能數據湖,已經幫助客戶數據在“高速”路上馳騁:
工商銀行攜手華為云Stack提供的FusionInsight MRS湖倉一體批流一體技術,建成同業最大單集群,總規模達5000+節點,支撐300+行內大數據應用,日均承載批量計算作業數達30萬+,支撐行內外金融數據服務。
某股份制銀行,早期采用批處理集群、數據分析集群、實時處理集群、數據倉庫4套集群,存在多集群建設,管理維護復雜,人力填入代價高。
通過采用FusionInsight MRS方案,集群歸一化建設,使得集群規模降低28.2%,資源利用率提升20%+,運維工作量減少50%,極大提升行內用數效率。
目前,FusionInsight智能數據湖已服務于全球60多個國家的3500多個客戶,累計交付40多萬節點,最大單集群已達1萬多節點,700多PB,助力政務、金融、泛企業行業加速現代數據棧建設。
審核編輯黃宇
-
大數據
+關注
關注
64文章
8893瀏覽量
137472 -
華為云
+關注
關注
3文章
2555瀏覽量
17451
發布評論請先 登錄
相關推薦
評論