據(jù) Gartner 2022 年最新趨勢分析,數(shù)據(jù)分析將成為創(chuàng)新起源與企業(yè)核心能力,數(shù)據(jù)越來越重要了。在更早前 IDC 和數(shù)據(jù)存儲公司希捷的報(bào)告表示,我國產(chǎn)生的數(shù)據(jù)量從 2019 年的約 9.4ZB 將猛增至 2025 年的 48.6ZB。現(xiàn)在,數(shù)據(jù)工程師需要面對愈加繁雜和龐大的數(shù)據(jù)、離線場景/實(shí)時(shí)場景/流式場景等眾多不同的分析場景、多個(gè)數(shù)據(jù)庫技術(shù)棧并存和與之對應(yīng)的存儲計(jì)算成本,很多公司的數(shù)據(jù)團(tuán)隊(duì)往往會被這些海量數(shù)據(jù)與各類底層集群、基礎(chǔ)設(shè)施的要求所淹沒。
如何降本增效,打通數(shù)據(jù)分析與存儲,提高數(shù)據(jù)分析的靈活性,同時(shí)降低底層資源的運(yùn)維成本,成為了令技術(shù)團(tuán)隊(duì)頭疼的問題。
智能湖倉,數(shù)據(jù)分析的下一站已到來
這個(gè)時(shí)代,駕馭數(shù)據(jù)的能力是所有決策者“技能清單”里最重要的一項(xiàng)。歷史告訴我們,無論哪個(gè)行業(yè),率先在行業(yè)中掌握新工具“利器”是多么重要。
最早的傳統(tǒng)型、老式的純數(shù)據(jù)倉庫已經(jīng)不適宜半 / 非結(jié)構(gòu)化數(shù)據(jù)的處理;而單純的數(shù)據(jù)湖雖然適合存儲數(shù)據(jù),但不支持事務(wù)處理,不保證數(shù)據(jù)質(zhì)量,并且缺乏一致性與隔離性。
站在數(shù)據(jù)價(jià)值出口的角度來看,只有各類數(shù)據(jù)價(jià)值平臺全面落地應(yīng)用,大數(shù)據(jù)的潛能才會被進(jìn)一步釋放。為了實(shí)現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的無縫流轉(zhuǎn),打通數(shù)據(jù)存儲和計(jì)算的不同的層面,兼顧數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的成長性,促進(jìn)企業(yè)更有效的工具應(yīng)用,像亞馬遜云科技就提出了“智能湖倉”架構(gòu),幫助企業(yè)客戶加快大數(shù)據(jù)價(jià)值實(shí)現(xiàn)進(jìn)程。
以創(chuàng)新技術(shù)廠商亞馬遜云科技為例,2020 年在亞馬遜云科技 re:Invent 大會上,亞馬遜云科技針對數(shù)據(jù)分析等相關(guān)服務(wù)推出了“智能湖倉”架構(gòu),不過早在 2017 年,亞馬遜就發(fā)布了 Amazon Redshift Spectrum,該功能使得 Amazon Redshift 在當(dāng)時(shí)就具備了打通數(shù)據(jù)湖和數(shù)據(jù)倉庫的能力,實(shí)現(xiàn)跨數(shù)據(jù)湖、數(shù)據(jù)倉庫的數(shù)據(jù)查詢。此外,在 2021 年 re:Invent 大會上,亞馬遜云科技更進(jìn)一步,在存算分離架構(gòu)基礎(chǔ)上,推出更多數(shù)據(jù)分析服務(wù)的無服務(wù)器(Severless)版。
現(xiàn)在,無服務(wù)器架構(gòu)(以 2014 年推出的 Amazon Lambda 為代表)已經(jīng)是云原生中最熱門的技術(shù)類別。無服務(wù)器應(yīng)用程序是由事件驅(qū)動(dòng)的,并通過與技術(shù)無關(guān)的 API 或消息收發(fā)進(jìn)行松散耦合,可以讓開發(fā)者更關(guān)注于構(gòu)建產(chǎn)品中的應(yīng)用,而不需要管理和維護(hù)底層堆棧。現(xiàn)在,數(shù)據(jù)分析服務(wù)借助無服務(wù)器的能力,可以讓用戶更便捷地構(gòu)建數(shù)據(jù)存儲、分析、智能應(yīng)用解決方案,徹底實(shí)現(xiàn)無服務(wù)器的數(shù)據(jù)分析服務(wù),完成底層龐雜數(shù)據(jù)的高效處理、流轉(zhuǎn)與共享。
能夠達(dá)到這樣的技術(shù)水平和高度,離不開時(shí)間的沉淀和技術(shù)的積累。想要深刻理解“智能湖倉”,就需要了解它的過去與現(xiàn)在。我們能看到,亞馬遜云科技所推出的無服務(wù)器數(shù)據(jù)分析服務(wù),經(jīng)歷了幾個(gè)階段:
(1)2006 年,亞馬遜云科技正式推出 Amazon S3,其作為亞馬遜第一個(gè)云產(chǎn)品,提供了多種經(jīng)濟(jì)高效的存儲類和易于使用的管理功能,從而滿足特定的業(yè)務(wù)、組織和合規(guī)性要求。如今“智能湖倉”就是基于 Amazon S3 構(gòu)建數(shù)據(jù)湖,繞湖集成數(shù)據(jù)倉庫、大數(shù)據(jù)處理、日志分析、機(jī)器學(xué)習(xí)等數(shù)據(jù)服務(wù)。Amazon S3 數(shù)據(jù)湖的可靠性和大容量的數(shù)據(jù)存儲能力,是確保整個(gè)“智能湖倉”架構(gòu)有效應(yīng)用的基礎(chǔ)。對于軟件開發(fā)人員來說,現(xiàn)在已經(jīng)是無服務(wù)器架構(gòu)的 Amazon S3 可以很低的成本提供可擴(kuò)展、可靠且延遲低的數(shù)據(jù)存儲基礎(chǔ)設(shè)施,讓開發(fā)人員利用云計(jì)算的規(guī)模優(yōu)勢,以極低的前期資源投入換取穩(wěn)定的數(shù)據(jù)基礎(chǔ)設(shè)施,非常適合進(jìn)行快速技術(shù)創(chuàng)新。
(2)Amazon Athena 是一種無服務(wù)器的交互式查詢服務(wù),用戶能夠輕松使用標(biāo)準(zhǔn) SQL 分析 Amazon S3 中的數(shù)據(jù)。無需 ETL ,具備 SQL 技能的任何人都可以輕松快速地分析數(shù)據(jù)湖中的大規(guī)模數(shù)據(jù)集,這對技術(shù)人員的生產(chǎn)力是一種解放!當(dāng)我們想使用 SQL 直接進(jìn)行數(shù)據(jù)湖上的分析且不想管理任何集群時(shí),Athena 無疑是一個(gè)敏捷且快速開始的選擇。
(3)Amazon Redshift 使用 SQL 在數(shù)據(jù)倉庫、運(yùn)營數(shù)據(jù)庫和數(shù)據(jù)湖間分析結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),專注于在急速獲取洞察,并交付業(yè)務(wù)結(jié)果,無需考慮管理數(shù)據(jù)倉庫等基礎(chǔ)設(shè)施。而現(xiàn)如今,無服務(wù)器版的 Amazon Redshift Serverless 使得數(shù)據(jù)倉庫更加敏捷,用戶無需親自設(shè)置和管理數(shù)據(jù)倉庫基礎(chǔ)設(shè)施,即可在幾秒鐘內(nèi)輕松運(yùn)行和擴(kuò)展分析,實(shí)現(xiàn) PB 級數(shù)據(jù)規(guī)模的數(shù)據(jù)分析。目前來說,已經(jīng)有很多企業(yè)去選擇 Amazon Redshift 來縮短他們獲得洞察的時(shí)間,因?yàn)樗子谑褂?,可在任何?guī)模提供可靠的性能分析所有數(shù)據(jù),也可能是因?yàn)?Amazon Redshift 提供比其他云數(shù)據(jù)倉庫高 3 倍的性價(jià)比。Amazon Redshift Serverless 是非常適合難以預(yù)測計(jì)算需求的情況,例如可變工作負(fù)載、具有空閑時(shí)間的周期性工作負(fù)載以及具有峰值的穩(wěn)態(tài)工作負(fù)載。這種方法也非常適合需要快速入門的臨時(shí)分析需求以及測試和開發(fā)環(huán)境。
(4)Amazon EMR 也推出了 Serverless 無服務(wù)器的版本。開發(fā)者可以使用無服務(wù)器的方式運(yùn)行使用開源大數(shù)據(jù)框架(如 Apache Spark、Hive 和 Presto)構(gòu)建的程序,在云中運(yùn)行 PB 級數(shù)據(jù)分析,而無需配置、管理、優(yōu)化或保護(hù)集群。用戶無需猜測集群大小,Amazon EMR Serverless 具備自動(dòng)細(xì)粒度擴(kuò)縮,并且提供性能優(yōu)化的運(yùn)行時(shí),速度是開源版本的兩倍以上。另外,Amazon EMR 在安裝 Spark、Hive、Presto 或 Trino 時(shí)可以默認(rèn)安裝 Hudi 組件,以實(shí)現(xiàn)開放格式(如 Apache Parquet 和 Apache Avro)維護(hù) Amazon S3 或 HDFS 中的數(shù)據(jù)。舉個(gè)例子,使用 Amazon EMR,技術(shù)人員可以將 Parquet 數(shù)據(jù)集轉(zhuǎn)化為 Hudi 數(shù)據(jù)集,而無需重寫數(shù)據(jù)集,快速將現(xiàn)有數(shù)據(jù)集遷移至 Apache Hudi 數(shù)據(jù)集,例如 Amazon S3 上 1TB 的 Parquet 數(shù)據(jù)集,引導(dǎo)執(zhí)行的速度已經(jīng)比批量插入快了五倍!
通過了解,CSDN 看到,上述這些僅僅只是亞馬遜云科技中的一小部分?jǐn)?shù)據(jù)服務(wù)及其無服務(wù)器版的發(fā)展變化。發(fā)布既是無服務(wù)器架構(gòu)的云原生 NoSQL—Amazon DynamoDB,兩年前即實(shí)現(xiàn)無服務(wù)器化的云原生關(guān)系型數(shù)據(jù)庫Amazon Aurora Serverless v1(本周第二代v2也已上線),也都是值得挖掘的技術(shù)創(chuàng)新。
正是隨著這些服務(wù)的升級與發(fā)展,“智能湖倉”也在向更敏捷,更智能的方向演變。也讓技術(shù)界看到,數(shù)據(jù)分析的下一站已到來。
全棧式云原生數(shù)據(jù)分析服務(wù),讓數(shù)據(jù)真正“敏捷分析”
我們能看到,“智能湖倉”更強(qiáng)調(diào)架構(gòu),強(qiáng)調(diào)數(shù)據(jù)的自由流動(dòng)和集中統(tǒng)一治理?!爸悄芎}”架構(gòu)不是簡單地將湖與倉打通,而是將湖、倉與專門構(gòu)建等數(shù)據(jù)服務(wù)連接成為一個(gè)整體,讓數(shù)據(jù)在其間移動(dòng)和訪問,進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫,以及在數(shù)據(jù)查詢、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等各類專門構(gòu)建等服務(wù)之間按需移動(dòng),從而形成統(tǒng)一且連續(xù)等整體,滿足客戶等各種需求。
亞馬遜云科技的“智能湖倉”架構(gòu)具有靈活擴(kuò)展、專門構(gòu)建、數(shù)據(jù)融合、敏捷分析、開源開放等特點(diǎn)。詳細(xì)來說,背靠 Amazon S3 數(shù)據(jù)湖存儲的高可靠和大容量,對于數(shù)據(jù)存儲資源彈性伸縮擴(kuò)展,在此之上,技術(shù)人員通過使用亞馬遜云科技經(jīng)驗(yàn)總結(jié)的具象產(chǎn)品實(shí)力,如交互式查詢服務(wù) Amazon Athena、云上大數(shù)據(jù)平臺 Amazon EMR、云數(shù)據(jù)倉庫 Amazon Redshift 等專門構(gòu)建的數(shù)據(jù)分析服務(wù),以及數(shù)據(jù)融合統(tǒng)一治理的架構(gòu)之下,企業(yè)可以無需機(jī)器學(xué)習(xí)經(jīng)驗(yàn),使用 SQL 語句,甚至不編寫代碼,去進(jìn)行數(shù)據(jù)分析。這種模式可以大大降低數(shù)據(jù)人員的技術(shù)門檻,讓更多數(shù)據(jù)業(yè)務(wù)人員去擁抱數(shù)據(jù),實(shí)現(xiàn)敏捷、快速、低成本的數(shù)據(jù)分析。
在“智能湖倉”架構(gòu)下,云原生數(shù)據(jù)分析服務(wù)可以全面覆蓋流數(shù)據(jù)分析、數(shù)據(jù)湖、Hadoop 等常用的分析場景,所有均無服務(wù)器化。無服務(wù)器的分析工具讓客戶無需配置、擴(kuò)展或管理集群或服務(wù)器,也不必?fù)?dān)心容量配置,從而可以最大程度地為客戶減少無差別的繁瑣工作,讓數(shù)據(jù)真正實(shí)現(xiàn)全棧、敏捷地分析。
面對海量數(shù)據(jù)與細(xì)分環(huán)境,亞馬遜云科技無服務(wù)器的“智能湖倉”架構(gòu)則將易用、易擴(kuò)展、高性能、專門構(gòu)建、安全及智能等特性融于一體,打通數(shù)據(jù)湖和數(shù)據(jù)倉庫,進(jìn)一步將各種服務(wù)無縫集成,確保數(shù)據(jù)在不同服務(wù)之間順暢流動(dòng),進(jìn)而幫助客戶盡可能最大程度地提高數(shù)據(jù)價(jià)值,加速創(chuàng)新,并成為數(shù)據(jù)驅(qū)動(dòng)型組織。
從亞馬遜的技術(shù)布局和發(fā)展路徑,我們能看到,全棧、云原生的數(shù)據(jù)分析時(shí)代已經(jīng)到來,智能化的湖倉將成為新一代數(shù)據(jù)平臺架構(gòu)。而借助智能湖倉,與數(shù)據(jù)相關(guān)的技術(shù)與業(yè)務(wù)人員,將可以擺脫對底層架構(gòu)與數(shù)據(jù)處理技術(shù)的多個(gè)掣肘,專注于挖掘數(shù)據(jù)的創(chuàng)新性分析與應(yīng)用,以發(fā)現(xiàn)并抓住任何一個(gè)創(chuàng)新的機(jī)遇。
審核編輯 :李倩
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1454瀏覽量
34090 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24748 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8899瀏覽量
137575
原文標(biāo)題:全棧、云原生的數(shù)據(jù)分析時(shí)代已來,我們?nèi)绾巫プC(jī)會?
文章出處:【微信號:coder_life,微信公眾號:程序人生】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論