數據湖,是一個并不新穎卻越來越被用戶看重的名詞。
從2010年Pentaho公司的創始人兼首席技術官詹姆斯·狄克遜(James Dixon)首次提出數據湖的概念開始,數據湖十年發展之路可謂是兜兜轉轉、起起伏伏。在這期間,既有開源廠商們提出的各種營銷理念,也有傳統存儲廠商打造的各類解決方案,更有業界對于數據湖帶來的數據沼澤、數據價值探索等問題的深入思考。
時至如今,數據湖雖然經歷了各種各樣的“挫折”,但是數據湖在數字化時代給用戶帶來的價值已經愈發清晰。而率先幫助用戶走出數據湖價值落地之路的,不是開源廠商,也不是傳統存儲廠商,恰恰是以AWS為代表的云服務提供商們。
這背后有何緣由?這一切還得從數據湖的本質談起。
數據湖的價值凸顯
維基百科對于數據湖的定義是:“Data Lake是一個以原始格式存儲數據的存儲庫或系統。它按原樣存儲數據,而無需事先對數據進行結構化處理。一個數據湖可以存儲結構化數據、非結構化數據以及二進制數據等。”
數據湖最大的價值在于可以幫助用戶梳理清楚從數據存儲、數據匯聚到數據挖掘這些過程。比如,相比于數據倉庫對于數據協作有規則限制,數據湖對于數據寫入沒有限制,可以更容易的收集數據;數據湖可以匯聚來自各種數據源的數據,并進行數據拉通,從而消除數據孤島的問題;而數據湖中存放著最原始的數據則更加有利于數據價值的挖掘。
千萬不要小看數據湖所能完成的這些數據處理過程。這些都是用戶們在數字化時代發揮數據價值所必不可少的基礎。時至今日,數據其實已經成為數字化時代的一種最為重要的生產資料,數據正在加速重塑企業與組織的生產、經營、銷售、服務等流程,就如AWS首席云計算企業戰略顧問張俠所指出的:“在當今企業中,數據流就是企業的血液流,企業的數字化轉型很重要的一個方向就是把數字化的資產好好利用起來。”
數據湖成為大勢所趨
與此同時,數據湖在過去十年并不缺乏產品與解決方案,為何數據湖失敗的案例依然不少,為何又是以AWS為代表的云服務提供商們率先走在數據湖解決方案落地的最前沿?
事實上,作為很早推動數據湖服務的公司,AWS的數據湖解決方案成功并不是偶然。首先,Amazon作為全球最大的互聯網公司之一,其數據規模、數據復雜度、數據處理難度、數據價值挖掘在業界無出其右,由于背靠Amazon,AWS數據湖解決方案天然就得到了不斷的歷練,比如Amazon內部一個數據湖部署--Galaxy,就存儲了超過50PB的數據量,每天進行著多達60萬的數據分析任務。
其次,AWS數據湖在產品技術層面進行了持續的提升與完善,其產品組合的成熟度和豐富程度走在了業界的前列。舉個例子,大部分數據湖解決方案都是基于開源Hadoop的,但之前Hadoop集群的計算和存儲緊耦合架構,使得數據湖架構的擴展成本高、效率低;而AWS在構建數據湖解決方案時候,很重要的一個選擇就是讓計算與存儲分離,在存儲上采用S3對象存儲服務,從而讓數據湖解決方案可以更好地應用在用戶業務領域。
另外,AWS作為云計算市場的龍頭,其公有云的環境也有利于數據湖解決方案的部署,在過去十年中為多個不同行業、不同規模的用戶提供相關的數據湖服務,積累了豐富的用戶實踐經驗。
在產品、解決方案以及用戶實踐上的領先其實就是AWS在數據湖領域脫穎而出的秘訣所在。
十年之后,AWS描繪出數據湖全景圖
從十年前的概念到如今被越來越多行業用戶所認同和采用,數據湖如今不再只是一個名詞,它更代表著一種進化,它是過去十年數字化驅動下,用戶在數據層面的需求、技術、產品不斷進化的一個縮影。
過去十年移動化、社交化帶來了數據指數級增長、數據來源廣泛化、數據類型多元化,而像5G、物聯網、邊緣計算的興起,只會加劇數據應用的趨勢,并且會讓現代數據應用的復雜性進一步提升,這恰恰反映出用戶過去十年對數據應用的需求不斷驅動著數據湖走向落地。
在技術層面來看,云計算、大數據以及人工智能具備天然融合在一起的屬性,云計算無疑是過去十年對整個IT產業界帶來最大變革的技術,它的彈性、靈活為數據湖帶來了堅實的基礎;而人工智能在過去幾年取得突破性的發展,使之成為驅動數據湖發展的最大驅動力之一。
而過去十年也是數據湖產品與解決方案不斷走向成熟的十年。像AWS這樣的供應商已經逐步打造出非常全面與完善的數據湖解決方案,可以涵蓋從數據收集、匯聚到分析、應用、可視化等方方面面。“數據湖從2014年進入了發展的第二個階段。以AWS為例,圍繞數據湖相關的技術、產品已經基本成熟。”張俠如是說。
根據介紹,AWS數據湖平臺包括了數據倉庫、大數據處理、交互查詢、運營分析、數據交換、可視化、實時分析、推薦、預測分析。事實上,AWS這種全面的數據湖生態完整覆蓋了數據湖的數據收集、存儲、分析、應用四個階段,并且這些產品、工具以及服務彼此之間并不是孤立的,互相配合可以達到更加出色效果,快速、便捷地幫助用戶構建起數據湖相關應用。
AWS擁有涵蓋全面的數據分析組件
在AWS 數據湖平臺中有很多非常出色的組件,可以幫助用戶解決數據湖中典型的挑戰。比如,Amazon EMR大數據處理組件,可以在AWS上輕松運行Spark、Hadoop、Hive等大數據分析。EMR解決了開源生態集群部署與維護升級繁雜的痛點,這對于用戶快速應用數據湖開源產品與工具大有裨益,
而 Amazon Redshift是一款性能優秀、強大、使用簡單、全托管的數據倉庫服務,可以輕松進行大規模并行處理,支持TB級規模數據的擴展,可以通過Spectrum引起將查詢擴展到Amazon S3,與數據湖集成可以進行EB級的數據湖分析。
其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用戶喜歡的產品與服務。張俠認為:“數據湖在云計算時代得以快速發展,它發展到現在已經包含了所有的數據庫、數據倉庫等服務,是企業數據體系的基礎。數據湖其實比國內流行的數據中臺更加全面,任何想構建數據中臺的企業其實都可以在AWS找到全面的解決方案。”
多款新品落地,AWS加速中國數據湖應用
在中國市場,各個行業用戶對于數據湖也是經歷了一個從認知到認可的過程。張俠坦言,當前中國市場的數據湖應用依然處于早期階段,整個市場有著非常大的潛力。
中國數據湖市場之所以是一個重要且廣闊的市場,無外乎三點:
首先,中國對于數字經濟的重視程度超乎想象,從國家政策還是企業自身都對于發展數字經濟有著廣泛的共識,數字經濟加速推動了各個行業的數字化進程。根據IDC《數據時代2025》白皮書預測,中國數據量預計在未來7年將每年平均增長30%,位居世界第一,隨之而來的就是對于數據存儲、匯聚、分析越來越多的需求。
其次,在經歷了多年的“企業上云”之后,各行各業對于云計算的認知和認可已經形成,在企業加速上云這個過程中,數據湖作為與云計算天然緊密聯系在一起的應用,其實已經具備了非常好的基礎設施環境,用戶在上云之后逐步采用數據湖服務也是順勢而為。
再次,中國市場在5G、人工智能、物聯網等領域的步伐快速,尤其是5G商用所帶來的云計算、通信、大數據、人工智能等多項技術走向融合,未來在各個行業中會催生出更多新的現代化數據應用場景,數據湖在這個過程中將會起到重要的支撐作用。
AWS在數據湖領域深厚的積累有助于推動中國數據湖應用落地
據悉,針對中國市場,AWS近期在中國兩個區域陸續上線了多款重磅級的新產品與新服務,其中就包括AWS Glue和Amazon Athena兩款跟數據湖相關的服務。張俠透露:“AWS中國之后會陸續上線數據湖相關的產品與服務。隨著越來越多服務落地中國,中國區用戶可以在短短幾天之內完成數據湖的建立工作。”
例如,AWS Glue是數據湖應用中一款非常重要的服務,它可以幫助用戶建立起無服務器架構的數據目錄和ETL服務,自動發現數據并存儲Schema,與AWS上運行的Aurora、RDS、Redshift、S3和數據庫引擎天然集成,這將給用戶在使用數據湖帶來巨大好處。舉個例子,用戶之前想將數據導入Redshift云數據倉庫,之前需要自己寫ETL管道,非常不方便,如今有了AWS Glue能夠快速完成數據的抽取、轉換和加載。
“中國市場的確是到了該好好研究與使用數據湖的階段了,尤其是5G、邊緣計算應用上來之后,在數據層面更應該匹配走數據湖這條路。”張俠最后表示道。
總體而言,數據湖一晃已經走過了十年,從一個概念逐步走向落地。在這十年中,以AWS為代表云服務提供商們真是洞悉了用戶在數據湖上的需求,并且圍繞數據湖打造出來的一系列全面的產品體系,使得數據湖真正走出了一條價值之路。
十年意味著一個階段的結束,也預示著下一個階段的開啟。數據湖在未來會有更大的舞臺。
-
AWS
+關注
關注
0文章
432瀏覽量
24388
發布評論請先 登錄
相關推薦
評論