數(shù)據(jù)湖并不是一個新概念,大概在十多年前,從有Hadoop開始,就有很多人提出這樣的設(shè)想。面對海量數(shù)據(jù)增長,要想挖掘數(shù)據(jù)價值,首先得有一個能夠存儲各類數(shù)據(jù)的“湖”,這個湖的“蓄水能力”要足夠強大,能存儲、分析和處理各類數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、機器數(shù)據(jù)以及來自物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)等等。
之后,隨著大數(shù)據(jù)、云計算以及云存儲技術(shù)的不斷成熟,數(shù)據(jù)湖解決方案被主流云計算廠商極力推崇,并且演繹出不同版本。走到今天,數(shù)據(jù)湖解決方案似乎已足夠成熟,但從應(yīng)用場景來看,一切才剛剛開始,還有大量變革空間,這也是阿里云為什么要重構(gòu)數(shù)據(jù)湖解決方案,主推下一代技術(shù)的根本原因。
什么是下一代數(shù)據(jù)湖解決方案?
如何理解阿里云數(shù)據(jù)湖解決方案的最新特性?阿里云智能存儲產(chǎn)品資深總監(jiān)陳起鯤認為,數(shù)據(jù)湖解決方案由數(shù)據(jù)分析架構(gòu)演化而來。
早期大數(shù)據(jù)分析架構(gòu),是強耦合擴容模式,同一份數(shù)據(jù)需要在不同的計算集群中重復(fù)拷貝,空間利用率低,計算資源過剩;但數(shù)據(jù)是不斷積累狀態(tài),并且有波峰波谷期,為了滿足業(yè)務(wù)需求,承載更多數(shù)據(jù),計算和存儲要一起擴容。因為是兩套系統(tǒng),從生產(chǎn)導(dǎo)入數(shù)據(jù)肯定需要時間,所以會出現(xiàn)數(shù)據(jù)導(dǎo)入緩慢的狀況,最終無法實時洞察業(yè)務(wù)。
這時,聰明人就提出了數(shù)據(jù)湖架構(gòu)。早期的數(shù)據(jù)湖架構(gòu)一般是分布式文件存儲,可以橫向擴展,通過糾刪碼提高資源利用率;同時,計算和存儲是分離狀態(tài),你可以按需擴展算力。另外,底層是分布式文件存儲,基于塊存儲、對象存儲等很多協(xié)議,用戶可以把結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)放在一起,數(shù)據(jù)可以統(tǒng)一管理,底層的分布式存儲對元數(shù)據(jù)、小文件和性能都有一定提升。
對于用戶來說,數(shù)據(jù)湖帶來的好處顯而易見,不管是過去的數(shù)據(jù)倉庫,還是現(xiàn)在的大數(shù)據(jù)、運營數(shù)據(jù)、交互式查詢,以及可視化數(shù)據(jù)、實時分析以及預(yù)測分析數(shù)據(jù),都能基于數(shù)據(jù)湖進行存儲、分析,進而獲得更大的商業(yè)價值。
而從服務(wù)提供商的角度來看,各家都在說自己是最先提供數(shù)據(jù)湖解決方案的企業(yè)。事實上,數(shù)據(jù)在哪里,分析就在哪里。這也是為什么云廠商在推出數(shù)據(jù)庫產(chǎn)品的時候,很多用戶都愿意去嘗試。
因為產(chǎn)品本身就在承載互聯(lián)網(wǎng)場景應(yīng)用,具有海量數(shù)據(jù)云上處理能力,有更強大的計算引擎,能真正和生產(chǎn)環(huán)境融合在一起。云與互聯(lián)網(wǎng)應(yīng)用場景結(jié)合,才能孕育出最強大功能的解決方案,而在這方面,誰更具有獨特優(yōu)勢?非阿里云莫屬!
至于,阿里云的數(shù)據(jù)湖解決方案到底在哪些地方進行了重構(gòu)?其實一句話就可以概括,那就是“云湖共生,數(shù)倉同步”。
云湖共生,數(shù)倉同步
“作為業(yè)內(nèi)首個云原生、企業(yè)級數(shù)據(jù)湖解決方案,阿里云數(shù)據(jù)湖解決方案可提供EB級數(shù)據(jù)存儲、分析能力,能實現(xiàn)一站式湖存儲、湖加速、湖管理、湖計算,幫助企業(yè)深入挖掘與分析數(shù)據(jù)。”陳起鯤強調(diào),數(shù)據(jù)湖雖然是一個早已存在的概念,但阿里云的數(shù)據(jù)湖在繼承以往優(yōu)勢的基礎(chǔ)上已演繹出新的特色。
首先,最新數(shù)據(jù)湖解決方案要能承載移動、互聯(lián)網(wǎng)、IoT業(yè)務(wù)的生產(chǎn)數(shù)據(jù)。數(shù)據(jù)湖不應(yīng)該只是解決分析環(huán)節(jié)的問題,而是要和生產(chǎn)環(huán)境結(jié)合。尤其在現(xiàn)代業(yè)務(wù)環(huán)境下,很多企業(yè)的大部分?jǐn)?shù)據(jù)都來源于移動應(yīng)用或者社交媒體,這種數(shù)據(jù)搬到分析引擎上,通常都是PB級別,如果等搬完后再分析,已不具備實時性。
所以,真正的數(shù)據(jù)湖解決方案必須基于企業(yè)級的生產(chǎn)環(huán)境做大數(shù)據(jù)分析,在線生成環(huán)境產(chǎn)生的數(shù)據(jù),直接可以分析。其次,必須是一個能承載EB級數(shù)據(jù)量的數(shù)據(jù)湖。其三,具有秒級響應(yīng)能力,有SLA的保證,能滿足高性能和高彈性需求。其四,能對數(shù)據(jù)加密,并對數(shù)據(jù)高效管理,確保業(yè)務(wù)安全。
如何理解這些能力呢?其實一切都是客戶應(yīng)用價值驅(qū)動。比如:五年前,你問一個客戶,建了一個多大量的數(shù)據(jù)湖?用來干什么?他會說,有多少個TB,主要功能就是每天晚上做數(shù)據(jù)分析,等早晨把數(shù)據(jù)分析的結(jié)果打印出來,給領(lǐng)導(dǎo)看,用于當(dāng)天決策。
但是五年后的今天,很多分析都是PB級,領(lǐng)導(dǎo)需要實時看到分析結(jié)果。如何讓生產(chǎn)環(huán)境具有高度的彈性和穩(wěn)定性?如何讓數(shù)據(jù)分析和業(yè)務(wù)保持強耦合狀態(tài)?一定要有SLA的保證!另外,數(shù)據(jù)是企業(yè)最寶貴的資源,必須要安全地存放,統(tǒng)一管理。
基于客戶應(yīng)用場景的最新需求,阿里云在底層技術(shù)以及整體架構(gòu)上進行了四個方面的重構(gòu)。
阿里云提供了全球領(lǐng)先的、最高水平的SLA,引領(lǐng)對象存儲可用性SLA進入5位數(shù)。阿里云承諾,在每十萬次請求中,單可用區(qū)錯誤概率不超過10次,多可用區(qū)錯誤概率不超過5次,這比其他云廠商提供的服務(wù)提高了10-20倍的可用性。同時,最多有12個9的持久性設(shè)計,有多層的冗余架構(gòu)設(shè)計和主動排查故障的能力。
能支持全球數(shù)十EB級數(shù)據(jù)規(guī)模。在阿里云的數(shù)據(jù)湖應(yīng)用場景中,每天有上萬億次的讀
寫或者API調(diào)用請求,因為數(shù)據(jù)量非常大,通常會分標(biāo)準(zhǔn)型、低頻訪問型、歸檔型,用戶可以按數(shù)據(jù)類型分類。同時,數(shù)據(jù)架構(gòu)也是強一致性模型,用戶可以做全生命周期管理,系統(tǒng)會提供Bucket清單,方便企業(yè)盤點、查找資源。所以,用戶如果使用阿里云的數(shù)據(jù)湖解決方案,等于在用上EB別的數(shù)據(jù)管理功能去管理企業(yè)的數(shù)據(jù)。
用戶可以靈活、更具彈性地選擇計算引擎。在算力方面,阿里云承諾在單客戶、單可用區(qū)3分鐘提供50萬核vCPU交付能力。在存儲上,阿里云可以提供上TB級別的數(shù)據(jù)吞吐量,同時有海量數(shù)據(jù)的處理能力。在現(xiàn)實業(yè)務(wù)環(huán)境中,企業(yè)應(yīng)用往往遭遇巨大的性能挑戰(zhàn),如果有一個資源爆掉,其他資源會受影響。比如:在一個Bucket里面,可能會有很多業(yè)務(wù)在同時分析,會互相干擾。
即使只有一個業(yè)務(wù)在分析,也有腳本的優(yōu)先級。為了從性能方面保障高可用性,阿里云提供了同Bucket分業(yè)務(wù)的QoS性能隔離功能,滿足客戶不同業(yè)務(wù)分析需求。最重要的是,不管是機器學(xué)習(xí)引擎還是深度學(xué)習(xí)引擎,都可以自然接入阿里云OSS, 讓一份數(shù)據(jù)用于多個計算引擎。
數(shù)據(jù)安全。很多人擔(dān)心上云后數(shù)據(jù)不安全。實際上,只有上云后數(shù)據(jù)才安全。在阿里云上,只需點擊幾個按鈕,就可以全鏈路加密云上數(shù)據(jù),并且密鑰可管可控,你可以集成阿里云的密鑰管理服務(wù),也可以集成自己的KMS服務(wù),系統(tǒng)支持多種加密算法。
另外,云上數(shù)據(jù)加密,不能影響性能,還要有防誤刪、自帶DDoS攻擊防護功能。可能有人會問,那萬一阿里的人干了什么壞事,怎么辦?這點無需擔(dān)心!阿里云資源的所有操作,都通過日志這種不能篡改的方式記錄,并且阿里內(nèi)部對用戶資源的日志可以實現(xiàn)對外透明化,你可以通過第三方審計來核實。
值得一提的是,為了更好地提升客戶體驗,阿里云圍繞數(shù)據(jù)湖解決方案推出了一系列新產(chǎn)品。比如:對象存儲OSS加速器功能,主要用于數(shù)據(jù)湖重復(fù)復(fù)讀場景,能極大地解決讀吞吐挑戰(zhàn),從根本上解決數(shù)據(jù)讀取的一致性問題。
同時,阿里云針對對象存儲OSS,還重磅發(fā)布了冷歸檔存儲類型產(chǎn)品,提供接近磁帶級的成本,并解決磁帶方案在兼容性、數(shù)據(jù)失效、取回效率低等的問題,是海量數(shù)據(jù)長期留存的最佳解決方案。另外,在構(gòu)建數(shù)據(jù)洞察力方面,開源Spark性能差,資源成本較高,阿里云最新發(fā)布的Databricks數(shù)據(jù)洞察產(chǎn)品內(nèi)置了商業(yè)版的Spark和DataLake,可以為用戶帶來高于開源Spark50倍的性能計算能力,確保結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及流式數(shù)據(jù)處理的高性能、高可靠和彈性擴展。
目前,阿里云最新推出的數(shù)據(jù)湖解決方案已經(jīng)在互聯(lián)網(wǎng)、金融、教育、游戲等技術(shù)前沿領(lǐng)域落地,尤其在人工智能、物聯(lián)網(wǎng)、自動駕駛等擁有海量數(shù)據(jù)場景的新興行業(yè),未來大有廣闊空間。另外,混合云趨勢的到來,也會加速推動數(shù)據(jù)湖解決方案的落地。
公共云+私有云的結(jié)合,導(dǎo)致很多企業(yè)會把一部分?jǐn)?shù)據(jù)遷移到云端,因為相對于IDC架構(gòu),云更有彈性、技術(shù)創(chuàng)新更快,企業(yè)成本更低、業(yè)務(wù)迭代可以更敏捷。同時,隨著業(yè)務(wù)數(shù)字化、在線化,數(shù)據(jù)的容災(zāi)保護更加重要,企業(yè)會更重視對生產(chǎn)環(huán)境的災(zāi)備。而從降本增效的角度考慮,企業(yè)也更愿意對數(shù)據(jù)進行冷熱分層,把一部分?jǐn)?shù)據(jù)留在本地,把剩余的數(shù)據(jù)放在云端,然后在云上可以基于大數(shù)據(jù)、AI來做訓(xùn)練和分析。
總體來看,數(shù)據(jù)湖的未來發(fā)展前景更加可期,而隨著企業(yè)應(yīng)用上云進程的加快,阿里云將勇往直前,秒殺所有對手!
責(zé)任編輯:xj
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11167瀏覽量
103469 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4810瀏覽量
72212 -
阿里云
+關(guān)注
關(guān)注
3文章
967瀏覽量
43117
發(fā)布評論請先 登錄
相關(guān)推薦
評論