一位北漂創業的朋友,看過《長安三萬里》之后,被感動得淚流滿面。在他看來,自己和李白一樣,都是被繁榮的盛唐氣象所吸引,為了追逐“心中的長安”而一往無前。
一代人又一代人的“長安”,都渴望站到時代最核心的舞臺上,實現理想、建功立業。數字經濟,應該是我們這一代人,所擁有的黃金機會。
今年以來,大模型這樣火爆的創新方向,以及由此而生的巨大機會,就像光輝萬丈的長安一樣,代表著增長、繁華,以及無限可能性,吸引著無數企業和創業者,想要投身其中。
然而,“夢到長安三萬里,海風吹斷磧西頭”,長安是理想,和現實之間,隔著三萬里路,并不容易抵達。
很多企業入局研發或應用大模型,卻沒有做好技術、成本、基礎設施等一系列準備,就盲目踏上了旅程,其中的首要考驗,就是存儲。
IDC的《數據時代2025》報告顯示,全球數據規模呈現井噴式增長,中國將成為全球最大數據源。海量數據中,語音、圖片、視頻等非結構化數據約占80%,與結構化數據相比,非結構化數據增長迅速、管理困難。存儲降本,成為企業IT基礎設施建設的重要議題。
舉個例子,互聯網企業/金融機構等普遍開展的數字化業務,有大量的音視頻文件存儲需求,需要龐大的存儲資源。政府電子檔案要求保存周期為5年甚至更長,公檢法司數據要求保存周期至少30年以上……這些數據普遍處于10PB以上規模,假設歸檔存儲按0.001元/GB/年計費,則用戶30年存儲成本將超過1億元。
根據專家訪談,考慮行業及規模差異,企業存儲成本約占IT基礎設施整體成本的5%~30%,隨著數據規模持續擴大,這一比例也將進一步加劇,帶來的存儲成本也不可小覷。
AIGC、大模型等智能化應用,海量非結構化數據對存儲的極致成本效益提出了挑戰,CPU、內存、磁盤三種資源的動態配比常常顧此失彼,存在浪費現象,日積月累形成了不小的成本壓力。
這樣看來,數據大爆炸的背景下,降低存儲成本,已經成為各行各業數字化轉型、智能化升級的前置條件。
這時候,京東云的真實業務實踐和技術累積優勢,就顯現了出來。京東用二十年時間走過了數字化之路,已經構筑了支撐大規模業務的存儲基礎設施,并大規模應用于京東的各類業務之中。京東云既解決了存儲基礎設施方面的技術難題,也對存儲成本進行了極致優化,讓存儲降本成為現實。
因此,數字經濟的《存儲三萬里》該怎么跨越?我們不妨通過京東云自研分布式統一存儲平臺——“云海”,來一探究竟。
數字盛世,存儲關山
試想一下,如果李白帶著幾大車沉重的行李,可能還沒走到長安,就已經被行李負擔拖慢了速度,被盜匪劫走了財物,為雇人保護行裝而花光儲蓄……而被勸退了。“銀鞍照白馬,颯沓如流星”,輕裝上路,才有了詩仙的肆意飛揚、浪漫灑脫。
對數字化企業/政府來說,最寶貴的資產就是數據。而以SAN、NAS等集中式存儲為代表的傳統存儲,就像馬馱肩扛的行囊一樣,在保存騰挪數據資產時,顯得愈發捉襟見肘。
不僅會帶來高昂的建設和維護成本,一旦遭遇外部威脅或故障,就容易影響業務的連續性,損傷用戶體驗,增加了運維復雜度和數據丟失風險。而且其擴展能力有限,無法很好支撐大模型這類大容量、高并發、高性能的應用場景。
所以,更加快速安全、敏捷靈活的分布式存儲,成為一種強烈的需求,演化為存儲的“今日之選”。
與傳統集中式存儲相比,分布式存儲采用松耦合的系統架構,每個存儲服務器節點都承擔數據存儲的功能,可以橫向擴展、性能和容量隨節點數量擴展線性提升,支持全冗余部署,保障業務連續性和數據安全性。
相當于李白們從西域到長安,不用全程將行囊背在身上,可以把沿途的多個城市當作站點,分別設成各自獨立的存儲節點,用統一的賬冊(軟件系統)進行調度管理,省去了全程保存看守維護遷移的開銷和人力成本。即使途中出現了意外,也可以通過其他站點快速解決,不影響后續的行程(業務),將損失降到最低。
在此基礎上,“存算分離”技術應運而生。存算一體的架構下,計算和存儲中只要有一個達到瓶頸,都會影響整體性能,導致業務應用停滯,存在大量的資源浪費,同時運維復雜、擴展受限、升級困難。而依托云平臺的分布式存儲,采用“存算分離”,可以將數據通過云上數據湖/倉庫基礎設施來存儲,由微服務直接訪問存取,無論是應用/數據哪個環節出了問題,都可以依托云平臺的彈性和可擴展能力,快速解決。
可以簡單理解為,將行李(數據存儲)和用途(應用計算)分開,單獨按需配置。這樣就可以避免行李多用不完(資源浪費)或者行李少不夠用(資源不足),優化計算資源利用率,旅客的綜合成本就減少了,這是前往長安(數字化轉型)成本最優的存儲方案。
但是,實現存算分離的分布式存儲架構,并非易事。主要面臨以下問題:
1.性能損失。
存算分離有兩種實現方式:一是自建機房,另一種是上云。自行部署存儲系統,初始投資成本高,需要購買的硬件設備和該有的冗余副本一個也不能少。所以,絕大多數企業都選擇交給云廠商,在云上構建存算分離架構,用戶只需要按量付費。
但傳統的云上分布式存儲性能低下,讀寫慢、性能低于本地盤50%-70%,對于智能汽車、游戲等性能敏感型行業,延遲、卡頓問題十分明顯,強行做存算分離,性能無法滿足業務正常需求,所以企業不敢用、也用不了。
2.降本不明顯。
自建機房中的存算分離架構,即使釋放了計算節點,也無法收回成本,動態縮容是沒有意義的,動態擴容又受到機房容量的影響,如果事先按照業務高峰規劃了資源,那么在低谷時即使釋放了計算節點,資源浪費的現象也依然存在。此外,分布式存儲各集群的管理要求有差異,運維難度隨之上升,風險預警難,故障定位慢,需要投入非常高的運維成本。
相比之下,云上的存算分離架構,這些條件由云服務商保障,在釋放計算節點后,云廠商可以將這部分資源銷售給其他客戶,通過龐大的客戶群將高昂成本進行攤銷,對用戶來說,是成本更低的方案。這就要求云存儲服務商在用戶規模、成本優勢上,拉開顯著差距。
3.可靠性存疑。
分布式存儲分為開源和自研兩條路線,目前主流的開源技術如Ceph、Swift、HDFS、GlusterFS、Lustre,均為國外技術并托管在國外開源社區,存在一定的供應鏈風險。在大規模部署時,開源存儲產品的穩定性和安全性存在一定挑戰。作為數據基礎設施的存儲,進行國產化替代,尤其需要注重自研能力,廠商對存儲系統的性能、穩定性、安全性具備完全控制權,保證產品的性能和穩定性,最大化降低用戶應用風險。對廠商的資金實力、研發能力、產品迭代優化等,提出了較高的要求。
可以看到,數據大爆發的時代背景下,存算分離架構會越來越有優勢。
從集中式存儲到分布式存儲只是第一步,第二次升級是做到真正的存算分離,才能支撐大模型、AIGC、自動駕駛等高質量存儲訴求,推動存儲產品向更先進的存算分離架構演進,急需實力絕群、自主創新的技術力量帶來改變。
先進存儲,云海為橋
李白在《關山月》中寫道:明月出天山,蒼茫云海間。長風幾萬里,吹度玉門關。橫亙在李白們和長安之間的迢迢路途,有沒有一條“捷徑”呢?
2012年,率先踏上數字化行程的京東,正式開啟自研存儲產品的研發,經過十余年的發展,這些關于存儲的經驗,都凝結為京東云的思考,以及自研分布式統一存儲平臺“云海”的核心能力。
具體來說,傳統分布式存儲像是地上的路,而“云海”更像是一座直達的橋,跨越了重重關卡,更快抵達先進存儲的目的地。
第一,性能關。
零售電商高并發的業務特點以及金融對安全穩定的剛性需求,深刻影響著京東云對存儲穩定性的理解及要求。在京東618奇跡的背后,離不開的極致性能與堅如磐石的穩定性支撐。
性能,對于電商直播、游戲、AI訓練、自動駕駛等高性能計算場景是必備剛需。以AI訓練為例,大模型參數規模已向萬億級邁進,數據的讀寫速度、搬運速度與吞吐量,會直接影響到模型訓練效率。要縮短業務模型的訓練迭代周期,底層存儲必須具備極高的性能指標和并發能力。
作為京東云十年磨一劍的分布式存儲產品,云海支持全冗余部署、多機房災備,并不斷融入無leader非仲裁協議、智能流控、智能化運維等技術,持續突破穩定性的能力極限。
同時,通過架構的革新,云海實現了跨越式的性能提升,在這兩年的京東618中,基于云海的存算分離系統架構,使得原本由于性能問題很難全面實施的存算分離得以落地,面對吞吐量TB/s、IOPS上億級的壓力,依然能夠提供順滑的存儲體驗。
極致性能和穩定性支撐,讓“云海”能夠滿足新興復雜應用和井噴數據規模的存儲需求。
第二,成本關。
無論業務規模大或小,IT基礎設施的降本是企業永恒的追求。以京東為例,截至2023年Q2,京東在自營商品SKU達到千萬級的基礎上,庫存周轉天數繼續保持著31.7天的全球領先水平,運營著超1600個物流倉庫,超過56萬名員工。如此龐大復雜體系的高效運轉,每天產生著海量的數據,如何以最低的成本來存儲,成為云海必須要解決的問題。
云海通過高性能支撐上層應用存算分離、EC超低冗余技術等,大幅提升磁盤物理使用率、得盤率與存儲密度,全面優化存儲成本。
今天,云海已實現1.1x級別副本的超低冗余存儲,以及行業內最大規模QLC-SSD的落地,成本技術指標領跑行業,為數字經濟的長期可持續發展奠定了基礎。
第三,自主關。
京東完全掌握云海底層架構設計和核心代碼主動權,核心技術自主可控,并就開源框架常見性能、穩定問題,進行了針對性優化。與所有主流國產化平臺兼容互認,包括操作系統、數據庫、中間件、服務器、CPU、主板、網卡、磁盤等,助力政企客戶實現全面國產可控。
因此,“云海”可以在全面自主的基礎上,保證存儲性能,做到真替真用,打消了國產化替代的后顧之憂,全面滿足政府客戶、企業客戶信創需求。
“云海”為橋,讓存算分離的分布式存儲不再遙遠。那么,這股先進技術的“春風”,能否從京東內部實踐吹向千行百業,抵達產業深處呢?
逐夢長安:接地氣的技術理想主義
數字經濟的繁榮,不僅需要李白的驚才絕艷,也需要高適的腳踏實地,將其一點一滴地踐行。
作為數字新基建的先進存儲,要結合各行業對云盤的具體業務訴求,真正落地并降本增效,是不能懸浮在天上的,要干苦活、累活。
《長安三萬里》中,高適對李白說:你是謫仙人,要回天上。我是世間人,我在世間盤桓。
和現實中的產業站在一起,正是京東云腳踏實地、關注現實的一面。
京東集團技術委員會主席、京東云事業部總裁曹鵬曾提到,我們一直相信,技術進步來自產業實踐,又反哺于產業發展。在“云海”存儲身上,解決產業中實際而具體的存儲問題,將存算分離的分布式存儲真正落地,更將“高適”的那一面顯現了出來。
為了讓云海更適配產業訴求,京東云還做了大量工作:
首先是務實。自己的降落傘自己先跳,京東云基于京東集團內部豐富的存儲應用場景,以及對降本提效的極致追求,推動云海實現由實際業務推動的高速迭代,驗證云海的技術先進性、有效性、可靠性。
此外,京東云堅持讓客戶說話,讓市場說話。“云海”與真實產業、現實場景結合的案例正在不斷激增,在各行業顯現出先進存儲的真實價值:真省錢,京東云存儲助力某大型消費金融公司打造存算分離大數據分析系統,實現有效降本;真可靠,京東云存儲助力某政府部門建設穩定安全的國民養老保險平臺,數據的安全合規存儲,是項目首要需求;真可用,某自動駕駛公司依托京東云存儲,構建高性能自動駕駛模型訓練平臺,大幅提高訓練效率。這些真實的案例,幫助企業在數字化轉型中,更加篤定地踏上先進存儲這條必然之路。
另外,為了匹配中國企業的差異化特點和不同部署需求,京東云帶來了更懂中國市場的多元化交付模式。全新發布了云海一體機,可同時支持純軟授權或軟硬一體機形式獨立交付,也可作為存儲標準化產品,以純軟或軟硬一體機的形式集成在解決方案中輸出,讓客戶有更靈活的選擇。
用李白的逸興飛揚,展技術壯志;用高適的腳踏實地,向產業落地。云海的一體兩面,正是數字中國所需要的技術理想主義。
在先進存儲的底座上,掘金數字時代,是我們這一代人的盛唐,是值得追逐的《長安三萬里》。
和云伙伴一同前行,這條數字化之路就不再孤單,也終將抵達。
審核編輯 黃宇
-
存儲
+關注
關注
13文章
4338瀏覽量
86002 -
數字化
+關注
關注
8文章
8811瀏覽量
61980 -
大模型
+關注
關注
2文章
2514瀏覽量
2931
發布評論請先 登錄
相關推薦
評論