在數字經濟時代,海量的數據成為數字經濟的重要生產要素。特別是受新型冠狀病毒疫情影響的2020年,線下的生產和生活迅速的轉移到了線上,相應的讓數據再次迎來另一波快速增長。
對于像百度智能云這樣的云廠商,海量的數據既是資產也是壓力,在壓力方面面臨著包括存儲能力和算力等資源方面的挑戰。
“尤其是今年一季度,百度智能云很多的云服務都是在擴容,都是在加班加點來滿足客戶的需求,包括娛樂類、會議類、教育類等等,這對我們的挑戰也比較大。過去的過去9個月,百度智能云已經用了10萬盤磁帶,存儲900多PB數據。”百度智能云副總經理謝廣軍分享到。
這些海量數據的存儲對于百度智能云來講,最大問題是如何降低高昂的存儲成本。一方面互聯網公司數據量越來越大,數據保存成本負擔太重,需要大量擴展其搜索引擎和云存儲。另一方面數據的合規保存。國家對互聯網行業的管理要求越來越嚴格,多數數據必須有歸檔。同時,國家對互聯網日志類數據保存時長要求超過10年。
百度智能云對于海量數據需要按照讀寫頻率和冷熱數據等特性對于存儲進行不同層次的布局,“我們希望提供透明化的生命周期的管理。從產生的初期的熱數據到系統感知到其訪問頻率降低,再到沒有太多的訪問,可以做到從高性能的存儲平臺到冷存儲平臺低成本存儲。同時,這些數據需要調用的時候,能比較快被調用出來。” 謝廣軍講到。百度智能云需要一種既能降低成本,又能在其龐大的分布式文件系統中提供透明IO的解決方案。
百度智能云一方面基于新一代存儲介質打造高性價比存儲產品,一方面重視軟硬件結合的方案,搭建分布式存儲的系統。據了解,百度把高IO的數據讀取放在持久內存型的存儲系統,打造基于NVMe+RDMA技術,提供單盤百萬級IOPS及千MBps吞吐高性能SSD云磁盤。與此同時,百度基于IBM磁帶庫平臺,實現EB級磁帶規模應用,這也是國內第一家上線磁帶歸檔服務的云平臺。
如何管理海量的數據?
可以看到,百度智能云需要一個彈性的高性價比的存儲解決方案來管理其數據存儲。IBM為百度智能云提供了融合Spectrum Scale、Spectrum Archive和Tape介質的存儲解決方案,通過IBM的歸檔存儲技術,百度智能云的對象存儲在產品實力上有了很大的增強。在過去的一年里,百度智能云與IBM一起攻克了許多技術的瓶頸,實現了業務永續化經營,保證數據安全,幫助百度智能云進一步朝降本增效的目標邁進。
IBM存儲一直聚焦在為客戶提供統一的數據管理平臺。當企業面對云上、云下的不同的應用的時候,IBM存儲基于統一的數據平臺,來確保企業數據的安全、共享和按需供應。“無論您今天是塊存儲、文件、對象還是磁帶,IBM存儲解決方案可滿足客戶非常廣泛的應用和使用的場景。無論您今天數據放在百度云上或者其他的公有云平臺上,都可以有一個非常靈活的選擇。” IBM大中華區系統部存儲系統總經理吳磊。
對于百度智能云來講,磁帶近線存儲資源池的建成極大地提高了IT對業務的支持力度,滿足了業務對低成本、低功耗、高空間數據密度,綠色數據中心的存儲需求。過去9個月,百度用了10萬盤磁帶,存儲900多PB數據,歸檔存儲產品相較普通存儲的成本降低了85%。
IBM歸檔存儲適用于多種業務場景。“比如在視頻這個領域,大家在互聯網視頻里面去分發的,不管是短視頻還是長視頻,都是轉碼后的視頻。不管是UGC,尤其是PGC產生的內容,很大、很高清的遠視大文件,這些文件轉碼后不再使用了,這種場景就很適合歸檔存儲,這也是數據資產,我們需要保存起來。” 謝廣軍舉例說明。在IBM的幫助下,百度智能云在過去一年中積累了豐富的業務應用場景。另外還有石油勘探、醫療影像、基因測序分析和物聯網相關的數據等也可以放在歸檔存儲上。
同時,基于IBM Spectrum Scale(原GPFS)存儲軟件方案,IBM還在數據孤島之間建立高效、安全、穩定的數據管道,這對業務本身的數據流通和融合提供很大的幫助。對于百度智能云來講,統一接口屏蔽介質差異,使得百度的數據在整個生命周期中流轉更順暢,業務可以0成本獲得更高性價比。
使用IBM的歸檔存儲技術之前,百度智能云的對象存儲分為高性能存儲、標準存儲和低頻存儲,這些其實是基于磁盤的。相比之下,有些客戶提出需要更高的性價比、保存時間更長的存儲產品與服務。此時引入IBM的技術則為百度智能云打造下一個階梯的存儲產品帶來了能力補充,補齊了百度智能云存儲產品矩陣的最后一塊“積木”。同時IBM歸檔存儲技術還做到了磁帶作為近線存儲,通過整套部署,庫體滿配,磁帶不出庫就可以對磁帶數據進行不定期訪問。
對于百度智能云來講無論是支撐其內部的業務,還是外部客戶的業務,需要7×24小時近線存儲。IBM歸檔存儲技術可以實現在一到兩分鐘之內讀到幾十TB的一個磁帶數據,過去是很多客戶不可想象的。
可以說基于IBM存儲分布式系統結合百度智能云自己的分布式文件系統。就能夠實現百度智能云對外服務的溫、熱、冷,幾種不同的數據通道打通,數據根據自己的生命周期自由去流動。
責任編輯:gt
-
IBM
+關注
關注
3文章
1761瀏覽量
74779 -
數據
+關注
關注
8文章
7118瀏覽量
89341 -
存儲
+關注
關注
13文章
4342瀏覽量
86034
發布評論請先 登錄
相關推薦
評論