Artificial intelligence (人工智能)在企業(yè)中越來越普遍。語音識別、推薦和欺詐檢測只是人工智能和 深度學習 ( DL )驅動的數(shù)百個應用程序中的少數(shù)幾個
為了支持這些人工智能應用程序,企業(yè)希望優(yōu)化人工智能服務器和性能網(wǎng)絡。不幸的是,在企業(yè)人工智能的開發(fā)中,存儲基礎設施需求往往被忽視。然而,為了成功采用人工智能,必須考慮一個全面的存儲部署戰(zhàn)略,該戰(zhàn)略考慮了人工智能的增長、經(jīng)得起未來考驗和互操作性。
這篇文章強調(diào)了企業(yè)在為人工智能應用程序規(guī)劃數(shù)據(jù)存儲基礎設施以最大限度地提高業(yè)務成效時應考慮的重要因素。我討論了云與本地存儲解決方案的比較,以及在支持 GPU 的虛擬機( VM )中對更高性能存儲的需求。
為什么企業(yè)部署需要人工智能存儲決策
流行的短語“你可以現(xiàn)在給我錢,也可以以后給我錢”意味著在做當前決定時最好考慮未來。通常,支持 AI 或 DL 應用程序的存儲解決方案只能滿足應用程序的即時需求,而沒有充分考慮未來的成本和靈活性。
從長遠來看,從存儲的角度來看,今天花些錢來證明您的人工智能環(huán)境是經(jīng)得起未來考驗的,這可能更具成本效益。決策者必須捫心自問:
我的人工智能存儲基礎設施能否適應云或混合模式?
選擇對象、塊或文件存儲是否會限制未來企業(yè)部署的靈活性?
是否可以使用成本較低的存儲層或混合模型來存檔,或用于不需要昂貴、快速存儲的數(shù)據(jù)集?
如果沒有直接的 a / B 比較,企業(yè)存儲決策對 AI 部署的影響并不總是明顯的。今天的錯誤決策可能會導致性能下降,并且無法在未來有效地擴展業(yè)務運營。
規(guī)劃 AI 存儲基礎架構時的主要考慮事項
以下是部署和規(guī)劃存儲時需要考慮的各種因素。圖 1 概述了數(shù)據(jù)中心、預算、互操作性和存儲類型注意事項。
AI 性能和 GPU
在評估存儲性能之前,考慮人工智能性能的一個關鍵因素是讓高性能企業(yè) GPU 加速 machine-learning 、 DL 和推理應用程序的培訓。
許多數(shù)據(jù)中心服務器沒有 GPU 來加速人工智能應用程序,因此在考慮性能時,最好先看看 GPU 資源。
大型數(shù)據(jù)集并不總是適合 GPU 內(nèi)存。這一點很重要,因為當完整的數(shù)據(jù)集不適合 GPU 內(nèi)存時, GPU 提供的性能較差。在這種情況下,數(shù)據(jù)在 GPU 內(nèi)存之間交換,從而影響性能。模型訓練需要更長時間,推理性能可能會受到影響。
某些應用程序,如欺詐檢測,可能具有極端的實時性要求,當 GPU 內(nèi)存正在等待數(shù)據(jù)時,這些要求會受到影響。
存儲注意事項
存儲始終是一個重要的考慮因素。在部署新的人工智能應用程序時,現(xiàn)有的存儲解決方案可能無法正常工作。
您現(xiàn)在可能需要 NVMe 閃存或直接 GPU 內(nèi)存訪問的速度才能獲得所需的性能。然而,隨著存儲對人工智能數(shù)據(jù)的需求隨著時間的推移而增加,您可能不知道明天的存儲期望是什么。對于某些應用程序,幾乎沒有太高的存儲性能,尤其是在實時用例(如交易前欺詐檢測)的情況下。
對于人工智能驅動的應用程序,沒有“一刀切”的存儲解決方案。
性能只是一個存儲考慮因素。另一個是擴展能力。培訓數(shù)據(jù)正在增長。推斷數(shù)據(jù)正在增長。存儲必須能夠在容量和性能方面進行擴展,并且在許多情況下能夠跨多個存儲節(jié)點進行擴展。簡單地說,滿足您當前需求的存儲設備可能并不總能適應明天的挑戰(zhàn)。
底線:隨著培訓和推理工作量的增加,容量和性能也必須增加。它應該只考慮具有保持 GPU 繁忙的性能的可擴展存儲解決方案,以獲得最佳的 AI 性能。
數(shù)據(jù)中心注意事項
數(shù)據(jù)處理器( DPU )是基礎設施技術的最新發(fā)展,將數(shù)據(jù)中心和人工智能存儲提升到了一個全新的水平。
雖然不是存儲產(chǎn)品, DPU 重新定義了數(shù)據(jù)中心存儲。它旨在集成存儲、處理和網(wǎng)絡,使整個數(shù)據(jù)中心成為企業(yè)的計算機。
在規(guī)劃和部署存儲時,了解 DPU 的功能非常重要,因為 DPU 將存儲服務從數(shù)據(jù)中心處理器和存儲設備上卸載。對于許多存儲產(chǎn)品, DPU 互連數(shù)據(jù)中心可以實現(xiàn)更高效的擴展。
例如 NVIDIA BlueField DPU 支持以下功能:
結構上的 NVMe ( NVMe oF )
GPUDirect 存儲
加密
彈性塊存儲
擦除編碼(用于數(shù)據(jù)完整性)
減壓
重復數(shù)據(jù)消除
遠程存儲訪問的存儲性能就像存儲直接連接到 AI 服務器一樣。 DPU 有助于實現(xiàn)可擴展的軟件定義存儲,以及網(wǎng)絡和網(wǎng)絡安全加速。
預算考慮因素
成本仍然是一個關鍵因素。雖然需要部署最高吞吐量和最低延遲的存儲,但根據(jù) AI 應用程序的不同,并不總是必要的。
為了進一步擴大存儲預算, IT 部門必須了解每個 AI 應用程序的存儲性能要求(帶寬、 IOPs 和延遲)。
例如,如果一個人工智能應用程序的數(shù)據(jù)集很大,但性能要求最低,那么傳統(tǒng)硬盤驅動器( HDD )可能就足夠了,同時大大降低了存儲成本。當數(shù)據(jù)集的“熱”數(shù)據(jù)完全符合 GPU 內(nèi)存時,尤其如此。
另一種節(jié)省成本的選擇是使用混合存儲,將閃存用作緩存,以提高性能,同時降低駐留在 HDD 上的不經(jīng)常訪問的數(shù)據(jù)的存儲成本。有一些混合閃存/硬盤存儲產(chǎn)品的性能幾乎與所有閃存一樣好,因此探索混合存儲選項對于沒有極端性能要求的應用程序來說意義重大。
較舊、存檔和不經(jīng)常使用的數(shù)據(jù)和數(shù)據(jù)集可能仍有未來價值,但駐留在昂貴的主存儲上并不經(jīng)濟劃算。
硬盤仍然具有很大的財務意義,尤其是在需要時可以無縫訪問數(shù)據(jù)的情況下。根據(jù)訪問的大小和頻率,兩層云和內(nèi)部部署存儲解決方案也具有財務意義。市場上有許多這樣的解決方案。
互操作性因素
從存儲角度評估云和數(shù)據(jù)中心的互操作性非常重要。即使在虛擬機驅動的數(shù)據(jù)中心內(nèi),也有互操作性因素需要評估。
云和數(shù)據(jù)中心注意事項
人工智能應用程序是在本地運行,還是在云端運行,或者兩者都運行?即使應用程序可以在任何一個地方運行,也不能保證應用程序的性能不會隨位置而變化。例如,如果云中使用的存儲類與本地使用的存儲類不同,則可能會出現(xiàn)性能問題。必須考慮存儲類別。
假設使用使用高性能閃存的支持數(shù)據(jù)中心 GPU 的服務器在所需的八小時窗口內(nèi)完成對大型推薦模型的再培訓。將相同的應用程序以同等 GPU 馬力移動到云端可能會導致培訓在 24 小時內(nèi)完成,遠遠超出所需的 8 小時窗口。為什么?
一些人工智能應用程序需要某種類型的存儲(快速閃存、大型存儲緩存、 DMA 存儲訪問、存儲類內(nèi)存( SCM )讀取性能等),但并非總是可以通過云服務獲得。
關鍵是,無論數(shù)據(jù)中心或云存儲選擇如何,某些人工智能應用程序都會產(chǎn)生類似的結果。其他應用程序可能對存儲敏感。
僅僅因為一個應用程序是由 Kubernetes 在云中進行容器化和編排的,它不能保證類似的數(shù)據(jù)中心結果。以這種方式來看,當考慮性能時,容器并不總是提供跨數(shù)據(jù)中心和云互操作性。為了實現(xiàn)有效的數(shù)據(jù)中心和云互操作性,請確保兩個域中的存儲選擇都能產(chǎn)生良好的結果。
VM 注意事項
如今,大多數(shù)數(shù)據(jù)中心服務器沒有 GPU 來加速人工智能和創(chuàng)造性工作負載。明天,數(shù)據(jù)中心的格局可能會大不相同。無論是 conversational AI 、欺詐檢測 recommender systems 、視頻分析還是許多其他用例,企業(yè)都被迫使用人工智能來提高競爭力。
GPU 在工作站上很常見,但 GPU 工作站提供的加速度無法在組織內(nèi)輕松共享。
企業(yè)必須準備的范式轉變是在虛擬機環(huán)境中共享基于服務器、支持 GPU 的資源。 NVIDIA AI 企業(yè) 等解決方案的可用性使企業(yè)中的任何人都可以共享支持 GPU 的虛擬機。
簡而言之,現(xiàn)在企業(yè)中的任何人都可以在 vSphere 環(huán)境中的 VM 內(nèi)輕松運行耗電的 AI 應用程序。
那么這對虛擬機存儲意味著什么呢?支持 GPU 的虛擬機的存儲必須滿足 AI 應用程序和共享虛擬機用戶的共享性能要求。這意味著給定虛擬機的存儲性能高于非共享環(huán)境中所需的存儲性能。
這還意味著,為此類虛擬機分配的物理存儲可能在容量和性能方面更具可擴展性。在高度共享的虛擬機中,可以使用專用的全閃存類內(nèi)存( SCM )陣列,通過聚合以太網(wǎng)上的 RDMA 連接到支持 GPU 的服務器,以實現(xiàn)最高的性能和擴展。
存儲類型
關于為人工智能應用程序選擇對象、塊或文件存儲的深入討論超出了本文的范圍。也就是說,我在這里提到它是因為這是一個重要的考慮因素,但并不總是一個直接的決定。
對象存儲
例如,如果所需的應用程序需要對象存儲,那么所需的存儲類型顯而易見。一些人工智能應用程序利用了對象元數(shù)據(jù),同時也受益于平面地址空間對象存儲架構的無限規(guī)模。人工智能分析可以利用豐富的對象元數(shù)據(jù)實現(xiàn)精確的數(shù)據(jù)分類和組織,使數(shù)據(jù)更有用,更易于管理和理解。
塊存儲
盡管云中支持塊存儲,但真正海量的云數(shù)據(jù)集往往是基于對象的。塊存儲可以為結構化數(shù)據(jù)和事務應用程序提供更高的性能。
塊存儲缺少元數(shù)據(jù)信息,這使得任何旨在從元數(shù)據(jù)中獲益的應用程序都無法使用塊存儲。許多傳統(tǒng)的企業(yè)應用程序都是建立在塊存儲基礎上的,但云中對象存儲的出現(xiàn)導致許多現(xiàn)代應用程序專門為使用對象存儲的原生云部署而設計。
文件存儲
當人工智能應用程序跨通用文件協(xié)議訪問數(shù)據(jù)時,顯而易見的存儲選擇是基于文件的。例如,人工智能驅動的圖像識別和分類引擎可能需要訪問基于文件的圖像。
部署選項可能有所不同,從專用文件服務器到構建在對象或塊存儲體系結構之上的 NAS 磁頭。 NAS 頭可以導出 NFS 或 SMB 文件協(xié)議,以便將文件訪問到底層塊或對象存儲體系結構。這可以為人工智能和數(shù)據(jù)中心網(wǎng)絡客戶端的文件存儲訪問提供高水平的靈活性和經(jīng)得起未來考驗的塊或對象存儲。
人工智能的存儲類型決策必須基于對當前所需內(nèi)容的良好理解以及長期人工智能部署策略。全面評估每種存儲類型的優(yōu)缺點。通常沒有一個“一刀切”的答案,在某些情況下,所有三種存儲類型(對象、塊和文件)都有意義。
企業(yè)存儲決策的關鍵要點
解決人工智能解決方案的存儲需求沒有單一的方法。然而,這里有幾個核心原則,可以用來做出明智的人工智能存儲決策:
如果訓練和推理不是 GPU 加速的,人工智能解決方案的任何存儲選擇都可能毫無意義。
為可能需要遠遠超出當前估計的 IT 資源和相關存儲做好準備。
不要認為現(xiàn)有存儲對于新的或擴展的人工智能解決方案來說“足夠好”。隨著時間的推移,與現(xiàn)有存儲相比,具有更高成本、性能和可擴展性的存儲實際上可能更高效。
始終考慮與云的互操作性,因為您的云提供商可能無法提供本地存儲選項。
戰(zhàn)略 IT 規(guī)劃應考慮 DPU 的基礎架構和存儲優(yōu)勢。
當你計劃在企業(yè)中使用人工智能時,不要將存儲放在列表的底部。存儲對人工智能成功的影響可能比你想象的要大。
關于作者
André Franklin 是 NVIDIA 數(shù)據(jù)科學營銷團隊的一員,專注于 NVIDIA 支持的工作站和服務器的基礎設施解決方案。他在多個企業(yè)解決方案方面擁有豐富的經(jīng)驗,包括 NetApp 、 Hewlett-Packard enterprise 和具有預測分析功能的靈活存儲陣列。安德烈居住在加利福尼亞州北部,以駕駛無線電控制的模型飛機、滑冰和拍攝大自然遠足而聞名。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5025瀏覽量
103266 -
gpu
+關注
關注
28文章
4754瀏覽量
129072 -
人工智能
+關注
關注
1792文章
47442瀏覽量
239004
發(fā)布評論請先 登錄
相關推薦
評論