根據機器學習和人工智能任務的執行方式以及如何在其環境中收集數據的方法,組織需要了解應該購買哪些人工智能存儲產品。
當組織購買人工智能存儲平臺時,有很多途徑可以遵循。但一個重要的目標應該是找到一種使其能夠更有效地收集數據產品,以執行機器學習和人工智能任務。
評估和選擇人工智能數據存儲產品涉及的一些關鍵問題包括:
?存儲平臺必須提供高性能和可擴展性,并有效管理成本。
?其性能必須包括提供高吞吐量和實現低延遲。
?產生良好的人工智能模型意味著處理PB規模的數據,這可能導致高昂的成本。組織必須意識到需要管理機器學習和人工智能平臺的總體成本。
在深度學習中,機器學習算法可以在無監督的情況下運行,隨著深度學習算法的連續層處理多個級別的數據分析,I/O配置文件會導致高度隨機訪問。機器學習和人工智能培訓通常以批處理模式運行,在此模式下,數據科學家可以創建機器學習人工智能模型,針對數據進行測試,并隨著時間推移完善模型。這種方法要求低延遲以確保快速執行,因為更短的模型測試時間意味著更多的迭代和更好的模型。
因此,組織選擇的特定存儲產品應基于其所做的工作類型以及所需的機器學習和人工智能培訓。無論哪種情況,獲得存儲產品的性價比都會有一些折衷。
分層方法
在購買任何存儲產品時,成本與性能是一個關鍵考慮因素。如果有這個選擇,大多數組織都會購買速度盡可能快的存儲設備。然而,獲得更高性能需要付出更大的代價。通常,高性能系統不會擴展到數PB的范圍內。加上假設隨時分析的數據工作集將成為整個數據資產的子集,很容易看出存儲分層是設計機器學習和人工智能數據存儲的必要部分。
在機器學習和人工智能的背景下,分層到底意味著什么?傳統的分層產品從固定存儲池發展為復雜系統,根據使用頻率和可用池容量優化單個存儲塊的位置。但是由于數據的處理方式,這種方法并不能很好地滿足機器學習和人工智能的要求。
自動化分層產品假定數據經過對業務非常重要的生命周期。新的數據是非常重要的,并且將被頻繁訪問。隨著時間的推移,數據的價值逐漸降低,它可以移動到成本更低、性能更低的產品存儲中。
用于機器學習和人工智能分析的數據使不同的整個數據集變為活動狀態并用于分析,同時需要在任何時候使用整個數據集。這意味著使用中的數據必須位于性能一致的存儲層上,因為訪問中的任何變化都會影響模型訓練等問題。
機器學習和人工智能模型開發中的數據處理的隨機性,意味著試圖隨著時間動態重新平衡數據的反應性存儲平臺算法將不起作用。這些算法假設一個規模較小且相對靜態的工作集,該工作集隨時間的推移而逐漸變化。在機器學習和人工智能中,數據訪問配置文件將更加隨機,因此很難預測要緩存哪些數據以及如何調整緩存大小或更快的存儲層。
兩層存儲模型
為機器學習和人工智能工作負載提供存儲的一個簡單方法是簡單地使用兩層模型。性能層提供盡可能多的性能和盡可能低的延遲,同時針對系統預期要處理的最大數據集進行調整。
高性能的閃存價格昂貴,并且隨著市場向三級和四級單元之類的容量閃存產品發展,高性能存儲產品出現了一個新市場,其中包括低延遲閃存產品,如三星Z-NAND和東芝XL閃存。這些產品補充了通過提供低延遲I/O來開發的存儲級內存。例如,Vast Data同時使用四層單元和Intel Optane技術,為N結構和S3 API提供支持,為非結構化數據提供高性能、可擴展的存儲產品。
這些第0層存儲產品使用NVMe設備在內部或跨存儲網絡進行連接。與傳統的SAS和SATA存儲設備相比,NVMe優化了I/O堆棧或I/O協議。其結果是更低的延遲和更大的吞吐量,但是由于服務器處理器不需要等待I/O完成的時間,顯著提高了平臺利用率。
Pure Storage公司的 AIRI,適用于人工智能的IBM Spectrum Storage和NetApp公司 All Flash FAS A800之類的產品都在內部使用NVMe以獲得最高的媒質性能。Dell EMC公司和DataDirect Networks公司使用其產品線中的橫向擴展文件系統產品來支持機器學習和人工智能參考架構。
容量層需要安全地長期存儲所有人工智能模型數據,通常是數月或數年的時間。因此,具有高度耐久性的可擴展存儲平臺對于管理機器學習和人工智能所需的大量數據至關重要。對象存儲市場已經發展到生產一系列高度可擴展和耐用的人工智能存儲產品。
耐久性到底是什么?
在典型的存儲系統中,使用將冗余構建到硬盤上存儲的數據中的架構來保護數據。如果單個組件發生故障,則替換了發生故障的組件后,會使用額外的數據副本從丟失數據中恢復并重建數據。盡管RAID 5和更高版本為硬盤故障提供了保護,但仍需要其他系統來防御大規模災難,例如數據中心中斷。隨著傳統系統規模的擴大,持久性或減輕數據丟失的成本很高。
糾刪編碼將冗余構建到數據中,因此,硬盤、服務器甚至整個數據中心的中斷或故障都不會造成數據丟失。擦除編碼數據的分散性質意味著可以構建存儲系統以通過本地和地理數據保護擴展多PB的數據,而無需管理多個系統的開銷和成本。
對象存儲為必須長期(通常為多年)保留的數據提供可擴展性和持久性。但是,為了獲得成本優勢,對象存儲產品是基于具有某些緩存功能的基于硬盤的廉價存儲構建的。這使得它們不太適合機器學習和人工智能數據的日常處理,但對于長期保存卻非常適合。
地理位置分散的對象庫還使來自多個位置和來源的數據能夠從多個位置和來源提取和訪問。例如,如果數據處理使用內部部署和公共云基礎設施的混合,則這可能很有價值。地理分散是Scality Ring平臺的功能,該平臺與HPE公司和WekaIO公司產品集成在一起以創建兩層存儲架構。
混合存儲架構
企業面臨的挑戰是如何實現包含高度可擴展和高性能存儲的混合體系結構。對象存儲系統使組織能夠存儲大多數的數據,而某些產品則使用性能節點,這些節點將活動數據存儲在具有高性能閃存的服務器上。這種方法的優點是,可以將容量或性能節點添加到產品中,以便在任何方向上進行擴展。例如,Cloudian公司提供了可擴展性功能的硬件設備。
從高性能存儲構建的系統必須設計為可針對正在處理的整個數據集進行擴展。在這些場景中,隨著時間的推移,多個人工智能數據集被處理,數據在高性能平臺之間來回移動。
存儲架構必須能夠為人工智能產品提供在存儲器之間來回移動數據所需的網絡帶寬,并滿足人工智能平臺的要求。Nvidia DGX-1和DGX-2平臺等產品每秒可消耗數十GB的數據。因此,為了跟上發展的步伐,人工智能數據存儲產品中計算與存儲之間的連接必須是低延遲的InfiniBand或100Gb以太網。
人工智能產品的軟件定義存儲
為機器學習和人工智能構建存儲并不一定意味著部署更高性能的設備。新的高性能人工智能存儲產品是可用的,基本上是軟件定義存儲(SDS)。這些產品利用了新媒介的性能,包括NVMe,在某些情況下還包括持久內存或存儲類內存。
軟件定義存儲(SDS)產品的優勢之一是它們適用于公共云,因為它們可以在公共云基礎設施中實例化和動態擴展。當不知道基礎設施的數量或只需要很短的時間時,這種操作模式可能很有吸引力。
WekaIO公司提供了基于Matrix軟件的橫向擴展存儲平臺,該平臺可以部署在具有NVMe驅動器的服務器上,也可以部署在具有NVMe功能的彈性計算云實例的AWS公共云中。
Excelero NVMesh是另一個軟件定義存儲(SDS)產品,它可以跨多個服務器和存儲線性地擴展性能,并且通常與IBM公司的Spectrum Scale結合起來創建一個擴展文件系統。
數據移動性
將容量和性能層組合到單個產品中需要人工或自動過程,以在性能和容量層之間移動數據,并在元數據移動時在元數據之間成功跟蹤數據。某些人工智能存儲產品可以直接與對象存儲集成,從而簡化了此過程。公共云可以作為機器學習和人工智能開發的強大選擇,因為在內部云服務之間移動的數據不會產生存儲費用。例如,WekaIO 公司的Matrix可以在內部和外部復制數據,并將其存檔到對象存儲中。
集成在一起
想要為機器學習和人工智能工作負載實現本地存儲的企業必須考慮容量和性能。對于性能層,他們可以從頭開始構建,也可以部署一個打包的產品,用于機器學習的融合基礎設施。使用構建選項,企業可以部署內部設備或使用軟件定義存儲(SDS)。軟件定義存儲(SDS)使組織能夠將存儲作為一個單獨的層來實現,或者構建一個超融合的基礎設施。如果數據將保留在本地,則組織可以使用設備或遵循軟件定義的路由,使用對象存儲部署容量層。
轉向公共云,IT組織可以使用本機服務,例如對象存儲和塊存儲。要實現機器學習和人工智能應用程序的低延遲,文件存儲產品還有很長的路要走。相反,組織可能會使用塊存儲,尤其是與將文件服務層添加到本機塊資源的軟件定義存儲(SDS)或人工智能存儲產品結合使用的時候。
責任編輯:ct
評論
查看更多