RDMA是一種直接內(nèi)存訪問技術(shù),RDMA 通過網(wǎng)絡(luò)把資料直接傳入計算機的存儲區(qū),將數(shù)據(jù)從一個系統(tǒng)快速移動到遠(yuǎn)程系統(tǒng)存儲器中,而不對操作系統(tǒng)造成任何影響,這樣就不需要用到多少計算機的處理功能。它消除了外部存儲器復(fù)制和文本交換操作,因而能解放內(nèi)存帶寬和CPU 周期用于改進(jìn)應(yīng)用系統(tǒng)性能。這允許高通量、低延遲的網(wǎng)絡(luò)通信,尤其適合在大規(guī)模并行計算機集群中使用。
常見的 RDMA 實現(xiàn)包括 iWARP、RoCE 與 InfiniBand。其中,InfiniBand 是超級計算機最常用的技術(shù),其可以做到 1ms 的延遲及超過 100Gb 每秒的傳輸速率。這對于超大規(guī)模的計算機集群是必要的。超級計算機、人工智能,云計算的數(shù)據(jù)中心都會受益于 InfiniBand 的卓越效能。世界 TOP500 超級計算機(2017年 6 月排行榜)中 36%使用了 InfiniBand 技術(shù)。
Mellanox 提供從 HPC(高性能計算中心)、數(shù)據(jù)中心、WEB2.0、機器學(xué)習(xí)、云服務(wù)器等解決方案,并專門針對目前火熱的人工智能算法進(jìn)行了架構(gòu)優(yōu)化。其客戶包括 Facebook、Paypal、NVIDIA、百度、京東、騰訊等。
E級超算已經(jīng)成為世界各國在超算領(lǐng)域追逐的新目標(biāo)。目前,由江南計算所、國防科大和中科曙光公司根據(jù)不同技術(shù)路線研制的三臺 E 級原型系統(tǒng)已經(jīng)完成并分別安裝在濟(jì)南、天津和深圳國家超級計算中心。據(jù) Hyperion Research 公司按照系統(tǒng)驗收的時間估算,2021 至 2026 年期間,全球?qū)⒔ǔ?28~38 臺 E 級或接近 E 級的超級計算機,總價值約在 100~150 億美元。
在實現(xiàn)上,RDMA 實際上是一種智能網(wǎng)卡與軟件架構(gòu)充分優(yōu)化的遠(yuǎn)端內(nèi)存直接高速訪問技術(shù),通過將 RDMA 協(xié)議固化于硬件(即網(wǎng)卡)上,以及支持 Zero-copy和 Kernel bypass 這兩種途徑來達(dá)到其高性能的遠(yuǎn)程直接數(shù)據(jù)存取的目標(biāo)。其通信過程使得用戶在使用 RDMA 時具備如下優(yōu)勢:
? 零拷貝(Zero-copy) - 應(yīng)用程序能夠直接執(zhí)行數(shù)據(jù)傳輸,在不涉及到網(wǎng)絡(luò)軟件棧的情況下。數(shù)據(jù)能夠被直接發(fā)送到緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要被復(fù)制到網(wǎng)絡(luò)層。
? 內(nèi)核旁路(Kernel bypass) - 應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換。
? 不需要 CPU 干預(yù)(No CPU involvement) - 應(yīng)用程序可以訪問遠(yuǎn)程主機內(nèi)存而不消耗遠(yuǎn)程主機中的任何 CPU。遠(yuǎn)程主機內(nèi)存能夠被讀取而不需要遠(yuǎn)程主機上的進(jìn)程(或 CPU)參與。遠(yuǎn)程主機的 CPU 的緩存(cache)不會被訪問的內(nèi)存內(nèi)容所填充。
? 消息基于事務(wù)(Message based transactions) - 數(shù)據(jù)被處理為離散消息而不是流,消除了應(yīng)用程序?qū)⒘髑懈顬椴煌?事務(wù)的需求。
? 支持分散/聚合條目(Scatter/gather entries support) - RDMA 原生態(tài)支持分散/聚合。也就是說,讀取多個內(nèi)存緩沖區(qū)然后作為一個流發(fā)出去或者接收一個流然后寫入到多個內(nèi)存緩沖區(qū)里去。
目前,RDMA 技術(shù)在超算、AI 訓(xùn)練、存儲等多個高性能場景大量部署,已形成廣泛應(yīng)用。但是 RDMA 技術(shù)路線也有很多,用戶及各家廠商對于 RDMA 技術(shù)路線的選擇也不盡相同。
在三種主流的 RDMA 技術(shù)中,可以劃分為兩大陣營。一個是 IB 技術(shù), 另一個是支持 RDMA 的以太網(wǎng)技術(shù)(RoCE 和 iWARP)。其中,IBTA 主要聚焦 IB 和 RoCE 技術(shù),而 iWARP 則是在 IEEE/IETF 標(biāo)準(zhǔn)化的技術(shù)。
在存儲領(lǐng)域,支持 RDMA 的技術(shù)早就存在,比如SRP(SCSI RDMA Protocol)和iSER(iSCSI Extensions for RDMA)。如今興起的 NVMe over Fabrics 如果使用的不是 FC 網(wǎng)絡(luò)的話,本質(zhì)上就是 NVMeover RDMA。換句話說,NVMe over InfiniBand, NVMe over RoCE 和 NVMe over iWARP 都是 NVMe over RDMA。
1、總線級數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)白皮書.pdf
2、RDMA提高數(shù)據(jù)傳輸效率.pdf
3、配置 InfiniBand 和 RDMA 網(wǎng)絡(luò).pdf
4、華為RDMA.pdf
5、面向AI智能無損數(shù)據(jù)中心網(wǎng)絡(luò).pdf
6、面向分布式 AI智能網(wǎng)卡低延遲Fabric技術(shù).pdf
7、NVMe存儲SPDK 加速前后端 IO.pdf
8、基于RDMA多播機制的分布式持久性內(nèi)存文件系統(tǒng).pdf
9、云環(huán)境下分布式存儲性能優(yōu)化實踐.pdf
《RDMA技術(shù)合集(上)》
1、智能網(wǎng)卡低延遲Fabric技術(shù).pdf
2、RDMA參數(shù)選擇.pdf
3、RDMA在數(shù)據(jù)中心中的應(yīng)用研究.pdf
4、RDMA系統(tǒng)的挑戰(zhàn).pdf
5、RDMA網(wǎng)絡(luò)人工智能訓(xùn)練重要硬件
6、RDMA技術(shù)白皮書(中文版)
7、RDMA技術(shù)調(diào)研
8、RDMA在數(shù)據(jù)中心中的應(yīng)用研究
審核編輯 :李倩
-
存儲器
+關(guān)注
關(guān)注
38文章
7492瀏覽量
163844 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132646 -
RDMA
+關(guān)注
關(guān)注
0文章
77瀏覽量
8949
原文標(biāo)題:RDMA技術(shù)場景和參數(shù)優(yōu)化
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論