有声小说下载,小说改编的网页游戏,有声读物

今年早些時候，NVIDIA首席執行官黃仁勛發布了NVIDIA? DGX-2?服務器，并稱其為“全球最大GPU”。DGX-2在單一系統中包含了16個NVIDIA Tesla? V100 32 GB GPU和其他頂級組件（兩個24核Xeon CPU、1.5 TB DDR4 DRAM內存和30 TB NVMe存儲），通過基于NVSwitch的NVLink結構連接，可提供2 petaFLOPS的性能，堪稱最強大的超級計算機之一。

NVSwitch使DGX-2成為了最大的GPU，這意味著其總體并非各部分的簡單加成。事實證明，讓DGX-2服務器能夠稱得上“全球最大GPU”的，正是其中看似最不起眼的部分。讓我們來看看創新NVIDIA NVSwitch?芯片及其他工程特性如何使DGX-2成為了全球最大的GPU。

注：本文中的信息來自于Alex Ishii 和 Denis Foley 在Hot Chip 2018大會上的專題演示“NVSwitch and DGX?2 – NVIDIA NVLink-Switching Chip and Scale-Up GPU-Compute Server”。

單一GPU

讓我們先看看單一多核GPU如何與CPU交互，如圖1所示。程序員通過NVIDIA CUDA?技術明確地展現了并行工作。工作流經PCIe I / O端口進入GPU，其中數據由GPU驅動程序分發到可用的圖形處理群集（GPC）和流式多處理器（SM）內核。XBAR的采用讓GPU / SM內核能夠在L2高速緩存和高帶寬GPU內存（HBM2）上交換數據。

GPC和GPU內存之間的高帶寬可實現大規模計算能力和快速同步，但規模受限，因其要求數據必須適合本地GPU內存，才能有效使用XBAR提供的高帶寬。

圖1. 連接到CPU的單一GPU

雙GPU（PCIe和NVLink）

圖2顯示了添加另一個GPU是如何增加可用GPU內存量的。在所示配置中，GPU只能以PCIe提供的32 GBps的最大雙向帶寬，訪問其他GPU上的內存。此外，這些交互會與總線上的CPU操作競爭，甚至進一步占用可用帶寬。

圖2. 通過PCIe總線連接的雙GPU

NVIDIA NVLink?技術使GPC無需通過PCIe總線即可訪問遠程GPU內存，如圖3所示。NVLinks實現了XBAR之間的有效橋接。V100 GPU上最多可采用六個NVLink，GPU之間的雙向帶寬可達300 GBps。但是，在具有兩個以上GPU的系統中，六個可用的NVLink必須先分成較小的鏈接組，每個組專用于訪問不同的特定單一GPU。這就限制了可使用直接連接來構建的機器規模，并降低了每對GPU之間的帶寬。

圖3. 通過NVLink技術連接的雙GPU

Super Crossbar將GPU連接在一起

理想的情況是提供某種交叉，讓更多GPU能夠訪問所有GPU內存，所有GPU都可能在單一GPU驅動程序實例的控制下，如圖4所示。有了這樣的交叉，可在沒有其他進程干預的情況對GPU內存進行訪問，且可用帶寬將足夠高，可提供類似于上文所述的雙GPU情況下的性能擴展。

圖4. 尋找交叉開關設備

最終目標是提供以下所有內容：

更大的問題規模容量。大小受整個GPU集合的GPU內存容量限制，而非單一GPU容量。

強大的可擴展性。與現有解決方案相比，NUMA效應將大大降低。總內存帶寬實際上會隨GPU數量而增長。

使用便利。針對較少數量的GPU編寫的應用程序將更易于移植。此外，豐富的資源可助力快速開展實驗。

以上16-GPU配置（假設有32GB V100 GPU）產生的總容量使其能夠前所未有地運行“一個超強GPU”的計算。

NVIDIA NVSwitch介紹

NVSwitch（圖5）是一款GPU橋接設備，可提供所需的NVLink交叉網絡。端口邏輯模塊中的數據包轉換使得進出多GPU的流量看似是通過單一GPU的。

圖5. 帶有標注的NVSwitch芯片裸片

NVSwitch芯片并行運行，以支持數量日益增加的GPU之間的互連?？墒褂萌齻€NVSwitch芯片構建一個8 GPU封閉系統。兩條NVLink路徑將每個GPU連接至每臺交換機，流量在所有NVLink和NVSwitch之間交叉。 GPU使用任意對之間的300 GBps雙向帶寬成對通信，因為NVSwitch芯片提供了從任何源到任何目的地的唯一路徑。

圖6. NVSwitch框圖

實現了對分帶寬

讓每個GPU從另一個GPU讀取數據，而不會有兩個GPU從同一遠程GPU讀取數據，就實現了無干擾的成對通信能力。使用16個GPU實現的1.98 TBps讀取帶寬與128B傳輸在理論上80％的雙向NVLink效率相匹配。

圖7. 實現的對分帶寬結果

使用cuFFT（16K X 16K）

實現更強大的可擴展性

通過在越來越多的GPU上（更高的GFLOPS，相應的總運行時間卻更短）、以及搭載V100 GPU的NVIDIA DGX-1服務器上運行“iso-problem instance”計算進行對比，即能證明其強大的可擴展性能，如圖8所示。如果沒有NVSwitch網絡提供的NVLink交叉，由于問題分散在更多GPU上，傳輸數據所需的時間要長于在本地對相同數據進行簡單計算所需的時間。

圖8. 使用NVLink與Hybrid Cube Mesh的cuFFT結果

全歸約基準測試

圖9也體現了NVLink交叉的優勢。全歸約基準測試是對機器學習應用程序中采用的重要通信原語進行的測量。與兩臺配備八個GPU的服務器（通過InfiniBand連接）相比，NVLink交叉讓16 GPU DGX-2服務器能夠提供更高帶寬和更低延遲。針對較小的信息，NVLink網絡的效率明顯優于InfiniBand。

圖9. 全歸約基準測試結果顯示NVLink與InfiniBand帶寬效率的顯著差異

HPC和AI訓練基準測試的加速

圖10所示，與總GPU數相同的兩臺DGX-1（采用V100）服務器相比，HPC和AI訓練基準測試性能得以提升，速度達到了其2到2.7倍。對比所用的DGX-1服務器各采用了8個Tesla V100 32 GB GPU和雙槽Xeon E5 2698v4處理器。服務器通過四個EDR IB / GbE端口連接。

圖10. HPC和AI訓練基準測試的加速

總結

正因有了NVSwitch芯片，DGX-2才可謂全球最大GPU。NVSwitch是一種暢通無阻的設備，具有18個NVLink端口，每端口51.5 GBps，聚合雙向帶寬達928 GBps。采用了NVSwitch芯片的DGX-2可提供512 GB的總容量，針對特定應用的性能表現超過InfiniBand連接的一對DGX-1服務器的兩倍。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5013

瀏覽量
103247
gpu

gpu

+關注

關注
28

文章
4752

瀏覽量
129057

原文標題：全球最大GPU 背后的秘密：NVSwitch如何實現NVIDIA DGX-2的超強功力？

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

ASIC和GPU的原理和優勢

? 本文介紹了ASIC和GPU兩種能夠用于AI計算的半導體芯片各自的原理和優勢。 ASIC和GPU是什么 ASIC和GPU，都是用于計算功能的半導體芯片。因為都可以用于AI計算，所以也被稱為

發表于 01-06 13:58 ?257次閱讀

《CST Studio Suite 2024 GPU加速計算指南》

。 2. 操作系統支持：CST Studio Suite在不同操作系統上持續測試，可在支持的操作系統上使用GPU計算，具體參考相關文檔。 3. 許可證：GPU計算功能通過CST Studio Suite

發表于 12-16 14:25

【一文看懂】大白話解釋“GPU與GPU算力”

GPU與GPU算力1.GPU是什么？2.GPU與CPU的區別？3.GPU算力是什么？4.哪些因素影響了G

發表于 10-29 08:05 ?757次閱讀

為什么被稱為超級電容？超級電容怎么用？

說起電容的作用，很多電子人脫口而出：濾波。沒錯，這是大部分電容在電路中的作用，但有一種電容生而不是為了濾波，那就是超級電容。本期貿澤科普實驗室，momo就為大家說一說超級電容。

發表于 10-24 10:15 ?875次閱讀

NVIDIA DGX B200首次面向零售市場:配備8塊B200 GPU

10月13日最新消息，NVIDIA的DGX B200 AI服務器近期已在Broadberry上架，標價515，410美元（相當于約364.2萬元人民幣）。　　自發布以來，Blackwell架構就備受業界矚目，NVIDIA首席執行官黃仁勛對其贊譽有加，微軟、Meta等科技巨頭也迅速跟進采用。

發表于 10-14 14:34 ?664次閱讀

TI TDA2x SoC上基于GPU的環視優化

電子發燒友網站提供《TI TDA2x SoC上基于GPU的環視優化.pdf》資料免費下載

發表于 10-10 09:14 ?0次下載

3DP工藝最大的優勢是什么

3DP（Three Dimensional Printing and Gluing）工藝，也被稱為三維打印黏結成型、噴墨沉積或粘合噴射、噴墨粉末打印，是一種先進的3D打印技術。其最大的優勢主要體現在以下幾個方面：

發表于 09-16 15:37 ?988次閱讀

被稱為“小號HBM”，華邦電子CUBE進階邊緣AI存儲

電子發燒友網報道（文/黃晶晶）與AI訓練以GPU搭配HBM不同，邊緣AI采用何種內存方式，DDR、GDDR、LPDDR等適用于不同的場景。日前，華邦電子產品總監朱迪接受包括電子發燒友網在內的媒體采訪

發表于 07-01 16:21 ?3121次閱讀

聚徽觸控-GPU 工控機是什么產品

圖像處理器（Graphics Processing Unit，簡稱 GPU），又被稱為視覺處理單元、圖形核心，其設計專注于特定的任務，主要用于加速幀緩沖區中實時的 3D 圖像構建以及顯示相關的電子運算。通常，GPU 與中央處理器

發表于 06-14 09:57 ?297次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

百億億次計算和萬億參數模型提供基礎 NVIDIA推出世界首個高速GPU互連技術NVLink?，提供的速度遠超基于PCIe的解決方案，是多GPU系統擴展內存和性能的理想選擇。NVLink為處理最大視覺

發表于 05-13 17:16

OpenAI聯手Nvidia發布首臺Nvidia DGX H200

OpenAI總裁兼聯合創始人Greg Brockman分享了他與山姆?阿爾特曼（Sam Altman）、黃仁勛以及自己的合影，他們的眼前正是這臺首次亮相的DGX H200。

發表于 04-25 13:50 ?435次閱讀

聊聊GPU背后的大贏家-HBM

HBM全稱為High Bandwidth Memory，直接翻譯即是高帶寬內存，是一款新型的CPU/GPU內存芯片。

發表于 04-20 15:27 ?1573次閱讀

NVIDIA Blackwell DGX SuperPOD助力萬億級生成式AI計算

全新 DGX SuperPOD 采用新型高效液冷機架級擴展架構，基于 NVIDIA DGX GB200 系統構建而成，在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計算性能和 240 TB 的快速顯存，且可通過增加機架來擴展性能。

發表于 03-21 09:49 ?227次閱讀

英偉達推出百億參數AI模型處理方案——DGX SuperPOD

據悉，新型DGX SuperPOD采用全新的高效水冷機架式設計，搭載英偉達DGX GB200系統，FP4精度下具備11.5 exaflops的人工智能超級計算力以及240 terabytes的高速內存。用戶可以通過加裝機架進行持續擴充。

發表于 03-19 14:35 ?767次閱讀

為什么單顆裸芯會被稱為die呢？

Wafer、die、chip是半導體領域常見的術語，但是為什么單顆裸芯會被稱為die呢？

發表于 01-24 09:14 ?3064次閱讀