為了滿足更先進的科研需求,全球各地的學術機構都在致力于重新設計代碼和算法。英國的面向 E 級計算算法和基礎設施優化的 ExCALIBUR (the Exascale Computing ALgorithms and Infrastructures Benefiting UK Research) 項目就是這樣一個致力于為英國最重要的研究領域提供新一代高性能模擬軟件的科研項目。這些領域涉及到計算高度密集型的應用,例如模擬整個宇宙的演變、了解地震波和引力波、評估海嘯以及對物質的基本結構進行建模等。
新型計算方案的出現,包括智能且可編程的互連解決方案如 DPU(數據處理器)等,為研究人員在新的高性能計算系統上提供了空前的創新空間。NVIDIA BlueField DPU 集強大的網絡計算引擎、高速網絡和豐富的可編程性于一體,為最苛刻的應用提供了軟件定義、硬件加速的解決方案。
擁有分布在劍橋大學、萊斯特大學、杜倫大學和愛丁堡大學這四所大學的計算資源的 DiRAC(Distributed Research utilising Advanced Computing)正在參與ExCALIBUR 項目,正在以全新的方式利用 BlueField DPU 豐富的可編程能力助力科學突破。
例如杜倫大學的計算宇宙學院和計算機科學系,他們正在對地震波和引力波的傳播進行大規模模擬,該模擬使用動態笛卡爾網格和 ExaHyPE 代碼將大部分的計算轉化為多任務操作。
在過去幾年中,他們付出了大量的精力來標記和識別那些需要與其它網格發生變化的節點或任務同步的關鍵任務。由于存在大量的低優先級任務,保證整個系統的負載平衡的工作量將會很大。即使達到最佳負載平衡后,一旦域內任何參數發生變化,系統立刻就會隨之變得不平衡,要想再次達到最佳負載平衡會非常困難并且會耗費大量的時間或成本。
為了提升系統的應變能力,研究人員必須將輕量任務和閑置任務轉移到其它資源上,但是,編排就會變得十分困難,同時通過調節 MPI 運行時來確保在正確的時間用正確的步長來進行計算,也會搶占計算資源。
憑借 BlueField DPU 計算核,杜倫大學可以使用 DPU 作為 MPI 處理引擎來節省計算資源,例如觀察和引導任務,以及及時緩存/接受任務等。這項工作延伸了 ExaHyPE 組織內部的研究合作,尤其是 TUM 的 Michael Bader 小組,對于以 CPU 核心的計算任務提出來一個全新的觀點,即開始由智能網絡承擔起數據處理工作。
倫敦大學學院的研究生 James Legg 正在使用 BlueField DPU 通過使用基于任務的調度機制來加速計算代碼。James 的研究方向就是使用 BlueField DPU,尤其是其 Arm 處理器子系統來作為任務調度器,由主機處理器來運行計算任務或內核。這顛覆了傳統的加速卡運行在內核,由主機來管理所有任務的認知。以前,當調度器和內核都在主機上運行時,它們會強奪處理器資源,使得調度器的設計必須簡單。在 BlueField DPU 上,調度器可以輕松擁有幾個專用線程,實現了調度處理和與主機運行內核的并行化,并可以執行更復雜的調度操作。另外一項研究是如何在主機處理器完全不參與的情況下,利用 BlueField DPU 上的調度器在任意主機 RAM 之間移動計算數據。
CSD3 (Cambridge Service for Data Driven Discovery)是英國國家研究云,同時也是世界上性能最強大的科研云原生超級計算機之一。CSD3 通過 BlueField DPU 來卸載主機上的安全策略和存儲框架等基礎設施管理操作,同時提供了應用的加速與隔離,以此實現了 I/O 性能的最大化。這既實現了安全性又得到了裸金屬性能,使研究人員能夠以全新的方式進行研究。
以上只是研究人員如何利用 DPU 性能和可編程性來探索創新的一部分。為了進一步簡化編程,加速創新,NVIDIA 推出了 DOCA SDK,使基礎設施開發人員能夠使用行業標準的 API,在 BlueField DPU 上快速創建網絡、存儲、安全、管理以及 AI 和高性能計算(HPC)應用和服務。憑借 DOCA,開發人員可以通過創建高性能、軟件定義和云原生的 DPU 加速服務,對未來的超級計算基礎設施進行編程?,F在,開發人員即可通過注冊提前體驗。
責任編輯:haq
-
NVIDIA
+關注
關注
14文章
5025瀏覽量
103268 -
DPU
+關注
關注
0文章
365瀏覽量
24215
原文標題:DPU 助力英國高性能計算研究人員創新和改進超算基礎設施
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論