Xilinx的Versal AI Core系列器件旨在解決有關 AI 推理的最大而獨特的難題,該系列使用具有高計算效率的 ASIC 級人工智能計算引擎以及靈活的可編程結構,來構建具有加速器的 AI 應用,以使任何給定的工作負載都能夠在實現低功耗、低延遲的同時達到最大效率。
Versal AI Core 系列VCK190 評估套件采用了該系列內 AI 性能最優的VC1902 器件。該套件旨在用于需要高吞吐量 AI 推理和信號處理計算性能的設計。VCK190 套件提供比當前服務器級 CPU 高 100 倍的計算能力并提供各種連接選項,因而是適用于從云到邊緣計算等眾多應用的、理想的評估和原型開發平臺。
圖 1:Xilinx Versal AI Core 系列 VCK190 評估套件。(圖片來源:AMD, Inc)
VCK190 評估套件的主要特點
板載 Versal AI Core 系列器件
AI 和 DSP 引擎擁有比當今服務器級 CPU 高 100 倍的計算能力
預先構建的合作伙伴參考設計用于快速原型設計
用于前沿應用開發的最新連接技術
內置第 4 代 PCIe? 硬 IP,用于高性能設備接口,如 NVMe SSD 和主機處理器
內置 100G EMAC 硬 IP,用于高速 100G 網絡接口
DDR4 和 LPDDR4 存儲器接口
協同優化型工具和調試方法
Vivado? ML、Vitis? 統一軟件平臺、Vitis AI、AI 引擎工具,用于 AI 推理應用的開發
利用 Xilinx 的 Versal AI Core 系列器件進行 AI 接口加速
圖 2:Xilinx 的 Versal AI Core VC1902 ACAP 器件的框圖(圖片來源:AMD, Inc)
Versal? AI Core 自適應計算加速平臺 (ACAP) 是一個高度集成的多核異構器件,可以在硬件和軟件層面動態地適應各種 AI 工作負載,使其成為 AI 邊緣計算應用或云加速卡的理想選擇。該平臺集成了用于嵌入式計算的下一代 Scalar 引擎、用于提高硬件靈活性的自適應引擎以及由 DSP 引擎和用于推理和信號處理的革命性 AI 引擎組成的智能引擎。如此集成便形成了一款自適應性強的加速器,在 AI/ML 工作負荷方面超過了傳統 FPGA 和 GPU 的性能、延遲和功率效率。
Versal ACAP 平臺的亮點
自適應性引擎:
自定義存儲器層次結構優化了加速器內核的數據移動和管理
預處理和后處理功能包括神經網絡 RT 壓縮和圖像縮放
AI 引擎 (DPU)
矢量處理器的平鋪陣列,通過 XCVC1902 器件達到 133 INT8 TOPS 性能,稱為深度學習處理單元或 DPU
非常適用于 CNN、RNN 和 MLP 等神經網絡;為了適應不斷發展的算法,可對硬件進行優化
標量引擎
四核 ARM 處理子系統,用于安全、電源和比特流管理的平臺管理控制器
VCK190 AI 推理性能
相比目前的服務器級 CPU,VCK190 具有超過其 100 倍的計算性能。以下是一個基于 C32B6 DPU 內核(批處理 = 6)實現的 AI 引擎性能例子。請參考下表,了解 VCK190 上各種神經網絡樣品的吞吐性能(以幀/秒或 fps 為單位),DPU 工作頻率 1250MHz。
表1:VCK190 AI 推理性能示例。
更多關于 VCK190 AI 性能的詳細內容,請參見《Vitis AI Library User Guide (UG1354), r2.5.0》,網址:https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board。
Design Gateway 的 IP 內核如何加速 AI 應用的性能?
Design GatewayIP 內核用來處理網絡和數據存儲協議,且不需要 CPU 干預。這使得該器件成為 CPU 系統完全擺脫復雜的協議處理的理想之選,使得這些系統能夠將大部分計算能力用于人工智能應用,包括人工智能推理、前后數據處理、用戶接口、網絡通信和數據存儲訪問,從而獲得最佳性能。
圖 3:使用 Design Gateway IP Core 的 AI 應用實例框圖(圖片來源:Design Gateway)
Design Gateway 的 TCP 卸載引擎 IP(TOExxG-IP)性能
用傳統 CPU 系統處理 10GbE 或 25GbE 的高速、高吞吐量 TCP 數據流需要占用 50% 以上的 CPU 時間,這會降低 AI 應用的整體性能。根據在 Xilinx MPSoC Linux 系統上進行的 10G TCP 性能測試,在 10GbE TCP 傳輸過程中 CPU 的使用率超過 50%,TCP 發送和接收數據的傳輸速度可以達到 10GbE 速度的 40% 到 60% 左右,即 400 MB/s 到 600 MB/s。
通過實施 Design Gateway 的TOExxG-IP Core,在 10GbE 和 25GbE 上進行 TCP 傳輸的 CPU 使用率可以降低到幾乎 0%,而以太網帶寬的利用率可接近100%。這允許通過純硬件邏輯直接在 TCP 網絡上發送和接收數據,并以最低的 CPU 占用率和最低的延遲被送入 Versal AI 引擎。下方圖 4 顯示了 TOExxG-IP 和 MPSoC Linux 系統的 CPU 使用率和 TCP 傳輸速度對比。
圖 4:MPSoC Linux 系統和 Design Gateway 的 TOExxG-IP Core 的 10G/25G TCP 傳輸的性能比較。(圖片來源:Design Gateway)
Design Gateway 的 TOExxG-IP 用于 Versal 器件
圖 5:TOExxG-IP 系統概覽。(圖片來源:Design Gateway)
TOExxG-IP 內核實現了 TCP/IP 協議棧(在硬線邏輯中)并與 Xilinx 的 EMAC 硬 IP 和以太網子系統模塊連接,以實現 10G/25G/100G 以太網速度的底層硬件接口。TOExxG-IP 的用戶接口包括一個用于控制信號的寄存器接口和一個用于數據信號的 FIFO 接口。TOExxG-IP 專用于通過 AXI4-ST 接口與 Xilinx 的以太網子系統連接。用戶接口的時鐘頻率取決于以太網接口的速度(例如 156.625 MHz 或 322.266 MHz)。
TOExxG-IP 的特點
完整的 TCP/IP 協議棧實施,不需要 CPU
支持與 TOExxG-IP 的一對一會話
多會話可以通過使用多個 TOExxG-IP 實例來實現
支持服務器和客戶端模式(被動/主動打開和關閉)
支持 Jumbo 框架
通過標準 FIFO 接口提供簡單的數據接口
XCVC1902-VSVA2197-2MP-ES FPGA 器件上的 FPGA 資源使用情況如下表 2 所列。
表 2:Versal 器件的實施統計示例。
有關 TOExxG-IP 的更多詳情,請參閱其規格書。可從 Design Gateway 網站下載規格書:
TOE10G-IP Core Xilinx 規格書
TOE25G-IP Core Xilinx 規格書
TOE100G-IP Core Xilinx 規格書
Design Gateway 的 NVMe 主機控制器 IP 性能
具有 PCIe Gen3 x4 或 PCIe Gen4 x4 的 NVMe 存儲器接口速度的數據速率分別高達 32Gbps 和 64Gbps。這比 10GbE 的以太網速度高三到六倍。CPU 處理復雜的 NVMe 存儲協議以達到最高的磁盤訪問速度;相比 10Gbe 以太網的 TCP 協議,這需要更多的 CPU 時間。
Design Gateway 通過開發 NVMe IP 內核解決了該問題,該 IP 內核能夠作為獨立的 NVMe 主機控制器運行,能夠在沒有 CPU 參與的情況下直接與 NVMe SSD 通信。這使得 NVMe PCIe Gen3 和 Gen4 固態硬盤的訪問效率高、性能好,從而能夠簡化用戶接口和標準功能,實現了使用簡單,而不需要 NVMe 協議的知識。如圖 6 所示,NVMe PCIe Gen4 固態硬盤的性能可以通過 NVMe IP 實現高達 6GB/s 的傳輸速度。
圖 6:NVMe PCIe Gen3 和 Gen4 SSD 與 Design Gateway 的 NVMe-IP Core 的性能比較。(圖片來源:Design Gateway)
用于 Versal 器件的 Design Gateway NVMe-IP
圖 7:NVMe-IP 系統概覽圖。(圖片來源:Design Gateway)
NVMe-IP 的特點
能夠實現應用層、事務層、數據鏈路層和物理層的某些部分在沒有 CPU 或外部 DDR 存儲器的情況下訪問 NVMe SSD
與 Xilinx PCIe Gen3 和 Gen4 Hard IP 一起使用
能夠利用 BRAM 和 URAM 作為數據緩沖器,而不需要外部存儲器接口
支持六條指令:識別、關斷、寫入、讀取、SMART 和刷新(可選擇支持其他命令)
XCVC1902-VSVA2197-2MP-E-S FPGA 器件的 FPGA 資源使用情況,如表 2 所示。
表 3:Versal 器件的實施統計示例。
有關 Versal 器件的 TOExxG-IP 的更多詳情,請參閱其規格書。可從 Design Gateway 網站下其載規格書:
Gen4 Xilinx 的 NVMe IP Core 規格書
結語
TOExxG-IP 和 NVMe-IP Core 通過使 CPU 系統完全擺脫計算和內存密集型協議(如 TCP 和 NVMe 存儲協議),來幫助加速人工智能應用的性能,這對實時人工智能應用至關重要。這使得 Xilinx 的 Versal AI Core 系列器件能夠執行 AI 推理和高性能計算應用,而不會出現網絡和數據存儲協議處理的瓶頸或延誤。
VCK190 評估套件和 Design Gateway 的網絡和存儲 IP 解決方案能夠在 Xilinx 的 Versal AI Core 器件上以最低的 FPGA 資源占用率、極高的功率效率實現 AI 應用的最佳性能。
審核編輯:湯梓紅
-
asic
+關注
關注
34文章
1205瀏覽量
120624 -
接口
+關注
關注
33文章
8681瀏覽量
151600 -
Xilinx
+關注
關注
71文章
2169瀏覽量
121843 -
AI
+關注
關注
87文章
31359瀏覽量
269762
發布評論請先 登錄
相關推薦
評論