工業物聯網架構師花了數年時間才得出結論,邊緣需要數據中心級的性能,以實現高效分析、提高安全性和降低網絡成本。在人工智能和機器學習領域,傳感器設備內部或附近對高端處理能力的需求從一開始就很明顯。
考慮到即使是簡單的自主機器(我知道這是矛盾的說法)也需要大量的計算能力來運行神經網絡來執行障礙物檢測、識別和避免等功能。例如,京東和菜鳥等公司生產的自動送貨車需要大約每秒 30 兆次運算 (TOPS) 的處理性能,而雅馬哈正在開發的自動駕駛檢查無人機需要大約 20 兆次運算 (TOPS) 的處理性能。
當然,這對嵌入式和工業工程師提出了一個經典的設計挑戰:平衡每瓦性能。性能太低,應用程序失敗。功耗太大,自主機器必須連接到持續的電源。
隨著NVIDIA 的 Jetson AGX Xavier 模塊的發布,這種情況正在改變。
服務器級性能,嵌入式功耗
Jetson AGX Xavier 核心的 Xavier SoC 包含大量異構處理性能,適用于人工智能驅動的機器人應用程序,包括:
512 核 Volta GPU,帶有 64 個 TensorCore
雙 NVDLA(NVIDIA 深度學習加速器)引擎
雙 7 路 VLIW 視覺加速器引擎
這代表 Jetson AGX 模塊的性能高達 32 TOPS,尺寸為 87 mm x 100 mm。如上圖所示,該芯片還包括一個 256 位 LPDDR4X 接口,能夠以 137 GBps 的速度將數據傳輸到模塊上的 16 GB DRAM,用于與 AI 工作負載相關的頻繁讀寫。
基本上,Jetson AGX Xavier 以嵌入式模塊形式提供服務器級性能。然而,同樣重要的是,該模塊的功耗僅為 10W,或與臺式風扇差不多。用戶可將操作模式配置為 10W、15W 或 30W,NVIDIA 報告稱每瓦性能 (PPW) 的最佳點在 15W 左右。即使在那個水平(大約相當于藍光播放器的功耗),Jetson AGX Xavier 在推理性能和能源效率方面也大大超過了其前身 Jetson TX2 和 Intel Core i7 + GTX 1070 顯卡。
Jetson AGX Xavier:引擎蓋下
Jetson AGX Xavier 的多項功能可實現這種類型的每瓦性能,從基礎芯片架構開始。雖然 SoC 上的每個內核都有自己的內存,但內存是離散 SoC 模塊之間的零內存復制。雖然 AGX Xavier 模塊確實通過外部 16 GB LPDDR4X DRAM 提供共享內存,但片上數據只是通過管道傳遞到必要的處理核心。
架構的異構性也提高了效率,因為工作負載可以在最適合任務的架構上執行。這方面的一個例子是片上加速引擎,它可以卸載 Volta GPU,以便它可以專注于更復雜或用戶定義的任務。例如,在以 8 位分辨率推斷固定功能卷積神經網絡 (CNN) 時,NVDLA 引擎可提供高達 5 TOPS 的性能,以 16 位分辨率推斷 2.5 TFLOPS 時,功耗在 0.5W 和 1.5W 之間。
同時,Carmel CPU 內核可以保留用于通用計算任務。
JetPack 簡化了深度學習編程的復雜性
Jetson AGX 系列運行 Linux,這在工業嵌入式系統中變得越來越普遍。許多希望利用 Jetson AGX Xavier 性能的工業和嵌入式開發人員可能不太熟悉的是對 GPU 和/或深度學習加速器進行編程。幸運的是,NVIDIA JetPack 4.1.1 軟件開發套件 (SDK)在CUDA Toolkit中提供了一攬子 API、嵌入式庫以及與常用語言的集成,因此您無需了解如何編程 GPU對 GPU 進行編程。
最新JetPack版本中的一些軟件工具包括:
Linux For Tegra R31.0.1 (K4.9)
CUDA 工具包 10.0
cuDNN 7.3
張量RT 5.0 GA
OpenCV 3.3.1
OpenGL 4.6 / GLES 3.2
伏爾甘 1.1
多媒體 API R31.1
阿格斯 0.97 相機 API
TensorRT 5.0 包中提供的 API 也簡化了對 DLA 進行編程以執行神經網絡工作負載。例如,_setDeviceType() 和 setDefaultDeviceType() 命令可用于在 GPU 或任一 DLA 上執行特定的神經網絡層或層,而像 _allowGPUFallback() 這樣的命令可讓工作負載在 DLA 不支持的情況下恢復到 GPU 。
此外,DeepStream 3.0 SDK 支持 Jetson AGX Xavier,該 SDK 利用 TensorRT、CUDA、多媒體和成像 API 來加速視頻分析應用程序的開發。
當然,低級 CUDA 編程是另一種選擇。
審核編輯:郭婷
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100792 -
NVIDIA
+關注
關注
14文章
4989瀏覽量
103093 -
gpu
+關注
關注
28文章
4741瀏覽量
128963
發布評論請先 登錄
相關推薦
評論