NVIDIA 發布了JetPack 3.1,這是用于 Jetson TX1 和 TX2 的生產 Linux 軟件版本。隨著對 TensorRT 2.1 和 cuDNN 6.0 的升級,JetPack 3.1 為視覺引導導航和運動控制等實時應用提供了高達 2 倍的深度學習推理性能提升,這些應用受益于加速的批量大小 1。改進的功能使 Jetson 能夠部署比以往任何時候都更強大的智能,實現一代自主機器,包括送貨機器人、遠程呈現和視頻分析。為了進一步推動機器人技術的發展,NVIDIA 最近推出的 Isaac Initiative 是一個端到端平臺,用于在該領域訓練和部署高級 AI。
邊緣的人工智能
今年春天早些時候,當 NVIDIA 推出Jetson TX2時,事實上的邊緣計算平臺在功能上得到了顯著提升。如圖 1 中的 Wave Glider 平臺所示,位于網絡邊緣的遠程物聯網 (IoT) 設備經常會遇到網絡覆蓋、延遲和帶寬下降的情況。雖然物聯網設備通常用作將數據中繼到云的網關,但邊緣計算通過訪問安全的板載計算資源重新構建了物聯網的可能性。NVIDIA 的 Jetson 嵌入式模塊在 Jetson TX1 上以 1 TFLOP/s 的速度提供服務器級性能,并在 10W 的功率下將 Jetson TX2 上的 AI 性能提高一倍。
噴氣背包 3.1
JetPack 3.1 with Linux For Tegra (L4T) R28.1 是 Jetson TX1 和 TX2 的生產軟件版本,具有長期支持 (LTS)。TX1 和 TX2 的 L4T 板級支持包 (BSP) 適用于客戶產品化,其共享的 Linux 內核 4.4 代碼庫提供了兩者之間的兼容性和無縫移植。從 JetPack 3.1 開始,開發人員可以在 TX1 和 TX2 上訪問相同的庫、API 和工具版本。
除了從 cuDNN 5.1 升級到 6.0 以及對 CUDA 8 的維護更新之外,JetPack 3.1 還包括用于構建流應用程序的最新視覺和多媒體 API。您可以將 JetPack 3.1 下載到您的主機 PC,以使用最新的 BSP 和工具刷新 Jetson。
使用 TensorRT 2.1 進行低延遲推理
JetPack 3.1 中包含最新版本的 TensorRT,因此您可以在 Jetson 上部署優化的運行時深度學習推理。TensorRT 通過網絡圖優化、內核融合和半精度 FP16 支持提高了推理性能。TensorRT 2.1 包括關鍵功能和增強功能,例如多權重批處理,可進一步提高 Jetson TX1 和 TX2 的深度學習性能和效率并減少延遲。
批量大小 1 的性能已顯著提高,從而將 GoogLeNet 的延遲降低到 5 毫秒。對于延遲敏感的應用程序,批量大小 1 提供最低延遲,因為每個幀一到達系統就會被處理(而不是等待批量處理多個幀)。如圖 2 所示,在 Jetson TX2 上,使用 TensorRT 2.1 在 GoogLeNet 和 ResNet 圖像識別推理方面的吞吐量是 TensorRT 1.0 的兩倍。
圖 2:使用 Jetson TX2 Max-Q 和 Max-P 功率曲線的 GoogLeNet 和 ResNet-50 的推理吞吐量。TensorRT 2.1 在 GoogleLeNet 和 ResNet 上提供兩倍的推理吞吐量。
表 2 中的延遲顯示隨著批量大小 1 的成比例減少。使用 TensorRT 2,Jetson TX2 在 Max-P 性能配置文件中實現了 5ms 的 GoogLeNet 延遲,在 Max-Q 效率配置文件中實現了 7ms 的延遲。ResNet-50 在 Max-P 中具有 12.2ms 的延遲,在 Max-Q 中具有 15.6ms 的延遲。ResNet 通常用于提高圖像分類的準確性,超越 GoogLeNet,使用 TensorRT 2.1 可將運行時性能提高 2 倍以上。借助 Jetson TX2 的 8GB 內存容量,即使在 ResNet 等復雜網絡上也可以實現高達 128 的大批量。
減少的延遲允許深度學習推理方法用于需要近實時響應的應用程序,例如高速無人機和水面車輛的防撞和自主導航。
自定義圖層
通過用戶插件 API 支持自定義網絡層,TensorRT 2.1 能夠運行最新的網絡和擴展支持的功能,包括殘差網絡 (ResNet)、循環神經網絡 (RNN)、你只看一次 (YOLO) 和更快-RCNN(區域卷積神經網絡)。自定義層在用戶定義的 C++ 插件中實現,這些插件實現IPlugin了如下代碼中的接口。
#include "NvInfer.h" 使用 , *緩沖區);
IPlugin您可以使用與上述代碼類似的自定義來構建自己的共享對象。在用戶enqueue()函數內部,您可以使用 CUDA 內核實現自定義處理。TensorRT 2.1 使用這種技術來實現Faster-RCNN插件以增強對象檢測。此外,TensorRT 為長短期記憶 (LSTM)單元和門控循環單元 (GRU)提供了新的 RNN 層,以改進基于記憶的時序序列識別。開箱即用地提供這些強大的新層類型可加速您在嵌入式邊緣應用程序中部署高級深度學習應用程序。
NVIDIA 艾薩克計劃
隨著邊緣 AI 功能的快速增長,NVIDIA 推出了 Isaac Initiative 以推進機器人技術和 AI 的最新發展。Isaac是一個端到端機器人平臺,用于開發和部署智能系統到現場,包括模擬、自主導航堆棧和用于部署的嵌入式 Jetson。為了開始開發自主 AI,Isaac 支持圖 3 所示的機器人參考平臺。這些由 Jetson 提供動力的平臺包括無人機、無人地面車輛 (UGV)、無人水面車輛 (USV) 和人類支持機器人 (HSR)。參考平臺提供了一個由 Jetson 驅動的基礎,可以在現場進行實驗,并且該計劃將隨著時間的推移而擴展,以包括新的平臺和機器人。
開始部署 AI
JetPack 3.1 包括 cuDNN 6 和 TensorRT 2.1。它現在可用于 Jetson TX1 和 TX2。憑借將單批次推理的低延遲性能提高一倍,并支持具有自定義層的新網絡,Jetson 平臺比以往任何時候都更有能力進行邊緣計算。
關于作者
Dustin 是 NVIDIA Jetson 團隊的一名開發人員推廣員。Dustin 擁有機器人技術和嵌入式系統方面的背景,喜歡在社區中提供幫助并與 Jetson 合作開展項目。
審核編輯:郭婷
-
機器人
+關注
關注
211文章
28525瀏覽量
207577 -
NVIDIA
+關注
關注
14文章
5026瀏覽量
103287
發布評論請先 登錄
相關推薦
評論