在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用 Vision Transformer 和 NVIDIA TAO,提高視覺 AI 應用的準確性和魯棒性

NVIDIA英偉達 ? 來源:未知 ? 2023-08-04 17:40 ? 次閱讀

wKgaomToPL6AR5_FAHaFzxWEe4k031.gif

Vision Transformer(ViT)正在席卷計算機視覺領域,提供令人難以置信的準確性、復雜現實場景下強大的解決方案,以及顯著提升的泛化能力。這些算法對于推動計算機視覺應用的發展發揮了關鍵作用,而 NVIDIA 則通過 NVIDIA TAO Toolkit NVIDIA L4 GPU,使應用集成ViT 變得輕而易舉。

ViT 的不同之處

ViT 是一種將原本用于自然語言處理的 Transformer 架構應用于視覺數據的機器學習模型。相比基于 CNN 的同類模型具有一些優勢,并能夠并行處理大規模輸入的數據。CNN 采用的是局部操作,因而缺乏對圖像的全局理解;而 ViT 則以并行和基于自注意的方式來有效地處理圖像,使得所有圖像塊之間能夠相交互,從而提供了長程依賴和全局上下文的能力。

圖 1 展示了 ViT 模型中的圖像處理流程。輸入圖像被分為較小的固定尺寸的圖塊,之后這些圖塊被展平并轉換為一系列的標記 (tokens) 。這些標記連同位置編碼一起被輸入到 Transformer 編碼器中,該編碼器由多個自注意力和前饋神經網絡組成。

wKgaomToPL6AXQOnAAFu83nqZ0w667.png

圖 1. 包含位置編碼器和編碼器的 ViT 模型處理圖像

通過自注意力機制,每個標記或圖塊與其他標記進行交互,以決定哪些標記是重要的。這有助于模型捕捉標記之間的關系和依賴,并學習哪些標記是更重要的。

例如在有一只鳥的圖像中,模型會更關注重要的特征,比如眼睛、鳥嘴和羽毛等,而不是背景。這使得訓練更加高效,增強了對圖像損壞和噪聲情況的魯棒性,并在未見過的物體上表現出更優越的泛化能力。

為何 ViT 對計算機

視覺應用至關重要

真實世界的環境具有多樣且復雜的視覺模式。與 CNN 不同,ViT 憑借自身的可擴展性和適應性,能夠處理各種任務,而且無需針對具體的任務調整架構。

wKgaomToPL6AZ6y6AAXFPe2hYdU465.png

圖 2. 各種不完美和嘈雜的

現實數據給圖像分析帶來了難題

在下面的視頻中,我們比較了基于 CNN 和 ViT 的模型的噪聲視頻。在任何情況下,ViT 模型表現都優于 CNN 模型。

視頻 1. 了解 SegFormer,這是一個

結合高效率和穩健語義分割能力的 ViT 模型

將 ViT 與 TAO Toolkit 5.0 集成

TAO 是一個低代碼 AI 工具包,用于構建和加速視覺 AI 模型,可用于輕松地構建和集成 ViT 到應用和 AI 工作流程中。用戶可以通過簡單的界面和配置文件快速開始訓練 ViT,無需深入了解模型架構。

TAO Toolkit 5.0 提供幾種常用于計算機視覺任務的先進 ViT,包括:

全注意力網絡(FAN)

FAN 是由 NVIDIA 研究團隊開發的一系列基于 Transformer 架構的神經網絡主干模型。該系列模型在對抗各種干擾方面達到了當前技術水平的最佳程度,如表格 1 所示。這些主干模型能夠輕松適應新的領域,對抗噪聲和模糊。表格 1 展示了所有 FAN 模型在 ImageNet-1K 數據集上所達到的準確率,無論是干凈版本還是經過干擾處理后的版本。

wKgaomToPL6AVn7BAAAxlWxNk-4355.png

表 1. FAN 模型的大小和準確性

全局上下文 Vision Transformer (GC-ViT)

GC-ViT 是 NVIDIA 研究部門開發的一種具有極高準確性和計算效率的新型架構。該架構解決了 Vision Transformer 中缺乏歸納偏置的問題。通過使用局部自注意力機制,GC-ViT 在參數較少的情況下在 ImageNet 上取得更好的結果,同時結合全局自注意力,可以實現更好的局部和全局空間交互。

wKgaomToPL-AaAcLAAAwtKQJ92g384.png

表 2. GC-ViT 模型的大小和準確性

帶有改進后去噪錨框的檢測 Transformer(DINO)

DINO 是最新一代的檢測變換器(DETR),其訓練收斂速度比其他 ViT 和 CNN 更快。在 TAO 工具套件中,DINO 十分靈活,可以與傳統 CNN(例如 ResNets)和基于 Transformer 的骨干網絡(如 FAN)和 GC-ViT 等相結合。

wKgaomToPL-ASKEWAADXYXf-6Sw823.png

圖 3. DINO 與其他模型的準確性比較

Segformer

Segformer 是一個輕量級且具有魯棒性的基于 Transformer 的語義分割模型。其解碼器由輕量級的多頭感知層組成。它避免使用大多 Transformer 使用的位置編碼,可在不同分辨率下進行高效推理。

使用 NVIDIA L4 GPU

高效驅動 Transformer

NVIDIA L4 GPU 是為未來的視覺 AI 工作負載而打造的。它們采用 NVIDIA Ada Lovelace 架構,旨在加速具有變革性的 AI 技術。

L4 GPU 擁有高達 FP8 485 TFLOPs 的計算能力,適于運行 ViT 工作負載。相較更高精度的計算方式,FP8 的低精度計算可以減輕內存壓力,還可以顯著提升 AI 的處理速度。

L4 是一款多功能、節能高效的設備,具有單槽、低調的外形,非常適合用于視覺 AI 部署(包括在邊緣位置)。

您可以觀看Metropolis Developer Meetuphttps://info.nvidia.com/metropolis-meetup-june2023.html),了解有關 ViT、NVIDIA TAO Toolkit 5.0 以及 L4 GPU 的更多信息

點擊“閱讀原文”,或掃描下方海報二維碼,在 8 月 8日聆聽NVIDIA 創始人兼 CEO 黃仁勛在 SIGGRAPH 現場發表的 NVIDIA 主題演講,了解 NVIDIA 的新技術,包括屢獲殊榮的研究,OpenUSD 開發,以及最新的 AI 內容創作解決方案。


原文標題:使用 Vision Transformer 和 NVIDIA TAO,提高視覺 AI 應用的準確性和魯棒性

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3821

    瀏覽量

    91508

原文標題:使用 Vision Transformer 和 NVIDIA TAO,提高視覺 AI 應用的準確性和魯棒性

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    自動駕駛中常提的是個啥?

    隨著自動駕駛技術的快速發展,(Robustness)成為評價自動駕駛系統的重要指標之一。很多小伙伴也會在自動駕駛相關的介紹中,對某些功能用
    的頭像 發表于 01-02 16:32 ?1999次閱讀
    自動駕駛中常提的<b class='flag-5'>魯</b><b class='flag-5'>棒</b><b class='flag-5'>性</b>是個啥?

    如何提高OTDR測試的準確性

    OTDR(光時域反射儀)是光纜線路故障定位和光纖特性測量的重要工具,提高OTDR測試的準確性對于確保光纜線路的穩定運行至關重要。以下是一些提高OTDR測試準確性的方法: 一、
    的頭像 發表于 12-31 09:25 ?245次閱讀

    如何提高電位測量準確性

    在電子工程和物理實驗中,電位測量是一項基本而重要的任務。電位測量的準確性直接影響到實驗結果的可靠和產品的安全。 1. 選擇合適的測量設備 選擇合適的測量設備是提高電位測量
    的頭像 發表于 12-28 13:56 ?164次閱讀

    如何提升ASR模型的準確性

    提升ASR(Automatic Speech Recognition,自動語音識別)模型的準確性是語音識別技術領域的核心挑戰之一。以下是一些提升ASR模型準確性的關鍵方法: 一、優化數據收集與處理
    的頭像 發表于 11-18 15:14 ?1070次閱讀

    原理在控制系統中的應用

    在現代控制系統的設計和分析中,是一個核心概念。指的是系統在面對模型不確定性、外部干擾
    的頭像 發表于 11-11 10:26 ?1588次閱讀

    深度學習模型的優化

    深度學習模型的優化是一個復雜但至關重要的任務,它涉及多個方面的技術和策略。以下是一些關鍵的優化方法: 一、數據預處理與增強 數據清洗 :去除數據中的噪聲和異常值,這是提高模型
    的頭像 發表于 11-11 10:25 ?329次閱讀

    算法在數據處理中的應用

    一、算法的基本概念 算法是指在面對數據中的異常值、噪聲和不確定性時,仍能保持穩定性能
    的頭像 發表于 11-11 10:22 ?423次閱讀

    分析方法及其應用

    (Robustness)是指系統或方法對于外部干擾、誤差或變化的穩定性和適應能力。以下是對
    的頭像 發表于 11-11 10:21 ?2328次閱讀

    在機器學習中的重要

    在機器學習領域,模型的是指模型在面對輸入數據的擾動、異常值、噪聲或對抗性攻擊時,仍能保持性能的能力。隨著人工智能技術的快速發展,機器學習模型被廣泛應用于各個領域,從自動駕駛汽車到醫療診斷,再到
    的頭像 發表于 11-11 10:19 ?453次閱讀

    如何提高系統的

    在當今的技術環境中,系統面臨著各種挑戰,包括硬件故障、軟件缺陷、網絡攻擊和人為錯誤。是指系統在面對這些挑戰時保持正常運行的能力。 一、定義
    的頭像 發表于 11-11 10:17 ?832次閱讀

    如何評估 ChatGPT 輸出內容的準確性

    評估 ChatGPT 輸出內容的準確性是一個復雜的過程,因為它涉及到多個因素,包括但不限于數據的質量和多樣、模型的訓練、上下文的理解、以及輸出內容的邏輯一致。以下是一些評估 ChatGPT 輸出
    的頭像 發表于 10-25 17:48 ?635次閱讀

    如何保證測長機測量的準確性

    可以通過以下方法保證測長機測量的準確性:一、設備方面1.定期校準按照規定的時間間隔,將測長機送往專業的計量機構或使用標準器進行校準。校準可以確定測長機的測量誤差,并對其進行調整,確保測量結果的準確性
    的頭像 發表于 10-25 16:16 ?375次閱讀
    如何保證測長機測量的<b class='flag-5'>準確性</b>?

    傾斜光柵的優化

    摘要 ** 由于制造過程中潛在的不準確性,對于一個好的光柵設計來說,面對光柵參數的微小變化,提供穩健的結果是至關重要的。VirtualLab Fusion為光學工程師提供了各種工具,可以將這種行為
    發表于 08-12 18:38

    影響電源紋波測試準確性的因素

    電源紋波測試是評估電源質量的重要手段之一,它能夠反映出電源在輸出電壓中的波動情況。然而,測試過程中的多種因素都可能對測試結果的準確性產生影響。本文將從多個方面分析影響電源紋波測試準確性的因素,并提
    的頭像 發表于 08-02 09:42 ?661次閱讀

    電流探頭測試小技巧:提高準確性和安全

    電流探頭是一種常用的測試工具,用于測量電路中的電流。正確使用電流探頭可以提高測試的準確性,并確保操作的安全。本文將介紹一些電流探頭的測試小技巧,幫助您更好地使用電流探頭進行電流測量。 技巧一:正確
    的頭像 發表于 03-08 09:31 ?394次閱讀
    電流探頭測試小技巧:<b class='flag-5'>提高</b><b class='flag-5'>準確性</b>和安全<b class='flag-5'>性</b>
    主站蜘蛛池模板: 久久亚洲国产视频| 色一情一乱一乱91av| 精品久久久久久中文字幕欧美| 天天操夜夜骑| 午夜影视在线视频观看免费| 九色精品在线| 国产成人精品怡红院| 7m视频精品凹凸在线播放| 天天干天天爽天天射| 中文字幕v视界影院| 午夜网站在线| 美女视频久久| 欧美爆插| 在线观看亚洲专3333| 亚洲网站免费观看| 怡红院国产| 色偷偷91久久综合噜噜噜 | 欧美午夜在线视频| 毛片大全在线| 欧美一级视频在线观看欧美| 久久久久久久综合色一本| 美女黄页网| www.日本三级| 精品福利在线视频| 一区二区三区亚洲视频| 在线免费黄色| 欧美a色爱欧美综合v| h视频欧美| 精品视频69v精品视频| 色婷婷九月| 色网站在线| 国产欧美色图| αv天堂| 欧美四色| 日本免费视频| 色老头一区二区三区在线观看| 国产在线色视频| 加勒比在线一区| 成人中文字幕一区二区三区 | 手机看片国产免费久久网| 三级黄网|