在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何讓Transformer在征程5上跑得既快又好?以SwinT部署為例的優化探索

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2023-03-03 09:34 ? 次閱讀

摘要:SwinT是目前視覺transformer模型中的典型代表,在常見視覺任務,如分類、檢測、分割都有非常出色的表現。雖然在相同計算量的模型指標上,SwinT已經可以和傳統CNN為基礎的視覺模型相媲美,但是SwinT面向不同平臺的硬件離線部署仍然存在很多問題。本文以SwinT在地平線征程5平臺上的量化部署為切入點,重點介紹兩個方面,一方面是如何通過調整量化配置訓練得到SwinT最優的量化精度,另一方面是如何通過調整模型結構使得SwinT在征程5平臺上能夠得到最優的延時性能。最終在地平線征程5平臺上,可以通過低于1%的量化精度損失,得到FPS為133的部署性能。同時該結果與端側最強GPU上SwinT的部署性能相當(FPS為165)。

簡介

Transformer用直接計算sequence間元素的相關性(attension)在NLP方面徹底替換了RNN/LSTM,近年來很多工作都在嘗試把Transformer引入到視覺任務中來,其中ViT,SwinTransformer等都是視覺Transformer的典型代表。

SwinT主要是解決Transformer應用在圖像領域的兩個問題:圖像的分辨率很大、視覺實體的尺寸區別很大。這都會造成Transformer在圖像領域的計算代價巨大。SwinT通過層級式的transformer和移動窗口,在計算量可控的情況下,利用Transformer得到圖像在不同尺度下的特征表示,從而直接在現有視覺框架下,部分替換CNN。

根據SwinT論文中提供的結論,SwinT在分類、檢測、分割等經典視覺任務上都有很好的表現,但是相對于傳統CNN來說,并沒有絕對的優勢。尤其在檢測部署的幀率上,使用SwinT作為backbone的情況下,參數量比較大,同時幀率會出現顯著的下降。其實涉及到Transformer相關的模型,在目前已有的計算平臺上的量化部署都會遇到類似的問題。

SwinT的量化主要有三種問題:第一,算子量化(包括部署)不支持,如roll算子在舊的ONNX框架上沒有支持;第二,算子自身不適合直接量化,如LayerNorm,Softmax,GeLU等,這些算子直接量化一般會造成比較大的精度損失;第三,輔助信息的輸入,如位置編碼,需要注意量化的方式。

SwinT的部署主要有兩種問題:第一,Vector計算占比比較大,如Elementwise、Reduce等;第二,數據不規則搬運的算子比較多,如Reshape、Transpose等。這些原因導致SwinT對大算力張量計算的平臺來說并不友好。

因此本文主要著重對于上面提到的,SwinT在地平線征程平臺上的量化部署問題,有針對性的提出量化和部署需要改進的地方,得到SwinT在征程5平臺上的最優量化部署性能,同時這種建議未來也可以推廣到在征程5平臺上優化任何Transformer相關的模型。

優化方法

1.基本情況

在優化之前,首先明確一下SwinT在征程5平臺上支持的基本情況,這些情況能夠保證SwinT可以在征程5平臺上運行起來,然后才能進一步討論優化方向和優化思路。

算子支持情況

SwinT公版模型需要的所有算子列表如下:

reshape、permute、transpose、view、roll、LayerNorm、matmul、mean、mul、add、flatten、masked_fill、unsqueeze、AdaptiveAvgPool1d、GeLU、Linear

目前,在地平線的量化工具和征程5平臺上,以上SwinT需要的所有算子都是可以完全支持的,這是保證SwinT能夠在征程5平臺上正常運行的基礎。

量化精度

在SwinT的量化過程中,使用Calibration+QAT的量化方式得到最終的SwinT的量化精度。由于SwinT中所有算子的量化是完全支持的,那么得到初版的量化精度是非常簡單的。

不過在默認的量化配置下,初步的量化精度只有76.90%(浮點80.58%),相對于浮點下降接近于4個點。這是比較明顯的量化損失。需要說明的是,默認的量化配置是指全局采用int8的量化方式。

部署情況

SwinT模型在地平線征程5平臺的初次部署,性能極低,FPS小于1,幾乎處于不可用的狀態。通過分析發現,SwinT相比于傳統CNN的模型,Vector計算占比比較多,如Elementwise、Reduce等;同時數據不規則搬運的算子較多,如Reshape,Transpose等。這些特性對大算力張量計算的征程5平臺來講極不友好。

這里有一些征程5平臺部署SwinT的情況分析:

SwinT模型張量Tensor與向量Vector的計算比例大約是218:1(將矩陣乘運算歸類為張量運算),而征程5平臺的實際張量運算能力與向量運算的計算比例遠高于此,導致SwinT在征程5平臺的利用率不高。

Reshape / Transpose 等數據搬運算子占比較高。在Transformer之前的CNN模型沒有這方面的需求,因此初次處理SwinT相關的Transformer模型時,這類算子除了本身的實現方式,功能、性能優化都不太完善。

2.量化精度優化

因為SwinT的量化訓練,主要是采用Calibration+QAT的方式來實現的,因此量化精度的優化,主要從兩個方面入手,分別是算子的支持方式、量化訓練的參數配置。

算子的支持方式

算子的支持方式,主要是針對一些量化不友好的算子,在中間結果引入int16的量化方式,這在地平線征程5平臺上是可以有效支持的。常見的量化不友好算子,如LayerNorm,SoftMax等。以LayerNorm為例:其量化方法是使用多個細粒度的算子(如mul,add,mean,sqrt)拼湊起來的。為了保證量化的精度,尤其是mean的操作,因此LayerNorm除了在輸入輸出端使用int8量化之外,中間的結果均采用int16的量化方法。

使用方式:參考目前地平線提供的QAT量化工具,浮點算子到QAT算子的自動映射。用戶只需要定義浮點模型,由QAT工具自動實現浮點和量化算子的映射。因此大部分量化算子的實現方式,用戶是不需要感知的,尤其像LayerNorm和SoftMax這種算子的量化方式,工具本身默認提供int16的量化方式,用戶只需要正常使用社區的浮點算子即可,而不需要再手動設置QAT相關的配置。

注:需要說明的是,LayerNorm有時候需要使用QAT量化工具提供的浮點算子,但原因在部署優化中會提到,和算子量化方式的支持沒有關系。

量化訓練的參數配置

量化訓練的參數配置主要分為量化配置和訓練的超參配置。量化配置除了算子自身的實現方式外,主要是針對輸入輸出的調整,輸入分為兩種類型,如果是圖像輸入,可以采用固定的scale(一般為1/128.0);如果是輔助信息輸入,如位置編碼,需要采用統計的動態scale,才能使得量化過程保留更多輸入信息。而對于模型輸出默認采用更高精度的方式(如int32)即可。

使用方式:量化訓練過程的超參設置,則比較簡單,常見的調整內容如Lr大小,Epoch長度等,詳細內容參考量化訓練工具提供的Debug文檔。

3.部署優化

部署優化的前提是不改變模型的結構和計算邏輯,不需要重訓模型,模型參數可以等價復用。基于這樣的原則,從編譯器的角度,結合SwinT模型的計算方式,對SwinT在征程5平臺上的部署進行針對性的優化。

上文中分析了SwinT的部署主要有Vector計算占比過高和不規則數據搬運算子較多這兩個問題,因此,整個編譯器優化的方式,其實就是通過軟件優化Tile,提高數據復用,減少了數據加載帶寬,算子合并實現優化。

接下來重點講一下,從編譯器的思路出發,根據編譯器可以優化的內容,要么編譯器內部優化,要么模型有針對性的進行調整,最終可以得到SwinT部署的最優性能。需要注意的是,如果是模型需要針對性調整的地方,會在具體的使用方式中體現出來。如果不需要調整,屬于編譯器內部優化的,則會自動沉淀到編譯器默認使用方式中去,直接使用即可。

算子映射的優化

將不同的算子進行靈活的映射,充分利用硬件資源,增加并行計算的機會。如使用Conv運算部件實現Reduce操作;使用MatMul實現Transpose等。

matmul的優化使用方式:

e680e504-b910-11ed-bfe3-dac502259ad0.png

LayerNorm的優化使用方式,這里是單獨的transpose優化,和上文中用戶不需要感知的int16量化(默認使用)區分開來:

e69af156-b910-11ed-bfe3-dac502259ad0.png

算子優化

算子優化主要是針對算子實現方式的單獨優化,如Reshape/Transpose算子Tile優化,Batch MatMul的支持優化等。

使用方式:其中Batch MatMul的優化,內部batch級別的循環展開的Tile優化,由量化工具和編譯器內部完成,用戶不需要感知。

算子合并

征程5平臺是張量運算處理器,數據排布是多維表示,而Reshape,Transpose的表達語義是基于CPU/GPU的線性排布。連續的Reshape & Transpose操作,例如window partition、window reverse,征程5平臺可只進行一次數據搬運實現。

編譯器內部,連續的reshape可合并成一條reshape,連續的transpose算子可合并成一條permute,征程5平臺可一次搬運完成。

而window partition,window reverse則被封裝成獨立的算子,在模型,量化,部署階段,直接使用即可,這樣可以讓編譯器在部署過程中獲得最佳性能。

使用方式:

e6b089bc-b910-11ed-bfe3-dac502259ad0.png

其他圖優化

對于pixel to pixel計算的算子或者數據搬運的算子(如elementwise,concat/split的部分軸),reshape/transpose算子可穿透這些算子,前后移動reshape/transpose穿透以上算子,移動后可進行算子合并的優化。

使用方式:這些優化由編譯器內部完成,用戶不需要感知。

4維高效支持

地平線征程5平臺最早針對的是以CNN為基礎的圖像處理,但在實踐過程中,逐漸衍生出支持語音,Transformer等類型的模型。不過以CNN為基礎的模型仍然是效率最高的模型,這一點在編譯器內部的體現就是4d-Tensor仍然是最高效的支持方式。

如果不是4d-Tensor的話,很多算子編譯器內部也會主動轉成4d(某些維度為1)來做,結合編譯器常規的padding方式(如2H16W8C/2H32W4C對齊),會導致一些計算如Conv,MatMul的效率很低,因為多了很多無效的計算。

這一點在模型上的體現就是,可以使用常規的4維算子替換原來任意維度的設置,避免不必要的冗余計算。常見的替換方式如下,中間配合任意維度的reshape,view,transpose可以完成等價替換。

e6c28a86-b910-11ed-bfe3-dac502259ad0.png

使用方式(以patch merging為例):

e6d38d4a-b910-11ed-bfe3-dac502259ad0.png

實驗結果

1.SwinT在征程5平臺優化結論

量化效果

e6eb579a-b910-11ed-bfe3-dac502259ad0.png

部署效果

通過優化,SwinT在征程5平臺上,可以達到的FPS為133。

e7015cb6-b910-11ed-bfe3-dac502259ad0.jpg

注:-代表缺失實際的統計數據

參考SwinT在端側最強GPU上的部署性能(FPS=165),地平線征程5平臺部署SwinT模型,在有性能保證的情況下,具有一定的精度優勢。

2.Transformer在征程5平臺上的優化建議

在完成SwinT在征程5平臺上的高效部署之后,其實也可以得出常見的Transformer征程5平臺上的優化思路。這里簡單列一些方向供參考。

使用已封裝算子

上面提到的window partition,window reverse,在模型層面封裝成一個算子,編譯器只進行一次數據搬運即可完成高效部署。因此建議在模型搭建階段使用已經封裝好的算子,其他常見的還有LayerNorm,MatMul等。未來地平線也會提供更多定制算子的高效實現,如MultiHeadAttention等。

Tensor的對齊建議

征程5平臺運算的時候有最小的對齊單位,并且不同的算子對齊不一致,以下簡單列出常見的征程5平臺運算部件的計算對齊要求:

e7144894-b910-11ed-bfe3-dac502259ad0.png

2H16W8C,表示計算的時候H方向對齊到2, W方向對齊到16,C方向對齊到8,例如:

e72c130c-b910-11ed-bfe3-dac502259ad0.png

以上elementwise add 實際計算為數據對齊后的大小[1,2,3344,2232], 所以盡量讓算子的對齊浪費少些。如果像layernorm中有連續的如上的elementwise操作,其實可以將Tensor reshape為[1,2,1666, 2227] 再進行連續的elementwise計算。

按照征程5平臺的計算對齊合理的構建Tensor大小能提高征程5平臺的計算利用率。因此結合SwinT部署優化中的4維高效支持的建議:4d-Tensor,結合合理的大小設置,可以穩定提供部署的利用率。

減少算子間的Reorder

根據Tensor對齊建議中提到的征程5平臺不同的運算部件有不同的對齊,在不同運算部件切換的時候,除了計算對齊浪費的開銷,還有數據Reorder的開銷,即從2H16W8C 向256C轉換的開銷。所以在此建議構建模型順序的時候盡量避免不同計算對齊的算子連續橫跳。

在此給一些優化的建議,比如Conv->ReduceSum->Conv串接的模型,其實reduce sum也可以替換成用conv實現,比如reduce on C可以構建為input channel = C, output channel = 1的conv, reduce on H/W 可以構建為kernel_h = H or kernel_w = W 的conv。

總結

本文通過對SwinT在地平線征程5平臺上量化部署的優化,使得模型在該平臺上用低于1%的量化精度損失,得到FPS為133的部署性能,與主流競品相比效果相當。同時,通過SwinT的部署經驗,推廣到所有的Transformer,給出Transformer在征程5平臺上高效部署的優化建議。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4754

    瀏覽量

    129080
  • 模型
    +關注

    關注

    1

    文章

    3268

    瀏覽量

    48937
  • Transformer
    +關注

    關注

    0

    文章

    144

    瀏覽量

    6026
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22059
  • 征程5
    +關注

    關注

    0

    文章

    15

    瀏覽量

    2685

原文標題:如何讓Transformer在征程5上跑得既快又好?以SwinT部署為例的優化探索

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    為什么transformer性能這么Transformer的上下文學習能力是哪來的?

    的主導模型,但人們對于它卓越性能的理論基礎卻一直研究不足。 最近,來自 Google AI、蘇黎世聯邦理工學院、Google DeepMind 研究人員的新研究嘗試我們揭開謎底。新研究中,他們對 transformer 進行
    的頭像 發表于 09-25 12:05 ?1377次閱讀
    為什么<b class='flag-5'>transformer</b>性能這么<b class='flag-5'>好</b>?<b class='flag-5'>Transformer</b>的上下文學習能力是哪來的?

    ram里還是跑flash里

    ] ...... /****************************************************/ 打開速度優化開關@ RAM :計數98993 打開速度優化開關@ FLSASH :計數115334 (flash里
    發表于 05-17 15:49

    怎樣才能的學會單片機

    請各位長輩指教,怎樣才能的學會單片機,是看書和實驗結合嗎?還是有其他的?
    發表于 11-08 09:02

    如何更改ABBYY PDF Transformer+界面語言

    安裝ABBYY PDF Transformer+時會您選擇界面語言。此語言將用于所有消息、對話框、按鈕和菜單項。特殊情況下,您可能需要在安裝完成后更改界面語言
    發表于 10-11 16:13

    如何更改ABBYY PDF Transformer+旋轉頁面

    為了實現最佳識別效果,頁面應有標準方向,即,水平線條和字母應向上。所以有時不得不對文檔頁面進行旋轉,優化ABBYY PDF Transformer+轉換結果。下面小編給大家講講如何更改ABBYY
    發表于 10-16 10:19

    貼片天線設計的HFSS天線設計中的應用介紹

    /近場輻射方向圖、天線增益、軸比、計劃比、半功率波瓣寬度、內部電磁場場型、天線阻抗、電壓駐波比、S參數等等。下面貼片天線設計介紹一下HFSS天線設計中的應用。
    發表于 06-27 07:05

    硬件設計PD口接按鍵接LED怎么辦?

    硬件設計PD口接按鍵接LED,咋辦?是不是在用按鍵時就將PD口輸入口,顯示時又得將P
    發表于 06-16 09:03

    hello world介紹如何代碼部署并運行在ARM平臺上

    1、hello world介紹如何代碼部署并運行在ARM平臺上CI(Continuous Integration)讓我們可以不斷對小
    發表于 07-11 15:44

    你了解單GPU就可以運行的Transformer模型嗎

    Transformer模型相比,最終的Reformer模型具有更高的存儲效率和更快的存儲速度。Trax:代碼和示例Trax是一個深度學習訓練和推理庫,可以你從頭理解深度學習。Reformer的代碼包含了一個例子,你可以圖像
    發表于 11-02 15:19

    如何WindowsXP跑得更快更穩

    如何WindowsXP跑得更快更穩  微軟的XP系統被大多數網民稱為是歷史上最優秀的操作系統,有眼花繚亂的功能、更快的速度,當然這
    發表于 02-23 13:53 ?811次閱讀

    iQOO Pro5G和同類中無人匹敵?

    5G和同類中無人匹敵,iQOO Pro 5G開啟國產手機新征程
    的頭像 發表于 08-24 11:42 ?3995次閱讀

    我們可以使用transformer來干什么?

    前言 2021年4月,距離論文“Attention is all you need”問市過去4年了。這篇論文的引用量正在沖擊2萬大關。 筆者所在的多個學習交流群也經常有不少同學討論
    的頭像 發表于 04-22 10:49 ?1.2w次閱讀
    我們可以使用<b class='flag-5'>transformer</b>來干什么?

    MDK支持ARM支持STC單片機.

    MDK支持ARM支持STC單片機.(51單片機和stm32編程區別)-MDK支持ARM
    發表于 09-30 10:40 ?13次下載
    <b class='flag-5'>讓</b>MDK<b class='flag-5'>既</b>支持ARM<b class='flag-5'>又</b>支持STC單片機.

    Keil5中C51和MDK共存的方法(Keil5

    Keil5中C51和MDK共存的方法(Keil5
    發表于 12-03 20:21 ?76次下載
    Keil<b class='flag-5'>5</b>中C51和MDK共存的方法(<b class='flag-5'>以</b>Keil<b class='flag-5'>5</b><b class='flag-5'>為</b><b class='flag-5'>例</b>)

    部署Linux的最佳實踐探索

    編者按:本文節選自節選自《基于Linux的企業自動化》第五章。“第5章,使用Ansible構建用于部署的虛擬機模板,通過構建虛擬機模板來探索部署Linux的最佳實踐,虛擬機模板將以實際
    的頭像 發表于 05-16 09:35 ?585次閱讀
    主站蜘蛛池模板: eeuss影院www影院夜场| 亚洲一区亚洲二区| 亚洲一区二区三区在线| 性欧美高清极品xx| 22sihu国产精品视频影视资讯| 日本68xxxxxxxxx老师| 555夜色555亚洲夜色| 亚洲最新网站| 娇妻被黑人蹂躏| 亚洲色图在线播放| 992tv国产精品福利在线| 五月丁香啪啪| 22eee在线播放成人免费视频| 污视频18高清在线观看| bl 高h文| 色五月视频| 欧美人与禽交| 国产jzjzjz免费大全视频| 一级黄视频| 久久影视免费观看网址| 羞羞色院91精品网站| 日本不卡免费高清一级视频| 一级毛片黄色片| 日本三级精品| 国产怡红院| 97福利| 天天操夜夜操视频| 成人理伦| 禁h粗大太大好爽好涨受不了了| 天天看影院| 久久久噜噜噜| 午夜国产精品福利在线观看| 国产美女视频黄a视频免费全过程| 黄视频国产| 一级特黄a大片免费| 色狠狠一区二区| 国产亚洲美女| 天天干天天操天天添| 免费看啪啪网站| 亚洲国产香蕉视频欧美| 看天堂|