在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自壓縮神經網絡

穎脈Imgtec ? 2022-11-02 17:16 ? 次閱讀

過去十年,人工智能研究主要集中在探索深度神經網絡的潛力。我們近年來看到的進步至少可以部分歸因于網絡規模的不斷擴大。從使用GPT-3 [1] 的文本生成到使用 Imagen [2] 的圖像生成,研究人員付出了相當大的努力來創建更大、更復雜的架構,以實現越來越令人印象深刻的壯舉。此外,現代神經網絡的成功使其在各種應用中部署。就在我寫這篇文章的時候,一個神經網絡正在施圖預測我即將寫的下一個單詞,盡管它不夠準確,不能很快取代我!

另一方面,性能優化在該領域受到的關注相對較少,這是神經網絡更廣泛部署的一個重大障礙。造成這種情況的一個可能原因是能夠同時在數千個GPU 或其他硬件上的數據中心中訓練大型神經網絡。這與計算機圖形領域形成鮮明對比,例如,必須在單臺計算機上實時運行的限制產生了在不犧牲質量的情況下優化算法的強大動力。

神經網絡容量的研究表明,發現高精度解決方案所需的網絡容量大于表示這些解決方案所需的容量。Frankle和Carbin [3]在他們的論文《彩票假設:尋找稀疏、可訓練的神經網絡》 [3] 中發現,只需要網絡中權重的一小部分即可代表一個好的解決方案,但直接訓練容量減少的網絡并不能達到相樣的精度。同樣,Hinton等人。[4] 發現,將“知識”從高精度網絡轉移到低容量網絡可以產生比使用、相同損失函數的高容量網絡更高精度的網絡。

在本篇博文中,我們查找是否可以在訓練時動態減少網絡參數。雖然這樣做具有挑戰性,但由于實現的復雜性( PyTorch不是為處理動態網絡架構而設計的,例如,在訓練期間移除整個通道),

我們希望實現以下優點。

減少最終網絡中的權重數量。

減少剩余權重的位寬。

減少最終網絡的運行時間。

減少訓練時間。

降低設計網絡架構時選擇層寬度的復雜性。

  • 不需要特殊的硬件來優化(例如,不需要稀疏矩陣乘法)。

在這項工作中,我們通過引入一種新穎的量化感知訓練(QAT)方案來實現這些目標,該方案平衡了最大化網絡精度和最小化網絡規模的要求。我們同時最大限度地提高精度并最大限度地減少權重位深度,從而消除不太重要或不必要的通道,從而以現有硬件可以輕松利用的方式降低計算和帶寬需求。


可微量化這是通過可微量化實現的,正如我在之前的文章[5]中介紹的那樣。簡而言之,可微量化允許您同時學習數字格式的參數和權重。這允許以與網絡中的權重完全相同的方式學習量化,并啟用諸如自壓縮網絡之類的新技術——本文的主題。量化函數量化為可變比特率有符號定點格式:

0097cc6a-57a9-11ed-b116-dac502259ad0.png

這可以描述為以下步驟順序:

  1. 使用指數縮放輸入值:00a99fc6-57a9-11ed-b116-dac502259ad0.png
  2. 使用位深度鉗位值:00b1525c-57a9-11ed-b116-dac502259ad0.png
  3. 四舍五入到最接近的整數:00c129d4-57a9-11ed-b116-dac502259ad0.png

反轉步驟 1 中引入的縮放:00c6abc0-57a9-11ed-b116-dac502259ad0.png

其中 b 是位深度,e 是指數,x 是被量化的值(或一組值) 。為了確保連續可微性,我們在訓練期間使用實值位深度參數。

上述函數使用舍入運算。通過它傳播可用梯度的常用方法是將四舍五入操作的梯度定義為1 而不是 0。這類似于“直通估計器” [6] 。要了解其工作原理,請考慮下圖:

00d7637a-57a9-11ed-b116-dac502259ad0.png

當我們從函數中“縮小”時,您可以看到它是如何實現的;舍入函數似乎接近y=x 線。我們將取整函數的后向傳遞(梯度)替換為函數 y=x 的梯度,即常數1。


可微量化進行自壓縮

在這項工作中,我們使用可微量化(1)來減少訓練期間網絡參數的位寬(即壓縮),以及(2)發現哪些參數可以用 0 位表示。當神經網絡中的參數可以用 0 位表示而不影響網絡的精度時,就沒必要使用該參數。當發現權重張量中的通道可以用0 位表示時,在訓練期間將其從網絡中刪除。這樣做的一個附加好處是訓練會隨著時間的推移而加速(見圖2)。

該過程可以描述如下:

  1. 將網絡的參數拆分為通道。
  2. 用位寬和指數的單個量化參數對每個通道進行量化。
  3. 為原始任務訓練網絡,同時最小化所有位寬參數。

當位寬參數達到 0 時,從網絡中移除該參數編碼的網絡權重通道。由于消除了整個輸出通道,這減少了相應卷積的大小以及消耗輸出張量的任何后續操作,而不會更改網絡輸出。

通過在訓練期間從網絡中移除空(即0 位)通道,我們可以顯著加速訓練而不改變訓練結果:訓練結果與我們在最后只移除空通道時得到的網絡相同。

盡管本文中描述的方法學習壓縮和消除通道,但它可以推廣到其他硬件可利用的學習稀疏模式。


網絡架構

選擇的網絡架構是David Page 的CIFAR-10[7]的DAWNbench條目,這是一個可以快速訓練的淺ResNet 。

使用快速訓練網絡有幾個優點,包括:

  • 使算法設計迭代更快,
  • 縮短調試周期,
  • 使在合理的時間內在單個 GPU 上執行實驗變得容易,

幫助重現這項工作的結果。

該網絡由兩種主要類型的塊組成:卷積塊(卷積→批量歸一化→激活→池化)和殘差塊(殘差分支由兩個卷積塊組成)。

以下部分描述了如何對這些模塊應用可微量化以使其可壓縮。


優化目標

這項工作的目標是減少神經網絡的推理和訓練時間。為了實現這一點,應該在損失函數中體現推理時間,以便將其最小化,從而產生更快的網絡。在這種情況下使用的指標是網絡規模,定義為用于表示網絡中權重的總位數。作為網絡性能的體現,計算層輸出所需的激活張量大小或操作數也可以最小化。單個權重張量的大小可以用四個張量維度的乘積表示:輸出通道、輸入通道、濾波器高度和濾波器寬度(0、I、H、W)。由于我們使用一個單獨的數字格式量化每個輸出通道,并為層提供一個可學習的位數,因此用于表示張量的總位數由下式給出:

00e0f2e6-57a9-11ed-b116-dac502259ad0.png

00fb38d6-57a9-11ed-b116-dac502259ad0.png 為 0 時,ith通道變得不必要,減少了權重張量中的輸出通道總數,以及下一個卷積的權重張量中相應的輸入通道數。因此最小化通過 01014ee2-57a9-11ed-b116-dac502259ad0.png 最小化輸出通道的數量,可以最小化權重張量中的元素數量。這有效地最小化了權重張量的輸出維度。認識到一層的輸入通道數等于前一層的輸出通道數,可以使壓縮損失更好地反映網絡的大小。這樣一個權重張量的輸入維度也可以最小化:

0111c808-57a9-11ed-b116-dac502259ad0.png

一旦通道可以被壓縮到0 位,它就可能在訓練期間被刪除。然而,需要克服的實際問題是,從卷積層中移除一個輸出通道并不一定意味著可以從下一層的輸入中安全地移除相應的輸入通道,因為可以將偏差添加到層的輸出0中,在這種情況下刪除它可能會顯著改變網絡的輸出。為了處理這個問題,識別達到 0 位的加權通道(過濾器),并對其輸出應用L1 損耗,以將其推至 0 位。只有當偏差減少到0 時,這些過濾器才會被移除,因為此時移除這樣的通道不會改變網絡的輸出。

整個網絡的大小是所有層大小的總和:

01175db8-57a9-11ed-b116-dac502259ad0.png

為了平衡網絡的準確性和規模,我們簡單地使用兩項的線性組合:

012ba840-57a9-11ed-b116-dac502259ad0.png

其中L0是網絡的原始損失,0131dc9c-57a9-11ed-b116-dac502259ad0.png 是壓縮因子。較大的 0131dc9c-57a9-11ed-b116-dac502259ad0.png 會生成較小但不太準確的網絡。


處理分支

壓縮網絡時出現的另一個問題是網絡分支的處理,例如,在殘差塊中。解決這個問題最簡單的方法是分別考慮這兩個分支。


更新優化器

實現細節涉及使優化器隨著網絡的變化而更新的問題。優化器跟蹤網絡中每個參數的信息(元參數),當網絡參數被動態刪除時,相應的元參數也必須從優化器中刪除。


結果

自壓縮網絡允許在規模和精度之間進行權衡,可以在規模準確度圖中可視化(參見圖1)。該圖中的每個點都表示一個神經網絡的大小和精度,該神經網絡經過隨機壓縮率,從覆蓋范圍的對數均勻分布中采樣 014c8376-57a9-11ed-b116-dac502259ad0.png 。圖1 顯示了在使用隨機壓縮率訓練網絡時,用于表示網絡權重的位數與32 位每權重基線(對應于 32 位浮點)之間的關系。這是通過保留權重的百分比乘以剩余權重的平均位寬來計算的。網絡的基線精度(未壓縮精度)為95.69 ± 0.22。

015b57a2-57a9-11ed-b116-dac502259ad0.png

圖 1:當使用隨機壓縮率訓練網絡時,用于表示網絡權重的位數與32位/權重基線之間的關系。

圖 2 僅顯示了網絡中使用的權重數量的減少。在不影響精度的情況下,可以移除大約 75% 的權重。

016b97e8-57a9-11ed-b116-dac502259ad0.png

圖 2 顯示了使用隨機壓縮率訓練網絡時,網絡中保留的權重百分比與精度之間的關系。

圖 3 顯示了通過在訓練期間移除權重對訓練時間的影響。一個世代的訓練時間不僅取決于網絡的大小,還取決于系統的其他部分,例如輸入數據通道。為了確定基線訓練開銷,對于同一網絡進行訓練,每個層僅使用一個通道。每個訓練世代大約需要7.5 秒。

018f3540-57a9-11ed-b116-dac502259ad0.png圖 3:隨著參數從網絡中移除,神經網絡訓練時間加快。訓練結束時移除了 86% 的權重。圖 4 顯示了 01ba2746-57a9-11ed-b116-dac502259ad0.png 時使用壓縮率訓練的網絡架構。訓練將移除除殘差層中的快捷分支。其余九個通道在訓練結束時已經達到 0 位,并且正在消除它們的偏差。預計它們會隨著更長的訓練而消失。第二個殘差層中的快捷分支與它相關的損失非常低(由于它對網絡規模的貢獻最小),因此它的減少速度太慢,無法在訓練結束時消失。01c920c0-57a9-11ed-b116-dac502259ad0.png01d0a638-57a9-11ed-b116-dac502259ad0.png圖 4:訓練前后的層大小和每層平均位寬的示例。這里刪除了 86% 的權重和 97.6% 的位。每個方塊代表一個卷積。方塊中的值表示卷積的輸出或輸入(“in”)通道的總數,其中需要此類信息(在分支處)。

圖 5 顯示了整個訓練過程中的網絡規格。它在早期迅速收縮,然后逐漸減少。

01e30346-57a9-11ed-b116-dac502259ad0.png

圖 5:網絡規模在訓練早期快速縮小,之后逐漸減小。


優化您的網絡

在本篇博文中,我們分享了一個通用框架,用于優化神經網絡的典型固定特征——通道數和位寬——以使網絡在訓練過程中學會自我壓縮。這樣做的主要優點是更快的執行時間和更快的生成網絡訓練。以前的許多工作都集中在通過創建稀疏層來減少網絡規模,這需要軟件和/或硬件的特殊支持才能更有效地運行。簡單地減少層的寬度不需要專門支持。通過減少 DRAM 帶寬,支持可變位寬可以提高多種架構的性能。

參考

[1] T. B. Brown and al, “Language Models are Few-Shot Learners,” 2020.

[2] C. Saharia and al, “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding,” 2022.

[3] J. Frankle and M. Carbin, “The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks,” 2018.

[4] G. Hinton, O. Vinyals and J. Dean, “Distilling the Knowledge in a Neural Network,” 2015.

[5] Cséfalvay, S, “High-Fidelity Conversion of Floating-Point Networks for Low-Precision Inference using Distillation,” 25 May 2021. [Online]. Available: https://blog.imaginationtech.com/low-precision-inference-using-distillation/.

[6] G. Hinton, “Lecture 9.3 — Using noise as a regularizer [Neural Networks for Machine Learning],” 2012. [Online]. Available: https://www.youtube.com/watch?v=LN0xtUuJsEI&list=PLoRl3Ht4JOcdU872GhiYWf6jwrk_SNhz9.

[7] Page, D, “How to Train Your ResNet 8: Bag of Tricks,” 19 Aug 2019. [Online]. Available: https://myrtle.ai/how-to-train-your-resnet-8-bag-of-tricks/.


本文作者:Szabolcs Cséfalvay

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1791

    文章

    47336

    瀏覽量

    238696
收藏 人收藏

    評論

    相關推薦

    卷積神經網絡與傳統神經網絡的比較

    在深度學習領域,神經網絡模型被廣泛應用于各種任務,如圖像識別、自然語言處理和游戲智能等。其中,卷積神經網絡(CNNs)和傳統神經網絡是兩種常見的模型。 1. 結構差異 1.1 傳統神經網絡
    的頭像 發表于 11-15 14:53 ?494次閱讀

    卷積神經網絡壓縮方法

    ,CNN模型的參數量和計算量也隨之劇增,這對硬件資源提出了嚴峻挑戰。因此,卷積神經網絡壓縮方法成為了研究熱點。本文將從多個角度詳細介紹卷積神經網絡壓縮方法,包括前端
    的頭像 發表于 07-11 11:46 ?371次閱讀

    BP神經網絡和卷積神經網絡的關系

    BP神經網絡(Backpropagation Neural Network)和卷積神經網絡(Convolutional Neural Network,簡稱CNN)是兩種在人工智能和機器學習領域
    的頭像 發表于 07-10 15:24 ?1569次閱讀

    BP神經網絡和人工神經網絡的區別

    BP神經網絡和人工神經網絡(Artificial Neural Networks,簡稱ANNs)之間的關系與區別,是神經網絡領域中一個基礎且重要的話題。本文將從定義、結構、算法、應用及未來發展等多個方面,詳細闡述BP
    的頭像 發表于 07-10 15:20 ?1119次閱讀

    rnn是遞歸神經網絡還是循環神經網絡

    RNN(Recurrent Neural Network)是循環神經網絡,而非遞歸神經網絡。循環神經網絡是一種具有時間序列特性的神經網絡,能夠處理序列數據,具有記憶功能。以下是關于循環
    的頭像 發表于 07-05 09:52 ?585次閱讀

    遞歸神經網絡是循環神經網絡

    遞歸神經網絡(Recurrent Neural Network,簡稱RNN)和循環神經網絡(Recurrent Neural Network,簡稱RNN)實際上是同一個概念,只是不同的翻譯方式
    的頭像 發表于 07-04 14:54 ?791次閱讀

    循環神經網絡和卷積神經網絡的區別

    循環神經網絡(Recurrent Neural Network,RNN)和卷積神經網絡(Convolutional Neural Network,CNN)是深度學習領域中兩種非常重要的神經網絡
    的頭像 發表于 07-04 14:24 ?1315次閱讀

    深度神經網絡與基本神經網絡的區別

    在探討深度神經網絡(Deep Neural Networks, DNNs)與基本神經網絡(通常指傳統神經網絡或前向神經網絡)的區別時,我們需要從多個維度進行深入分析。這些維度包括
    的頭像 發表于 07-04 13:20 ?908次閱讀

    卷積神經網絡與循環神經網絡的區別

    在深度學習領域,卷積神經網絡(Convolutional Neural Networks, CNN)和循環神經網絡(Recurrent Neural Networks, RNN)是兩種極其重要
    的頭像 發表于 07-03 16:12 ?3364次閱讀

    反向傳播神經網絡和bp神經網絡的區別

    反向傳播神經網絡(Backpropagation Neural Network,簡稱BP神經網絡)是一種多層前饋神經網絡,它通過反向傳播算法來調整網絡中的權重和偏置,以達到最小化誤差的
    的頭像 發表于 07-03 11:00 ?819次閱讀

    bp神經網絡是深度神經網絡

    BP神經網絡(Backpropagation Neural Network)是一種常見的前饋神經網絡,它使用反向傳播算法來訓練網絡。雖然BP神經網絡在某些方面與深度
    的頭像 發表于 07-03 10:14 ?862次閱讀

    bp神經網絡和卷積神經網絡區別是什么

    BP神經網絡(Backpropagation Neural Network)和卷積神經網絡(Convolutional Neural Network,簡稱CNN)是兩種不同類型的人工神經網絡,它們在
    的頭像 發表于 07-03 10:12 ?1211次閱讀

    卷積神經網絡的原理是什么

    卷積神經網絡(Convolutional Neural Network,簡稱CNN)是一種深度學習模型,廣泛應用于圖像識別、語音識別、自然語言處理等領域。本文將詳細介紹卷積神經網絡的原理,包括其
    的頭像 發表于 07-02 14:44 ?668次閱讀

    卷積神經網絡和bp神經網絡的區別

    卷積神經網絡(Convolutional Neural Networks,簡稱CNN)和BP神經網絡(Backpropagation Neural Networks,簡稱BPNN)是兩種
    的頭像 發表于 07-02 14:24 ?4167次閱讀

    神經網絡架構有哪些

    神經網絡架構是機器學習領域中的核心組成部分,它們模仿了生物神經網絡的運作方式,通過復雜的網絡結構實現信息的處理、存儲和傳遞。隨著深度學習技術的不斷發展,各種神經網絡架構被提出并廣泛應用
    的頭像 發表于 07-01 14:16 ?718次閱讀
    主站蜘蛛池模板: 7777在线| 狠狠天天| a在线观看网站| 1000部啪啪勿入十八免费| 又粗又硬又爽又黄毛片| 五月婷婷网站| 日日夜操| 2020天天操| 中文字幕一区二区三区四区| 性夜黄 a 爽免费看| 91麻豆麻豆| 四虎影视入口| 日韩精品免费一区二区三区| 毛片录像| 9797色| 日韩 ed2k| 啪一啪日一日| 国产精品自线在线播放| 香蕉视频网站在线播放| 欧美一级视频免费| 国产三a级日本三级日产三级| 在线免费看黄的网站| 久久综合九色| 一区二区三区高清在线| 在线观看你懂的网站| 日本五十交尾在线观看| 国产手机在线| 天天操天天操天天操香蕉| 99热99操99射| 二级片在线| 色偷偷偷偷| 国产精品九九久久一区hh| 手机看片福利视频| 分分操免费视频在线观看| 淫性视频| 免费一级网站| 午夜视频在线观看国产| 在线免费视频网站| 在线免费观看色视频| 欧美a在线播放| 午夜影视免费完整高清在线观看网站|