有声,完美世界辰东小说下载,古风

NeurIPS 2022 | Parameter-Efficient Masking Networks，美國東北大學(xué)，羅切斯特理工等，提出參數(shù)集約型掩碼網(wǎng)絡(luò)，探索有限數(shù)量隨機(jī)數(shù)的表征能力并提升神經(jīng)網(wǎng)絡(luò)儲(chǔ)存和傳輸效率。

為了處理更復(fù)雜的任務(wù)，近年來神經(jīng)網(wǎng)絡(luò)的規(guī)模也在不斷變大，如何高效的儲(chǔ)存和傳輸神經(jīng)網(wǎng)絡(luò)變得十分重要。另一方面，隨著彩票假說（Lottery Ticket Hypothesis (LTH)）的提出，隨機(jī)稀疏神經(jīng)網(wǎng)絡(luò)最近展現(xiàn)出很強(qiáng)的潛力，如何利用這種潛力來提高網(wǎng)絡(luò)的存儲(chǔ)和傳輸效率也很值得探索。

來自美國東北大學(xué)和羅切斯特理工的研究者提出參數(shù)集約型掩碼網(wǎng)絡(luò)（Parameter-Efficient Masking Networks (PEMN)）。作者首先探索了有限數(shù)量隨機(jī)數(shù)生成的隨機(jī)網(wǎng)絡(luò)的表征能力。實(shí)驗(yàn)表明，即使網(wǎng)絡(luò)由有限數(shù)量的隨機(jī)數(shù)生成，通過選擇不同的子網(wǎng)絡(luò)結(jié)構(gòu)，其依然具有很好的表征能力。通過這種探索性實(shí)驗(yàn)，作者自然地提出使用一組有限數(shù)量隨機(jī)數(shù)作為prototype，結(jié)合一組mask來表達(dá)一個(gè)神經(jīng)網(wǎng)絡(luò)。因?yàn)橛邢迶?shù)量的隨機(jī)數(shù)和二值的mask占用很少的儲(chǔ)存空間，作者以此來提出一種新的思路來進(jìn)行網(wǎng)絡(luò)壓縮。文章已被NeurIPS 2022 接受。代碼已開源。

Parameter-Efficient Masking Networks

論文地址: https://arxiv.org/abs/2210.06699

論文代碼: https://github.com/yueb17/PEMN

1. 相關(guān)研究

MIT研究人員提出彩票假說 Lottery Ticket Hypothesis (ICLR’19)：在一個(gè)隨機(jī)初始化網(wǎng)絡(luò)中，存在一個(gè)彩票子網(wǎng)絡(luò)（winning ticket）在被單獨(dú)訓(xùn)練的情況下達(dá)到很好的效果。彩票假說探索了隨機(jī)稀疏網(wǎng)絡(luò)的可訓(xùn)練性。Uber研究人員提出Supermask (NeurIPS’19)：在一個(gè)隨機(jī)初始化網(wǎng)絡(luò)中，存在一個(gè)子網(wǎng)絡(luò)，可以直接用來做推斷而不需要訓(xùn)練。Supermask探索了隨機(jī)稀疏網(wǎng)絡(luò)的可用性。華盛頓大學(xué)研究人員提出Edge-Popup (CVPR’20)：通過反向傳播學(xué)習(xí)子網(wǎng)絡(luò)的mask，大幅提升了隨機(jī)稀疏網(wǎng)絡(luò)的可用性。

2. 研究動(dòng)機(jī)/流程

以上相關(guān)研究從不同角度探索了隨機(jī)稀疏網(wǎng)絡(luò)的潛力，如可訓(xùn)練性和可用性，其中可用性也可以理解為表征能力。在此工作中，作者感興趣的是由隨機(jī)數(shù)生成的神經(jīng)網(wǎng)絡(luò)在不訓(xùn)練權(quán)重的情況下有多強(qiáng)的表征能力。隨著對該問題的探索，作者提出了Parameter-Efficient Masking Networks (PEMN)。自然地，作者運(yùn)用PEMN為網(wǎng)絡(luò)壓縮提供了一種新的思路，并作為一個(gè)例子對PEMN的潛在應(yīng)用場景進(jìn)行探索。

3. 探索隨機(jī)數(shù)構(gòu)成的神經(jīng)網(wǎng)絡(luò)的表征能力

給定一個(gè)隨機(jī)網(wǎng)絡(luò)，作者選擇Edge-Popup算法在其中選擇子網(wǎng)絡(luò)來探索其表征能力。不同的是，相對于對整個(gè)網(wǎng)絡(luò)進(jìn)行隨機(jī)初始化，作者提出了三種參數(shù)集約型的網(wǎng)絡(luò)生成策略來使用一個(gè)prototype構(gòu)建隨機(jī)網(wǎng)絡(luò)。

One-layer: 選擇網(wǎng)絡(luò)中重復(fù)結(jié)構(gòu)的權(quán)重作為prototype來填充其他的與之結(jié)構(gòu)相同的網(wǎng)絡(luò)層。

Max-layer padding (MP): 選擇參數(shù)量最多的網(wǎng)絡(luò)層作為prototype并且截?cái)嘞鄳?yīng)的參數(shù)量來填充其他網(wǎng)絡(luò)層。

Random vector padding (RP): 選擇一定長度的隨機(jī)向量作為prototype并對其進(jìn)行復(fù)制來填充整個(gè)網(wǎng)絡(luò)。

三種不同的隨機(jī)網(wǎng)絡(luò)生成策略把網(wǎng)絡(luò)中不重復(fù)參數(shù)值（unique values）的數(shù)量逐步變小，我們基于不同策略得到的隨機(jī)網(wǎng)絡(luò)來選擇子網(wǎng)絡(luò)，從而探索了有限數(shù)量隨機(jī)數(shù)生成的隨機(jī)網(wǎng)絡(luò)的表征潛力。

上圖展示了使用ConvMixer 和 ViT 網(wǎng)絡(luò)CIFAR10圖像分類的實(shí)驗(yàn)結(jié)果。Y軸為準(zhǔn)確率，X軸為使用不同策略得到的隨機(jī)網(wǎng)絡(luò)。隨之X軸的變大，隨機(jī)網(wǎng)絡(luò)中不重復(fù)隨機(jī)數(shù)數(shù)量逐漸變小（RP后的數(shù)字表示相比較于MP，RP中不重復(fù)隨機(jī)數(shù)數(shù)量的比例）。根據(jù)實(shí)驗(yàn)結(jié)果，我們觀察到即使隨機(jī)網(wǎng)絡(luò)只有非常有限的不重復(fù)隨機(jī)數(shù)（比如PR_1e-3），依然可以很好的維持選擇出來的子網(wǎng)絡(luò)的表征能力。至此，作者通過不同的隨機(jī)網(wǎng)絡(luò)生成策略，探索了有限數(shù)量隨機(jī)數(shù)構(gòu)成的神經(jīng)網(wǎng)絡(luò)的表征能力并觀察到即使不重復(fù)隨機(jī)數(shù)非常有限，其對應(yīng)的隨機(jī)網(wǎng)絡(luò)依然可以很好地對數(shù)據(jù)進(jìn)行表征。同時(shí)作者基于這些隨機(jī)網(wǎng)絡(luò)生成策略，結(jié)合所得到的子網(wǎng)絡(luò)掩碼，提出了Parameter-Efficient Masking Networks（PEMN）這種新的神經(jīng)網(wǎng)絡(luò)類型。

4. 一種新的網(wǎng)絡(luò)壓縮思路

本文選擇了神經(jīng)網(wǎng)路壓縮為例來拓展PEMN的潛在應(yīng)用。具體來說，文中所提出的不同隨機(jī)網(wǎng)絡(luò)生成策略可以高效的使用prototype來代表完整的隨機(jī)網(wǎng)絡(luò)，尤其是最細(xì)粒度的random vector padding （RP）策略。作者使用RP策略中的隨機(jī)向量prototype和與之對應(yīng)的一組子網(wǎng)絡(luò)掩碼來表示一個(gè)隨機(jī)網(wǎng)絡(luò)。在其中prototype需要保存浮點(diǎn)數(shù)格式，而掩碼只需要保存成二值格式。因?yàn)镽P中的prototype長度可以很短（因?yàn)橛邢迶?shù)量的不重復(fù)隨機(jī)數(shù)仍有很強(qiáng)的表征能力），所以表示一個(gè)神經(jīng)網(wǎng)絡(luò)的開銷會(huì)變得很小，即儲(chǔ)存一個(gè)長度有限的浮點(diǎn)數(shù)格式的隨機(jī)向量和一組二值格式的掩碼。相比較于傳統(tǒng)的稀疏網(wǎng)絡(luò)儲(chǔ)存子網(wǎng)絡(luò)的浮點(diǎn)值，本文提出了一種新的網(wǎng)絡(luò)壓縮思路用來高效的儲(chǔ)存和傳輸神經(jīng)網(wǎng)絡(luò)。

在上圖中，作者使用PEMN對網(wǎng)絡(luò)進(jìn)行壓縮并與傳統(tǒng)的網(wǎng)絡(luò)剪枝方法進(jìn)行對比。實(shí)驗(yàn)使用ResNet網(wǎng)絡(luò)在CIFAR數(shù)據(jù)集做圖像分類任務(wù)。我們觀察到，新的壓縮方案表現(xiàn)普遍優(yōu)于傳統(tǒng)的網(wǎng)絡(luò)剪枝，尤其是在很高的壓縮率下，PEMN仍然可以維持較好的準(zhǔn)確率。

5. 結(jié)論

本文受近來隨機(jī)網(wǎng)絡(luò)展現(xiàn)出來的潛力所啟發(fā)，提出不同種參數(shù)集約策略來構(gòu)建隨機(jī)神經(jīng)網(wǎng)絡(luò)，進(jìn)而探索了在只有有限的不重復(fù)隨機(jī)數(shù)的情況下所生成的隨機(jī)神經(jīng)網(wǎng)絡(luò)的表征潛力，并提出參數(shù)集約型掩碼網(wǎng)絡(luò)Parameter-Efficient Masking Networks (PEMN)。作者將PEMN應(yīng)用到網(wǎng)絡(luò)壓縮的場景中探索了其在實(shí)際應(yīng)用方面的潛力并且為網(wǎng)絡(luò)壓縮提供了一種新的思路。作者提供了廣泛的實(shí)驗(yàn)，表明了即使隨機(jī)網(wǎng)絡(luò)中只有非常有限的不重復(fù)隨機(jī)數(shù)，通過子網(wǎng)絡(luò)的選擇，其依然有較好的表征能力。此外，相比較于傳統(tǒng)剪枝算法，實(shí)驗(yàn)表明新提出的方法可以取得更好的網(wǎng)絡(luò)壓縮效果，驗(yàn)證了PEMN在該場景下的應(yīng)用潛力。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4777

瀏覽量
100994
算法

算法

+關(guān)注

關(guān)注
23

文章
4626

瀏覽量
93151

原文標(biāo)題：NeurIPS 2022 | PEMN：參數(shù)集約型掩碼網(wǎng)絡(luò)

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

子網(wǎng)掩碼反運(yùn)算的步驟和應(yīng)用

32位地址，主要用來區(qū)分IP地址中的網(wǎng)絡(luò)部分和主機(jī)部分。它是由一串連續(xù)的1和連續(xù)的0組成，其中的1表示網(wǎng)絡(luò)部分，0用來表示主機(jī)部分。子網(wǎng)掩碼與IP地址一起使用，用于確定IP地址的所屬網(wǎng)絡(luò)

發(fā)表于 12-09 09:27 ?164次閱讀

一文分清IP地址、子網(wǎng)和子網(wǎng)掩碼的關(guān)系

大家在進(jìn)行IPv4地址配置時(shí)都看到過“子網(wǎng)掩碼”這樣的參數(shù)名，許多小伙伴都會(huì)疑惑這是個(gè)啥？有什么用呢？下面帶領(lǐng)大家認(rèn)識(shí)認(rèn)識(shí)子網(wǎng)掩碼以及跟其密不可分的子網(wǎng)！ 1 IP地址、子網(wǎng)和子網(wǎng)掩碼

發(fā)表于 12-07 10:20 ?1290次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整方法

卷積神經(jīng)網(wǎng)絡(luò)因其在處理具有空間層次結(jié)構(gòu)的數(shù)據(jù)時(shí)的卓越性能而受到青睞。然而，CNN的成功很大程度上依賴于其參數(shù)的合理設(shè)置。參數(shù)調(diào)整是一個(gè)復(fù)雜的過程，涉及到多個(gè)超參數(shù)的選擇和優(yōu)化。

發(fā)表于 11-15 15:10 ?494次閱讀

什么是小水電集約化管理？小水電集約化管理實(shí)現(xiàn)的價(jià)值

小水電集約化管理，是指在集控運(yùn)行中心通過網(wǎng)絡(luò)通道實(shí)現(xiàn)遠(yuǎn)程對小水電站集群進(jìn)行遠(yuǎn)程控制、統(tǒng)一規(guī)范運(yùn)行。以區(qū)域、流域?yàn)閱卧?，集中相關(guān)資源和業(yè)務(wù)，專業(yè)化分工，實(shí)現(xiàn)區(qū)域、流域內(nèi)水電站群集控運(yùn)維、專業(yè)化的統(tǒng)一運(yùn)營管理。

發(fā)表于 11-12 14:26 ?341次閱讀

Linux ifconfig網(wǎng)絡(luò)參數(shù)詳解

ifconfig 主要是可以手動(dòng)啟動(dòng)、觀察與修改網(wǎng)絡(luò)接口的相關(guān)參數(shù)。

發(fā)表于 10-24 17:31 ?642次閱讀

日本東京ip和子網(wǎng)掩碼

日本東京的IP地址和子網(wǎng)掩碼是緊密相連的，它們共同決定了網(wǎng)絡(luò)中設(shè)備的通信方式。下面rak小編將詳細(xì)介紹日本東京的IP地址和子網(wǎng)掩碼。

發(fā)表于 10-12 10:13 ?362次閱讀

電流反饋型運(yùn)放與電壓反饋型運(yùn)放

，選擇具有適當(dāng)增益帶寬積（GBW）、轉(zhuǎn)換速率（SR）和輸入/輸出阻抗等參數(shù)的CFA器件。（2）設(shè)計(jì)輸入和輸出網(wǎng)絡(luò)：根據(jù)所需的增益、帶寬和穩(wěn)定性等要求，設(shè)計(jì)合適的輸入和輸出網(wǎng)絡(luò)。這可能包括電阻、電容和電感

發(fā)表于 09-10 09:47

嵌入式學(xué)習(xí)-常見的shell命令之網(wǎng)絡(luò)相關(guān)命令

配給任何主機(jī)，僅用作廣播地址（三）IP地址127.0.0.1為回環(huán)結(jié)構(gòu)，用于本地進(jìn)行軟件測試4）子網(wǎng)掩碼子網(wǎng)掩碼是一個(gè)32位的二進(jìn)制地址，用來屏蔽原來網(wǎng)絡(luò)地址的劃分情況，從而獲得一個(gè)范圍小的，可以實(shí)際使用

發(fā)表于 08-21 09:41

常見的shell命令之網(wǎng)絡(luò)相關(guān)命令

配給任何主機(jī)，僅用作廣播地址（三）IP地址127.0.0.1為回環(huán)結(jié)構(gòu)，用于本地進(jìn)行軟件測試4）子網(wǎng)掩碼子網(wǎng)掩碼是一個(gè)32位的二進(jìn)制地址，用來屏蔽原來網(wǎng)絡(luò)地址的劃分情況，從而獲得一個(gè)范圍小的，可以實(shí)際使用

發(fā)表于 08-20 09:50

神經(jīng)網(wǎng)絡(luò)各個(gè)網(wǎng)絡(luò)參數(shù)的設(shè)定原則

神經(jīng)網(wǎng)絡(luò)各個(gè)網(wǎng)絡(luò)參數(shù)的設(shè)定原則是一個(gè)復(fù)雜而關(guān)鍵的過程，它直接影響到網(wǎng)絡(luò)的性能和學(xué)習(xí)效果。以下將從網(wǎng)絡(luò)節(jié)點(diǎn)、初始權(quán)值、訓(xùn)練速率、動(dòng)態(tài)

發(fā)表于 07-11 17:03 ?1169次閱讀

矢量網(wǎng)絡(luò)分析儀怎么測量S參數(shù)？

矢量網(wǎng)絡(luò)分析儀（VNA）是一種用于測量射頻（RF）和微波網(wǎng)絡(luò)的散射參數(shù)（S參數(shù)）的高精度儀器。

發(fā)表于 05-17 16:25 ?2399次閱讀

LED顯示屏控制軟件參數(shù)配置方法

基本參數(shù)是戶外LED屏的基礎(chǔ)參數(shù)，如果設(shè)置不正確，則不能通信或不顯示以及顯示不正常?；?b class='flag-5'>參數(shù)包括顯示屏寬高度、控制卡地址、波特率、IP地址、端口號、MAC地址、子網(wǎng)掩碼、網(wǎng)關(guān)、刷新頻率

發(fā)表于 04-09 09:33 ?1607次閱讀

基于掩碼模型的LiDAR感知模型預(yù)訓(xùn)練策略

對于每個(gè)被掩碼的網(wǎng)格，計(jì)算此網(wǎng)格中的點(diǎn)云數(shù)量，并通過將點(diǎn)云數(shù)量除以其在3D空間中的占用體積來得到對應(yīng)的密度真值。

發(fā)表于 04-06 04:33 ?653次閱讀

除了S參數(shù)，還有哪些網(wǎng)絡(luò)參數(shù)呢？

對于射頻人員來講，最熟悉的可能就是S參數(shù)了。但是除了S參數(shù)之外，其實(shí)還有其他很多網(wǎng)絡(luò)參數(shù)。

發(fā)表于 02-27 16:35 ?1423次閱讀

G10指令可以對參數(shù)進(jìn)行賦值，位型參數(shù)可以嗎？

G10指令可以對參數(shù)進(jìn)行賦值，位型參數(shù)可以嗎？ G10指令是用于在加工程序中進(jìn)行參數(shù)賦值的指令。它可以用于指定數(shù)值型

發(fā)表于 02-18 10:49 ?922次閱讀