已完本玄幻小说排行榜,小说阅读网站,已完本玄幻小说排行榜

難道神經(jīng)網(wǎng)絡(luò)不用學(xué)權(quán)重也能完成各種任務(wù)？難道我們以為 CNN 學(xué)習(xí)到的圖像特征只是我們以為？神經(jīng)網(wǎng)絡(luò)只不過(guò)是函數(shù)的排列組合，沒(méi)有其它意義？從這篇論文來(lái)看，這些答案似乎都是肯定的。

昨天，谷歌大腦 David Ha 等人一篇名為《Weight Agnostic Neural Networks》的論文引爆了機(jī)器學(xué)習(xí)圈。其「顛覆性」的理論讓人驚呼：「到頭來(lái)我們對(duì)神經(jīng)網(wǎng)絡(luò)一無(wú)所知？」

Reddit 上有一些研究者認(rèn)為，《Weight Agnostic Neural Networks》這篇論文更有趣的意義在于，它也宣告了深度學(xué)習(xí)分層編碼特征這一解釋壽終正寢。

通常情況下，權(quán)重被認(rèn)為會(huì)被訓(xùn)練成 MNIST 中邊角、圓弧這類(lèi)直觀特征，而如果論文中的算法可以處理 MNIST，那么它們就不是特征，而是函數(shù)序列/組合。對(duì)于 AI 可解釋性來(lái)說(shuō)，這可能是一個(gè)打擊。

很容易理解，神經(jīng)網(wǎng)絡(luò)架構(gòu)并非「生而平等」，對(duì)于特定任務(wù)一些網(wǎng)絡(luò)架構(gòu)的性能顯著優(yōu)于其他模型。但是相比架構(gòu)而言，神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)的重要性到底有多少？

來(lái)自德國(guó)波恩-萊茵-錫格應(yīng)用技術(shù)大學(xué)和谷歌大腦的一項(xiàng)新研究提出了一種神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法，這些網(wǎng)絡(luò)可以在不進(jìn)行顯式權(quán)重訓(xùn)練的情況下執(zhí)行各種任務(wù)。

為了評(píng)估這些網(wǎng)絡(luò)，研究者使用從統(tǒng)一隨機(jī)分布中采樣的單個(gè)共享權(quán)重參數(shù)來(lái)連接網(wǎng)絡(luò)層，并評(píng)估期望性能。結(jié)果顯示，該方法可以找到少量神經(jīng)網(wǎng)絡(luò)架構(gòu)，這些架構(gòu)可以在沒(méi)有權(quán)重訓(xùn)練的情況下執(zhí)行多個(gè)強(qiáng)化學(xué)習(xí)任務(wù)，或 MNIST 等監(jiān)督學(xué)習(xí)任務(wù)。

如下是兩個(gè)不用學(xué)習(xí)權(quán)重的神經(jīng)網(wǎng)絡(luò)示例，分別是二足行走智能體（上）和賽車(chē)（下）：

為什么神經(jīng)網(wǎng)絡(luò)不用學(xué)習(xí)權(quán)重

在生物學(xué)中，早成性物種是指那些天生就有一些能力的幼生體。很多證據(jù)表明蜥蜴和蛇等動(dòng)物天生就懂得逃避捕食者，鴨子在孵化后也能自己學(xué)會(huì)游泳和進(jìn)食。

相比之下，我們?cè)谟?xùn)練智能體執(zhí)行任務(wù)時(shí)，會(huì)選擇一個(gè)典型的神經(jīng)網(wǎng)絡(luò)框架，并相信它有潛力為這個(gè)任務(wù)編碼特定的策略。注意這里只是「有潛力」，我們還要學(xué)習(xí)權(quán)重參數(shù)，才能將這種潛力變化為能力。

受到自然界早成行為及先天能力的啟發(fā)，在這項(xiàng)工作中，研究者構(gòu)建了一個(gè)能「自然」執(zhí)行給定任務(wù)的神經(jīng)網(wǎng)絡(luò)。也就是說(shuō)，找到一個(gè)先天的神經(jīng)網(wǎng)絡(luò)架構(gòu)，然后只需要隨機(jī)初始化的權(quán)重就能執(zhí)行任務(wù)。研究者表示，這種不用學(xué)習(xí)參數(shù)的神經(jīng)網(wǎng)絡(luò)架構(gòu)在強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)都有很好的表現(xiàn)。

其實(shí)在我們的理解中，如果我們想象神經(jīng)網(wǎng)絡(luò)架構(gòu)提供的就是一個(gè)圈，那么常規(guī)學(xué)習(xí)權(quán)重就是找到一個(gè)最優(yōu)「點(diǎn)」（或最優(yōu)參數(shù)解）。但是對(duì)于不用學(xué)習(xí)權(quán)重的神經(jīng)網(wǎng)絡(luò)，它就相當(dāng)于引入了一個(gè)非常強(qiáng)的歸納偏置，以至于，整個(gè)架構(gòu)偏置到能直接解決某個(gè)問(wèn)題。

如上是我們對(duì)兩種網(wǎng)絡(luò)的直觀理解。一般神經(jīng)網(wǎng)絡(luò)在架構(gòu)內(nèi)隨機(jī)初始化權(quán)重，再學(xué)習(xí)權(quán)重以找到最優(yōu)解，這樣的模型就能完成特定任務(wù)。一般只要架構(gòu)足夠「大」，那么它很可能包含最優(yōu)解，梯度下降也就能大致找到它了。

但是對(duì)于不用學(xué)習(xí)權(quán)重的神經(jīng)網(wǎng)絡(luò)，它相當(dāng)于不停地特化架構(gòu)，或者說(shuō)降低模型方差。這樣，當(dāng)架構(gòu)越來(lái)越小而只包含最優(yōu)解時(shí)，隨機(jī)化的權(quán)重也就能解決實(shí)際問(wèn)題了。當(dāng)然，如研究者那樣從小架構(gòu)到大架構(gòu)搜索也是可行的，只要架構(gòu)能正好將最優(yōu)解包圍住就行了。

以前就有懶得學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)

幾十年的神經(jīng)網(wǎng)絡(luò)研究為不同的任務(wù)提供了具有強(qiáng)歸納偏置的構(gòu)造塊。比如卷積神經(jīng)網(wǎng)絡(luò)就尤其適合處理圖像。

Ulyanov 等人 [109] 展示了隨機(jī)初始化的 CNN 可在標(biāo)準(zhǔn)逆問(wèn)題（如去噪、超分辨率和圖像修復(fù)）中作為手工先驗(yàn)知識(shí)（handcrafted prior）使用，且性能優(yōu)越。

Schmidhuber 等人 [96] 展示了使用習(xí)得線性輸入層的隨機(jī)初始化 LSTM 可以預(yù)測(cè)時(shí)序，而傳統(tǒng) RNN 不行。近期在自注意力 [113] 和膠囊網(wǎng)絡(luò) [93] 方面的研究拓寬了創(chuàng)建適用于多個(gè)任務(wù)的架構(gòu)的構(gòu)造塊范圍。

受隨機(jī)初始化 CNN 和 LSTM 的啟發(fā)，該研究旨在搜索權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)，即這些具備強(qiáng)歸納偏置的網(wǎng)絡(luò)可以使用隨機(jī)權(quán)重執(zhí)行不同任務(wù)。

核心思想

為了尋找具備強(qiáng)歸納偏置的神經(jīng)網(wǎng)絡(luò)架構(gòu)，研究者提出通過(guò)降低權(quán)重重要性的方式來(lái)搜索架構(gòu)。具體步驟為：1）為每一個(gè)網(wǎng)絡(luò)連接提供單一的共享權(quán)重參數(shù)；2）在較大的權(quán)重參數(shù)值范圍內(nèi)評(píng)估網(wǎng)絡(luò)。

該研究沒(méi)有采用優(yōu)化固定網(wǎng)絡(luò)權(quán)重的方式，而是優(yōu)化在大范圍權(quán)重值上都有良好性能的架構(gòu)。研究者證明，該方法可生成使用隨機(jī)權(quán)重參數(shù)執(zhí)行不同連續(xù)控制任務(wù)的網(wǎng)絡(luò)。

圖 1：權(quán)重?zé)o關(guān)神經(jīng)網(wǎng)絡(luò)示例：二足行走智能體（左）、賽車(chē)（右）。研究者通過(guò)降低權(quán)重重要性的方式搜索架構(gòu)。網(wǎng)絡(luò)使用單一的共享權(quán)重值。所有架構(gòu)在大范圍權(quán)重值上進(jìn)行性能優(yōu)化后，仍然能夠在沒(méi)有權(quán)重訓(xùn)練的情況下執(zhí)行不同任務(wù)。

權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)搜索

創(chuàng)建編碼解的網(wǎng)絡(luò)架構(gòu)與神經(jīng)架構(gòu)搜索（NAS）解決的問(wèn)題有著本質(zhì)上的區(qū)別。NAS 技術(shù)的目標(biāo)是生成訓(xùn)練完成后能夠超越人類(lèi)手工設(shè)計(jì)的架構(gòu)。從來(lái)沒(méi)有人聲稱(chēng)該解是該網(wǎng)絡(luò)架構(gòu)所固有的。

為了生成自身能夠編碼解的架構(gòu)，權(quán)重的重要性必須最小化。在評(píng)估網(wǎng)絡(luò)性能時(shí)，研究者沒(méi)有選擇使用最優(yōu)權(quán)重值的網(wǎng)絡(luò)，而從隨機(jī)分布中抽取權(quán)重值。用權(quán)重采樣取代權(quán)重訓(xùn)練可以確保性能只與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)有關(guān)。

然而，由于維度很高，除了最簡(jiǎn)單的網(wǎng)絡(luò)外，權(quán)重空間的可靠采樣在所有網(wǎng)絡(luò)上都是不可行的。盡管維度問(wèn)題阻礙了研究者對(duì)高維權(quán)重空間進(jìn)行高效采樣，但通過(guò)在所有權(quán)重上執(zhí)行權(quán)重共享，權(quán)重值的數(shù)量減少到 1。

系統(tǒng)采樣單個(gè)權(quán)值非常簡(jiǎn)單、高效，可以讓我們進(jìn)行幾次試驗(yàn)就能近似網(wǎng)絡(luò)性能。然后可以利用這一近似來(lái)搜索更好的架構(gòu)。

主要流程

搜索權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)（WANN）的流程如下：

創(chuàng)建最少神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的初始群組；

在多個(gè) rollout 上對(duì)每個(gè)網(wǎng)絡(luò)進(jìn)行評(píng)估，每個(gè) rollout 分配一個(gè)不同的共享權(quán)重值；

根據(jù)網(wǎng)絡(luò)的性能和復(fù)雜度對(duì)其進(jìn)行排序；

通過(guò)改變排名最高的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)創(chuàng)建新的群組，這些拓?fù)浣Y(jié)構(gòu)是通過(guò)錦標(biāo)賽選擇法（tournament selection）根據(jù)概率選擇的。

接下來(lái)，算法從 (2) 開(kāi)始重復(fù)，生成復(fù)雜度遞增的權(quán)重?zé)o關(guān)拓?fù)浣Y(jié)構(gòu)，其性能優(yōu)于之前的幾代。

圖 2：與權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)搜索圖示。

通過(guò)每次 rollout 時(shí)采樣單個(gè)共享權(quán)重，與權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)搜索在避免權(quán)重訓(xùn)練的同時(shí)，探索神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的空間。研究者基于多次 rollout 評(píng)估網(wǎng)絡(luò)，在每次 rollout 時(shí)，為單個(gè)共享權(quán)重指定相應(yīng)的值，并記錄實(shí)驗(yàn)期間的累積獎(jiǎng)勵(lì)。

之后，根據(jù)網(wǎng)絡(luò)的性能和復(fù)雜度對(duì)網(wǎng)絡(luò)群組進(jìn)行排序。然后，根據(jù)概率選出排名最高的網(wǎng)絡(luò)以生成新的群組，排名最高的網(wǎng)絡(luò)是會(huì)隨機(jī)變化的。之后重復(fù)這一過(guò)程。

最最核心的拓?fù)渌阉?/p>

用于搜索神經(jīng)網(wǎng)絡(luò)拓?fù)涞乃阕邮艿缴窠?jīng)進(jìn)化算法 NEAT 的啟發(fā)。不過(guò) NEAT 中的拓?fù)浜蜋?quán)重值是同時(shí)進(jìn)行優(yōu)化的，而本研究無(wú)視權(quán)重，僅使用拓?fù)渌阉魉阕印?/p>

最初的搜索空間包括多個(gè)稀疏連接網(wǎng)絡(luò)、沒(méi)有隱藏節(jié)點(diǎn)的網(wǎng)絡(luò)，以及輸入和輸出層之間僅有少量可能連接的網(wǎng)絡(luò)。使用 insert node、add connection、change activation 這三個(gè)算子中的其中一個(gè)修改已有網(wǎng)絡(luò)，從而創(chuàng)建新網(wǎng)絡(luò)。新節(jié)點(diǎn)的激活函數(shù)是隨機(jī)分配的。

圖 3：搜索網(wǎng)絡(luò)拓?fù)淇臻g的算子。

鑒于網(wǎng)絡(luò)的前饋本質(zhì)，在之前不連接的節(jié)點(diǎn)之間添加新連接。當(dāng)隱藏節(jié)點(diǎn)的激活函數(shù)被改變后，激活函數(shù)進(jìn)入隨機(jī)分配模式。激活函數(shù)包括常見(jiàn)函數(shù)（如線性激活函數(shù)、sigmoid、ReLU）和不那么常見(jiàn)的（如 Gaussian、sinusoid、step），它們編碼輸入和輸出之間的多種關(guān)系。

實(shí)驗(yàn)結(jié)果

該研究在三個(gè)連續(xù)控制任務(wù)上評(píng)估權(quán)重?zé)o關(guān)神經(jīng)網(wǎng)絡(luò)（WANN）：CartPoleSwingUp、BipedalWalker-v2 和 CarRacing-v0。研究者基于之前研究常用的標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)策略創(chuàng)建權(quán)重?zé)o關(guān)網(wǎng)絡(luò)架構(gòu)，從中選取最好的 WANN 架構(gòu)進(jìn)行平均性能對(duì)比（100 次試驗(yàn)）。

表 1：隨機(jī)采樣網(wǎng)絡(luò)和使用權(quán)重訓(xùn)練的網(wǎng)絡(luò)在連續(xù)控制任務(wù)上的性能。

傳統(tǒng)的固定拓?fù)渚W(wǎng)絡(luò)僅在大量調(diào)參后才能生成有用的行為，而 WANN 使用隨機(jī)共享權(quán)重都可以執(zhí)行任務(wù)。

由于 WANN 很小，很容易解釋?zhuān)虼宋覀兛梢圆榭匆韵戮W(wǎng)絡(luò)圖示，了解其工作原理。

圖 4：權(quán)重?zé)o關(guān)拓?fù)潆S著時(shí)間的變化。Generation 128：添加復(fù)雜度，以改進(jìn)小車(chē)的平衡動(dòng)作。

模型最終在 BipedalWalker-v2 任務(wù)上獲得的最好效果。

模型最終在 CarRacing-v0 任務(wù)上獲得的最好效果。

有監(jiān)督分類(lèi)問(wèn)題又怎樣

WANN 方法在強(qiáng)化學(xué)習(xí)任務(wù)上取得的成果讓我們開(kāi)始思考，它還可以應(yīng)用到哪些問(wèn)題？WANN 能夠編碼輸入之間的關(guān)系，非常適合強(qiáng)化學(xué)習(xí)任務(wù)：低維輸入加上內(nèi)部狀態(tài)和環(huán)境交互，使反應(yīng)型和自適應(yīng)控制器得以發(fā)現(xiàn)。

然而，分類(lèi)問(wèn)題沒(méi)那么模糊，它界限分明，對(duì)就是對(duì)，錯(cuò)就是錯(cuò)。作為概念證明，研究者調(diào)查了 WANN 在 MNIST 數(shù)據(jù)集上的表現(xiàn)。

即使是在高維分類(lèi)任務(wù)中，WANN 方法依然表現(xiàn)非常好（如圖 5 左所示）。雖然局限于單個(gè)權(quán)重值，WANN 方法能夠分類(lèi) MNIST 數(shù)字，且性能堪比具備數(shù)千個(gè)權(quán)重的單層神經(jīng)網(wǎng)絡(luò)（權(quán)重通過(guò)梯度下降進(jìn)行訓(xùn)練）。創(chuàng)建的架構(gòu)依然保持權(quán)重訓(xùn)練所需的靈活性，從而進(jìn)一步提升準(zhǔn)確率。

圖 5：MNIST 數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率。

上圖左：以多個(gè)權(quán)重值作為集成進(jìn)行實(shí)例化的 WANN 比隨機(jī)權(quán)重采樣的網(wǎng)絡(luò)性能好得多，且性能與具有數(shù)千個(gè)權(quán)重的線性分類(lèi)器相同。上圖右：在所有數(shù)字上具有更高準(zhǔn)確率的單個(gè)權(quán)重值不存在。WANN 可被實(shí)例化為多個(gè)不同網(wǎng)絡(luò)，它們具有創(chuàng)建集成的可能性。

MNIST 分類(lèi)網(wǎng)絡(luò)進(jìn)化為可以使用隨機(jī)權(quán)重。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

控制器

控制器

+關(guān)注

關(guān)注
112

文章
16398

瀏覽量
178528
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4774

瀏覽量
100894
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8425

瀏覽量
132770