FAIR何愷明團(tuán)隊(duì)近日發(fā)表神經(jīng)結(jié)構(gòu)搜索NAS方面的最新力作,通過(guò)隨機(jī)連接的神經(jīng)網(wǎng)絡(luò),探索了更多樣化的連接模式,所提出的RandWire網(wǎng)絡(luò)ImageNet基準(zhǔn)測(cè)試中獲得了有競(jìng)爭(zhēng)力的準(zhǔn)確度。
用于圖像識(shí)別的神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)大量的人工設(shè)計(jì),已經(jīng)從簡(jiǎn)單的鏈狀模型發(fā)展到具有多個(gè)連接路徑的結(jié)構(gòu)。ResNets和DenseNets的成功在很大程度上歸功于它們創(chuàng)新的連接規(guī)劃。
目前,神經(jīng)結(jié)構(gòu)搜索(NAS)的研究正在探索連接(wiring)與操作類(lèi)型(operation types)的聯(lián)合優(yōu)化,然而,由于可能的連接空間受到限制,盡管采用了神經(jīng)結(jié)構(gòu)搜索,優(yōu)化仍然是由人工設(shè)計(jì)驅(qū)動(dòng)的。
近日,F(xiàn)AIR何愷明等人發(fā)表最新論文,探討了在圖像識(shí)別中NAS方法的優(yōu)化。研究人員通過(guò)隨機(jī)連接的神經(jīng)網(wǎng)絡(luò),探索了更多樣化的連接模式。
論文地址:
https://arxiv.org/pdf/1904.01569.pdf
作者首先定義了一個(gè)隨機(jī)網(wǎng)絡(luò)生成器(network generator)的概念,該生成器封裝了整個(gè)網(wǎng)絡(luò)生成過(guò)程,從而提供了NAS和隨機(jī)連接網(wǎng)絡(luò)的統(tǒng)一視圖。
然后,研究人員采用三種經(jīng)典的隨機(jī)圖模型來(lái)生成網(wǎng)絡(luò)的隨機(jī)連接圖。
實(shí)驗(yàn)結(jié)果令人驚訝:這些隨機(jī)生成器生成的網(wǎng)絡(luò)實(shí)例在ImageNet基準(zhǔn)測(cè)試中獲得了有競(jìng)爭(zhēng)力的準(zhǔn)確度。
研究人員表示,這些結(jié)果表明,專(zhuān)注于設(shè)計(jì)更好的網(wǎng)絡(luò)生成器的研究可以通過(guò)探索更少約束的搜索空間,為新設(shè)計(jì)提供更多空間,從而帶來(lái)新的突破。
不過(guò),該研究被指其思想早已在2013年P(guān)CA-Net論文中提出過(guò),在算法設(shè)計(jì)思想方面沒(méi)有本質(zhì)的創(chuàng)新。
何愷明等人的這一新研究到底意義如何?本文對(duì)這篇論文進(jìn)行了譯介:
研究概述:網(wǎng)絡(luò)生成器的設(shè)計(jì)很重要
今天我們所稱的深度學(xué)習(xí)是從連接主義方法發(fā)展起來(lái)的,這一范式反映了這樣一種假設(shè),即計(jì)算網(wǎng)絡(luò)的連接方式對(duì)構(gòu)建智能機(jī)器至關(guān)重要。
與這一觀點(diǎn)相呼應(yīng)的是,計(jì)算機(jī)視覺(jué)領(lǐng)域的最新進(jìn)展是由使用鏈狀連接的模型向更精細(xì)的連接模式(如ResNet和DenseNet)的轉(zhuǎn)變所驅(qū)動(dòng)的,這些連接模式之所以有效,在很大程度上是因?yàn)樗鼈兊倪B接方式。
在這一趨勢(shì)的推進(jìn)中,神經(jīng)結(jié)構(gòu)搜索(neural architecture search, NAS)已經(jīng)成為聯(lián)合搜索連接模式和執(zhí)行操作方式的一個(gè)有前景的方向。NAS方法專(zhuān)注于搜索,同時(shí)隱式地依賴于一個(gè)重要但常常被忽視的組件——網(wǎng)絡(luò)生成器(network generator)。
NAS網(wǎng)絡(luò)生成器定義了一系列可能的連接模式,并根據(jù)可學(xué)習(xí)的概率分布對(duì)網(wǎng)絡(luò)進(jìn)行采樣。然而,就像ResNet和DenseNet中的連接模式一樣,NAS網(wǎng)絡(luò)生成器是手工設(shè)計(jì)的,允許的連接模式的空間被限制在所有可能的圖的一個(gè)小的子集中。從這個(gè)角度來(lái)看,我們會(huì)問(wèn):如果我們放開(kāi)這種約束,并設(shè)計(jì)新的網(wǎng)絡(luò)生成器,會(huì)發(fā)生什么?
我們通過(guò)隨機(jī)網(wǎng)絡(luò)生成器采樣的隨機(jī)連接神經(jīng)網(wǎng)絡(luò)來(lái)探討這個(gè)問(wèn)題,其中人工設(shè)計(jì)的隨機(jī)過(guò)程定義了生成。
圖1:隨機(jī)連接網(wǎng)絡(luò)的計(jì)算圖
我們使用了三個(gè)經(jīng)典的隨機(jī)圖模型:Erdos-R?enyi (ER),Barabasi-Albert (BA),以及Watts-Strogatz (WS)模型。
如圖1所示,隨機(jī)連接網(wǎng)絡(luò)的三個(gè)實(shí)例在ImageNet基準(zhǔn)測(cè)試中分別達(dá)到79.1%、79.1%和79.0%的精度,超過(guò)了ResNet-50的77.1%。
為了定義完整的網(wǎng)絡(luò),我們將一個(gè)隨機(jī)圖轉(zhuǎn)換成一個(gè)有向無(wú)環(huán)圖(DAG),并應(yīng)用從節(jié)點(diǎn)到其函數(shù)角色(例如,到相同類(lèi)型的卷積)的一個(gè)簡(jiǎn)單映射。
結(jié)果令人驚訝:這些隨機(jī)生成器的幾個(gè)變體在ImageNet上產(chǎn)生了準(zhǔn)確率上具有競(jìng)爭(zhēng)力的網(wǎng)絡(luò)。
使用WS模型的最佳生成器生成的多個(gè)網(wǎng)絡(luò)性能優(yōu)于或可與完全手工設(shè)計(jì)的同類(lèi)網(wǎng)絡(luò)和通過(guò)各種神經(jīng)結(jié)構(gòu)搜索方法找到的網(wǎng)絡(luò)相媲美。
我們還觀察到,對(duì)于同一生成器生成的不同隨機(jī)網(wǎng)絡(luò),精度的方差較低,但不同生成器之間存在明顯的精度差距。這些觀察結(jié)果表明,網(wǎng)絡(luò)生成器的設(shè)計(jì)很重要。
最后,我們的工作表明,從設(shè)計(jì)單個(gè)網(wǎng)絡(luò)到設(shè)計(jì)網(wǎng)絡(luò)生成器的新過(guò)渡是可能的,類(lèi)似于如何從設(shè)計(jì)特征過(guò)渡到設(shè)計(jì)學(xué)習(xí)特征的網(wǎng)絡(luò)。
我們建議設(shè)計(jì)新的網(wǎng)絡(luò)生成器來(lái)生成用于搜索的新模型家族,而不是主要關(guān)注使用固定生成器進(jìn)行搜索。設(shè)計(jì)的網(wǎng)絡(luò)生成器的重要性還意味著機(jī)器學(xué)習(xí)尚未實(shí)現(xiàn)自動(dòng)化——底層的人工設(shè)計(jì)只是從網(wǎng)絡(luò)工程轉(zhuǎn)變到網(wǎng)絡(luò)生成器工程(network generator engineering)。
研究方法
接下來(lái)介紹網(wǎng)絡(luò)生成器的概念,這是隨機(jī)連接神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。
網(wǎng)絡(luò)生成器(network generator)
我們定義一個(gè)網(wǎng)絡(luò)生成器為從參數(shù)空間Θ到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)空間N的一個(gè)映射g,表示為g:Θ→N。對(duì)于一個(gè)給定的θ∈Θ,g(θ)返回一個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)例n∈N。N通常是一組相關(guān)網(wǎng)絡(luò),例如VGG nets、ResNets或DenseNets。
生成器g決定了計(jì)算圖的連接方式。
隨機(jī)連接神經(jīng)網(wǎng)絡(luò)(Randomly Wired Neural Networks)
對(duì)NAS的分析表明,網(wǎng)絡(luò)生成器是人工設(shè)計(jì)的,并且是人類(lèi)知識(shí)的先驗(yàn)編碼。網(wǎng)絡(luò)生成器的設(shè)計(jì)很可能起了相當(dāng)大的作用,如果是這樣的話,目前的方法還沒(méi)有實(shí)現(xiàn)“AutoML”,仍然需要大量的人工。
為了研究生成器設(shè)計(jì)的重要性,僅比較相同NAS生成器的不同優(yōu)化器是不夠的;有必要研究新的網(wǎng)絡(luò)生成器,它們與NAS生成器有本質(zhì)的不同。
這就引出了我們對(duì)隨機(jī)連接神經(jīng)網(wǎng)絡(luò)的探索。也就是說(shuō),我們將定義網(wǎng)絡(luò)生成器,這些生成器生成具有隨機(jī)圖的網(wǎng)絡(luò),受不同的人類(lèi)特定先驗(yàn)影響。
我們?cè)谘芯恐惺褂昧巳齻€(gè)經(jīng)典的隨機(jī)圖模型(如上文所述)。生成隨機(jī)連接網(wǎng)絡(luò)的方法涉及以下概念:
生成通用的圖(general graphs)。
網(wǎng)絡(luò)生成器首先生成一個(gè)general graph,包含一組節(jié)點(diǎn)和連接節(jié)點(diǎn)的邊,而不受限于圖和神經(jīng)網(wǎng)絡(luò)的對(duì)應(yīng)關(guān)系。這允許我們自由地使用圖理論中的任意通用圖生成器(ER/BA/WS)。一旦生成一個(gè)圖,它就被映射到一個(gè)可計(jì)算的神經(jīng)網(wǎng)絡(luò)。
邊操作(Edge operations)。
假設(shè)生成的圖是有方向的,我們定義邊是數(shù)據(jù)流,即有向邊將數(shù)據(jù)(張量)從一個(gè)節(jié)點(diǎn)發(fā)送到另一個(gè)節(jié)點(diǎn)。
節(jié)點(diǎn)操作(Node operations)。
有向圖中的節(jié)點(diǎn)可以具有一些輸入邊和一些輸出邊。如圖2所示。
圖2:節(jié)點(diǎn)操作
輸入和輸出節(jié)點(diǎn)。
到目前為止,即使給定邊/節(jié)點(diǎn)操作,通用圖也不是一個(gè)有效的神經(jīng)網(wǎng)絡(luò),因?yàn)樗赡苡卸鄠€(gè)輸入節(jié)點(diǎn)和多個(gè)輸出節(jié)點(diǎn)。對(duì)于典型的神經(jīng)網(wǎng)絡(luò),如圖像分類(lèi),最好有一個(gè)單一的輸入和輸出。我們應(yīng)用了一個(gè)簡(jiǎn)單的后處理步驟。
階段(Stages)。
由于具有唯一的輸入和輸出節(jié)點(diǎn),一個(gè)圖就足以表示一個(gè)有效的神經(jīng)網(wǎng)絡(luò)。然而,特別是在圖像分類(lèi)中,始終保持完整輸入分辨率的網(wǎng)絡(luò)是不可取的。通常的方法是將網(wǎng)絡(luò)劃分為逐步向下采樣特征映射的階段。
表1:RandWire架構(gòu)
表1總結(jié)了我們實(shí)驗(yàn)中使用的隨機(jī)連接神經(jīng)網(wǎng)絡(luò),稱為RandWire。網(wǎng)絡(luò)以一個(gè)分類(lèi)器輸出結(jié)束(表1,最后一行)。
圖1顯示了三個(gè)隨機(jī)連接網(wǎng)絡(luò)樣本的完整計(jì)算圖。
實(shí)驗(yàn)和結(jié)果
我們對(duì)ImageNet 1000類(lèi)分類(lèi)任務(wù)進(jìn)行了實(shí)驗(yàn)。訓(xùn)練在~1.28M圖像的訓(xùn)練集上進(jìn)行,并在50K驗(yàn)證圖像上進(jìn)行測(cè)試。
實(shí)驗(yàn)結(jié)果如下:
隨機(jī)生成器
圖3
圖3比較了小型計(jì)算環(huán)境中不同生成器的結(jié)果:每個(gè)RandWire網(wǎng)絡(luò)有~580M FLOPs。
圖4
圖4顯示了每個(gè)生成器的一個(gè)示例圖。圖生成器由隨機(jī)圖模型(ER/BA/WS)及其參數(shù)集指定,如ER(0.2)。我們觀察到:
所有隨機(jī)生成器在所有5個(gè)隨機(jī)網(wǎng)絡(luò)實(shí)例上都提供良好的準(zhǔn)確度,而且它們沒(méi)有一個(gè)不收斂。
此外,隨機(jī)網(wǎng)絡(luò)實(shí)例之間的差異很小。圖3中的幾乎所有隨機(jī)生成器的標(biāo)準(zhǔn)偏差(std)都為0.2 ~ 0.4%。
Graph damage.
我們通過(guò)隨機(jī)移除一個(gè)節(jié)點(diǎn)或邊來(lái)探索Graph damage。
圖5
當(dāng)刪除邊時(shí),我們?cè)u(píng)估了精度損失與該邊的目標(biāo)節(jié)點(diǎn)的輸入程度(圖5,底部)。
節(jié)點(diǎn)操作
圖6
圖6顯示了圖3中列出的每個(gè)生成器的平均精度。
結(jié)果比較
小型計(jì)算設(shè)置
表2
表2比較了在較小計(jì)算條件下的結(jié)果,這是現(xiàn)有NAS論文中研究的一種常見(jiàn)設(shè)置
表3
表3比較了RandWire與ResNet和ResNeXt在與ResNet-50/101類(lèi)似的FLOPs的情況下的性能。RandWire的平均準(zhǔn)確率分別比ResNet50和ResNet-101高1.9%和1.3%,比ResNeXt高0.6%。
更大的計(jì)算條件
表4
表4比較了在更大計(jì)算條件下的結(jié)果
COCO對(duì)象檢測(cè)
最后,我們報(bào)告了通過(guò)微調(diào)網(wǎng)絡(luò)進(jìn)行COCO對(duì)象檢測(cè)的結(jié)果。我們使用Faster R-CNN和FPN作為目標(biāo)探測(cè)器。
表5
表5比較了對(duì)象檢測(cè)結(jié)果。觀察到的趨勢(shì)與表3中的ImageNet實(shí)驗(yàn)相似。這些結(jié)果表明,我們的隨機(jī)連接網(wǎng)絡(luò)學(xué)習(xí)到的特征也可以遷移。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4772瀏覽量
100824 -
NAS
+關(guān)注
關(guān)注
11文章
289瀏覽量
112497 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5504瀏覽量
121213
原文標(biāo)題:何愷明團(tuán)隊(duì)神經(jīng)結(jié)構(gòu)搜索最新力作:設(shè)計(jì)隨機(jī)連接網(wǎng)絡(luò),效果超ResNet
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論