目前深度學(xué)習(xí)的應(yīng)用較為廣泛,尤其是各種開源庫的使用,導(dǎo)致很多從業(yè)人員只注重應(yīng)用的開發(fā),卻往往忽略了對理論的深究與理解。普林斯頓大學(xué)教授Sanjeev Arora近期公開的77頁P(yáng)PT,言簡意賅、深入淺出的介紹了深度學(xué)習(xí)的理論——用理論的力量橫掃深度學(xué)習(xí)?。ㄎ哪└絇PT下載地址)
深度學(xué)習(xí)歷史
學(xué)習(xí)任何一門知識(shí)都應(yīng)該先從其歷史開始,把握了歷史,也就抓住了現(xiàn)在與未來?!狟ryanLJ
由圖可以簡單看出深度學(xué)習(xí)的發(fā)展歷史,在經(jīng)歷了單調(diào)、不足與完善后,發(fā)展到了如今“動(dòng)輒DL”的態(tài)勢。
定義與基本概念
神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)圖:
定義:
θ:深度網(wǎng)絡(luò)的參數(shù)
訓(xùn)練集:(x1, y1),(x2, y2),…,(xn, yn)
損失函數(shù)ζ(θ,x,y):表示網(wǎng)絡(luò)的輸出與點(diǎn)x對應(yīng)的y的匹配度
目標(biāo): argminθEi[ζ(θ,x1, y1)]
梯度下降:
結(jié)合GPUs、大型數(shù)據(jù)集,優(yōu)化概念已經(jīng)塑造了深度學(xué)習(xí):
反向傳播:用線性時(shí)間算法來計(jì)算梯度;
隨機(jī)梯度下降:通過訓(xùn)練集的小樣本評(píng)估
梯度、解空間推動(dòng)形成了殘差網(wǎng)絡(luò)(resnet)、WaveNet及Batch-Normalization等;
理論的目標(biāo):通過整理定理,得出新的見解和概念。
深度學(xué)習(xí)中的優(yōu)化
困難:深度學(xué)習(xí)中大多數(shù)優(yōu)化問題是非凸(non-convex)的,最壞的情況是NP難問題(NP-hard)。
維數(shù)災(zāi)難:指在涉及到向量的計(jì)算的問題中,隨著維數(shù)的增加,計(jì)算量呈指數(shù)倍增長的一種現(xiàn)象
深度學(xué)習(xí)“黑盒”分析:
原因:
1、無法確定解空間;
2、沒有明確的(xi, yi)數(shù)學(xué)描述;
所以,求全局最優(yōu)解是不可行的。
未知解空間中的控制梯度下降:
?≠0→?下降方向,但如果二階導(dǎo)數(shù)比較高,允許波動(dòng)很大。為了確保下降,采用由平滑程度(可由高斯平滑?f來定義)決定的小步驟。
平滑:
要求:滿足且與成正比。
非“黑盒”分析:
很多機(jī)器學(xué)習(xí)問題是深度為2的子案例,例如,輸入層和輸出層之間的一個(gè)隱含層。通常假設(shè)網(wǎng)絡(luò)的結(jié)構(gòu)、數(shù)據(jù)分布,等等。比起GD/SGD,可以使用不同算法,例如張量分解、最小化交替以及凸優(yōu)化等等。
過度參數(shù)化(over-parametrization)和泛化(generalization)理論
教科書中說:大型模型會(huì)導(dǎo)致過擬合
很多人認(rèn)為:SGD +正則化消除了網(wǎng)絡(luò)的“過剩容量”(excess capacity),但是過剩容量依舊還是存在的,如下圖所示:
事實(shí)上,在線性模型中也存在同樣的問題。
泛化理論:
測試損失(Test Loss)-訓(xùn)練損失(Training Loss)≤
其中,N是“有效能力”。
“真實(shí)容量”(true capacity)的非空估計(jì)被證明是難以捉摸的:
“真實(shí)參數(shù)”(true parameters)的非空邊界被證明是難以捉摸的:
深度網(wǎng)絡(luò)噪聲穩(wěn)定性(可以視作深度網(wǎng)絡(luò)的邊緣概念):
噪聲注入:為一個(gè)層的輸出x添加高斯η。
測量更高層次的變化,若變化是小的,那么網(wǎng)絡(luò)就是噪聲穩(wěn)定的。
VGG19的噪聲穩(wěn)定性:
當(dāng)高斯粒子經(jīng)過更高層時(shí)的衰減過程
與泛化相關(guān)定性實(shí)驗(yàn):
墊層(layer cushion)在正常數(shù)據(jù)上的訓(xùn)練要比在損壞數(shù)據(jù)上的訓(xùn)練高得多
在正常數(shù)據(jù)訓(xùn)練過程中的進(jìn)化
“深度”的作用
深度的作用是什么?
理想的結(jié)果是:當(dāng)遇到自然學(xué)習(xí)問題時(shí),不能用深度d來完成,但可以用深度d+1來完成。但是目前,由于理論依據(jù)不足,缺乏“自然”學(xué)習(xí)問題的數(shù)學(xué)形式化,還無法達(dá)到理想的結(jié)果。
深度的增加對深度學(xué)習(xí)是有益還是有害的?
支持:會(huì)出現(xiàn)更好的表現(xiàn)(正如上面實(shí)驗(yàn)結(jié)果所示);
反對:使優(yōu)化更加困難(梯度消失(vanishing gradient)、梯度爆炸(exploding gradient),除非像殘差網(wǎng)絡(luò)這樣的特殊架構(gòu))。
生成模型與生成對抗網(wǎng)絡(luò)(GAN)理論
無監(jiān)督學(xué)習(xí):“流行假設(shè)”(Mainfold Assumption):
學(xué)習(xí)概率密度p(X|Z)的典型模型
其中,X是圖像,Z是流行上的編碼。目的是使用大量未標(biāo)簽的數(shù)據(jù)集來學(xué)習(xí)圖像→編碼匹配(code mapping)。
深度生成模型(deep generative model)
隱含假設(shè): Dreal是由合理大小的深度網(wǎng)絡(luò)生成的。
生成對抗網(wǎng)絡(luò)(GANs)
動(dòng)機(jī):
(1)標(biāo)準(zhǔn)對數(shù)似然函數(shù)值(log-likelihood)目標(biāo)傾向于輸出模糊圖像。
(2)利用深度學(xué)習(xí)的力量(即鑒別器網(wǎng)絡(luò),discriminator net)來改進(jìn)生成模型,而不是對數(shù)似然函數(shù)。
u:生成網(wǎng)絡(luò)可訓(xùn)練參數(shù)
v:鑒別器網(wǎng)絡(luò)可訓(xùn)練參數(shù)
鑒別器在訓(xùn)練后,真實(shí)輸入為1,合成輸入為0。
生成器訓(xùn)練來產(chǎn)生合成輸出,使得鑒別器輸出值較高。
GANs噩夢:模式崩潰(mode collapse)
因?yàn)殍b別器只能從少數(shù)樣本中學(xué)習(xí),所以它可能無法教會(huì)生成器產(chǎn)生足夠大的多樣性分布。
評(píng)估來自著名GANs的支持大小(support size)
CelaA:200k訓(xùn)練圖像
DC-GAN:重復(fù)500個(gè)樣本,500x500 =250K
BiGAN和所有支持大小,1000x1000 =1M
(結(jié)果與CIFAR10相似)
深度學(xué)習(xí)—自由文本嵌入
無監(jiān)督學(xué)習(xí)文字嵌入經(jīng)典流程
常用方法:復(fù)發(fā)性神經(jīng)網(wǎng)絡(luò)或LSTM等
手工業(yè)(cottage industry)的文本嵌入是線性的:
最簡單的:構(gòu)成詞(constituent word)的詞嵌入求和
加權(quán)求和:通過適應(yīng)段落數(shù)據(jù)集來學(xué)習(xí)權(quán)重
性能(相似性、蘊(yùn)涵任務(wù)):
較先進(jìn)的句子嵌入方法與下游分類(downstream classification)任務(wù)的比較:
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4777瀏覽量
100960 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132845 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121345
原文標(biāo)題:普林斯頓大學(xué)教授:用理論的力量橫掃深度學(xué)習(xí)(77PPT)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論