讓我們首先考慮具有不常出現(xiàn)的特征的學(xué)習(xí)問(wèn)題。
12.7.1。稀疏特征和學(xué)習(xí)率
想象一下,我們正在訓(xùn)練一個(gè)語(yǔ)言模型。為了獲得良好的準(zhǔn)確性,我們通常希望在繼續(xù)訓(xùn)練時(shí)降低學(xué)習(xí)率,通常為O(t?12)或更慢。現(xiàn)在考慮在稀疏特征(即不常出現(xiàn)的特征)上進(jìn)行模型訓(xùn)練。這在自然語(yǔ)言中很常見(jiàn),例如,我們看到preconditioning一詞的可能性要小于learning 。然而,它在計(jì)算廣告和個(gè)性化協(xié)同過(guò)濾等其他領(lǐng)域也很常見(jiàn)。畢竟,有很多東西只是少數(shù)人感興趣的。
與不常見(jiàn)特征關(guān)聯(lián)的參數(shù)只有在這些特征出現(xiàn)時(shí)才會(huì)收到有意義的更新。如果學(xué)習(xí)率下降,我們可能會(huì)遇到這樣一種情況,即常見(jiàn)特征的參數(shù)會(huì)很快收斂到它們的最優(yōu)值,而對(duì)于不常見(jiàn)的特征,在確定它們的最優(yōu)值之前,我們?nèi)匀粵](méi)有足夠頻繁地觀察它們。換句話(huà)說(shuō),學(xué)習(xí)率要么對(duì)于頻繁出現(xiàn)的特征下降得太慢,要么對(duì)于不頻繁出現(xiàn)的特征下降得太快。
解決此問(wèn)題的一種可能的破解方法是計(jì)算我們看到特定功能的次數(shù),并將其用作調(diào)整學(xué)習(xí)率的時(shí)鐘。也就是說(shuō),而不是選擇形式的學(xué)習(xí)率η=η0t+c我們可以使用 ηi=η0s(i,t)+c. 這里s(i,t) 計(jì)算特征的非零數(shù)i我們觀察到時(shí)間t. 這實(shí)際上很容易實(shí)現(xiàn),而且沒(méi)有任何有意義的開(kāi)銷(xiāo)。然而,每當(dāng)我們不太具有稀疏性而只是梯度通常非常小且很少大的數(shù)據(jù)時(shí),它就會(huì)失敗。畢竟,尚不清楚人們會(huì)在哪里劃清是否符合觀察到的特征的界限。
Duchi等人的 Adagrad 。( 2011 )通過(guò)更換相當(dāng)粗糙的計(jì)數(shù)器來(lái)解決這個(gè)問(wèn)題s(i,t)通過(guò)先前觀察到的梯度的平方的集合。特別是,它使用 s(i,t+1)=s(i,t)+(?if(x))2作為調(diào)整學(xué)習(xí)率的手段。這有兩個(gè)好處:首先,我們不再需要決定梯度何時(shí)足夠大。其次,它會(huì)隨著梯度的大小自動(dòng)縮放。通常對(duì)應(yīng)于大梯度的坐標(biāo)會(huì)顯著縮小,而其他具有小梯度的坐標(biāo)會(huì)得到更溫和的處理。在實(shí)踐中,這導(dǎo)致了計(jì)算廣告和相關(guān)問(wèn)題的非常有效的優(yōu)化過(guò)程。但這隱藏了 Adagrad 固有的一些額外好處,這些好處最好在預(yù)處理的背景下理解。
12.7.2。預(yù)處理
凸優(yōu)化問(wèn)題有利于分析算法的特性。畢竟,對(duì)于大多數(shù)非凸問(wèn)題來(lái)說(shuō),很難得出有意義的理論保證,但直覺(jué)和洞察力 往往會(huì)起作用。讓我們看看最小化問(wèn)題 f(x)=12x?Qx+c?x+b.
正如我們?cè)?/font>12.6 節(jié)中看到的,可以根據(jù)其特征分解來(lái)重寫(xiě)這個(gè)問(wèn)題 Q=U?ΛU得出一個(gè)大大簡(jiǎn)化的問(wèn)題,其中每個(gè)坐標(biāo)都可以單獨(dú)求解:
這里我們使用了xˉ=Ux因此cˉ=Uc. 修改后的問(wèn)題具有最小值 xˉ=?Λ?1cˉ 和最小值 ?12cˉ?Λ?1cˉ+b. 這更容易計(jì)算,因?yàn)?/font>Λ是包含特征值的對(duì)角矩陣Q.
如果我們擾亂cslightly 我們希望在最小化器中找到微小的變化f. 不幸的是,這種情況并非如此。雖然略有變化c導(dǎo)致同樣輕微的變化cˉ
評(píng)論
查看更多