導(dǎo)讀
最基礎(chǔ)的半監(jiān)督學(xué)習(xí)的概念,給大家一個(gè)感性的認(rèn)識(shí)。
半監(jiān)督學(xué)習(xí)(SSL)是一種機(jī)器學(xué)習(xí)技術(shù),其中任務(wù)是從一個(gè)小的帶標(biāo)簽的數(shù)據(jù)集和相對(duì)較大的未帶標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)得到的。SSL的目標(biāo)是要比單獨(dú)使用有標(biāo)記數(shù)據(jù)訓(xùn)練的監(jiān)督學(xué)習(xí)技術(shù)得到更好的結(jié)果。這是半監(jiān)督學(xué)習(xí)系列文章的第1部分,對(duì)這個(gè)機(jī)器學(xué)習(xí)的重要子領(lǐng)域進(jìn)行了簡(jiǎn)要的介紹。
區(qū)分半監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)
整個(gè)數(shù)據(jù)集中可用于訓(xùn)練的有標(biāo)記數(shù)據(jù)的范圍區(qū)分了機(jī)器學(xué)習(xí)的這三個(gè)相關(guān)領(lǐng)域。
監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最流行的模式,在這種模式中,可以通過(guò)標(biāo)簽的形式獲得完整的監(jiān)督。整個(gè)數(shù)據(jù)集都有標(biāo)記,即一個(gè)標(biāo)簽與訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本相關(guān)聯(lián)。機(jī)器學(xué)習(xí)模型使用這個(gè)標(biāo)簽數(shù)據(jù)集訓(xùn)練,并期望對(duì)新的樣本預(yù)測(cè)一個(gè)標(biāo)簽。監(jiān)督學(xué)習(xí)主要包括兩類(lèi)任務(wù):分類(lèi)和回歸。分類(lèi)問(wèn)題要求算法預(yù)測(cè)一個(gè)離散值,而回歸任務(wù)是需要從輸入變量(X)逼近一個(gè)映射函數(shù)(f)到連續(xù)輸出變量(y)。
手寫(xiě)數(shù)字識(shí)別使用(MNIST)數(shù)據(jù)集。每個(gè)樣本都有一個(gè)圖像和對(duì)應(yīng)的數(shù)字作為標(biāo)簽。任務(wù)是學(xué)習(xí)從圖像中預(yù)測(cè)標(biāo)簽(即數(shù)字)。
另一個(gè)例子是情感分類(lèi),使用IMDB數(shù)據(jù)集。每條記錄都包含一個(gè)評(píng)論和一個(gè)相應(yīng)的標(biāo)簽(正面的或負(fù)面的)。這里的任務(wù)是預(yù)測(cè)給定評(píng)論的情緒。
房?jī)r(jià)預(yù)測(cè)是一個(gè)回歸任務(wù),其中標(biāo)簽(房?jī)r(jià))是一個(gè)連續(xù)變量。
在無(wú)監(jiān)督學(xué)習(xí)中,沒(méi)有標(biāo)記數(shù)據(jù)可用。訓(xùn)練數(shù)據(jù)集包含樣本,但沒(méi)有特定的期望結(jié)果或標(biāo)簽。機(jī)器學(xué)習(xí)模型試圖通過(guò)提取有用的特征并對(duì)其進(jìn)行分析來(lái)自動(dòng)地在數(shù)據(jù)中找到結(jié)構(gòu)。像聚類(lèi)、異常檢測(cè)、關(guān)聯(lián)等任務(wù)屬于無(wú)監(jiān)督學(xué)習(xí)。
聚類(lèi)是將數(shù)據(jù)集劃分為多個(gè)簇,使同一簇中的數(shù)據(jù)點(diǎn)與同一簇中的其他數(shù)據(jù)點(diǎn)更相似,與其他簇中的數(shù)據(jù)點(diǎn)不相似。例如,下圖(左)中的數(shù)據(jù)點(diǎn)可以分成3個(gè)簇,如圖(右)所示。注意,簇可以是任何形狀。
半監(jiān)督式學(xué)習(xí)(SSL),正如其名稱(chēng)所示,介于兩個(gè)極端之間(監(jiān)督式是指整個(gè)數(shù)據(jù)集被標(biāo)記,而非監(jiān)督式是指沒(méi)有標(biāo)記)。半監(jiān)督學(xué)習(xí)任務(wù)具有一個(gè)標(biāo)記和一個(gè)未標(biāo)記的數(shù)據(jù)集。它使用未標(biāo)記的數(shù)據(jù)來(lái)獲得對(duì)數(shù)據(jù)結(jié)構(gòu)的更多理解。通常,SSL使用小的帶標(biāo)簽數(shù)據(jù)集和較大的未帶標(biāo)簽數(shù)據(jù)集來(lái)進(jìn)行學(xué)習(xí)。
我們的目標(biāo)是學(xué)習(xí)一個(gè)預(yù)測(cè)器來(lái)預(yù)測(cè)未來(lái)的測(cè)試數(shù)據(jù),這個(gè)預(yù)測(cè)器比單獨(dú)從有標(biāo)記的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的預(yù)測(cè)器更好。
監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)在標(biāo)記數(shù)據(jù)上的差別可視化
為什么要關(guān)注半監(jiān)督學(xué)習(xí)
在許多實(shí)際應(yīng)用中,收集大的有標(biāo)簽數(shù)據(jù)集太昂貴或者不可行,但是有大量的無(wú)標(biāo)簽數(shù)據(jù)可用。對(duì)于這種情況,半監(jiān)督學(xué)習(xí)是一個(gè)完美的方案。SSL技術(shù)可以利用帶標(biāo)簽的數(shù)據(jù),也可以從未帶標(biāo)簽的數(shù)據(jù)派生結(jié)構(gòu),從而更好地解決總體任務(wù)。
典型的監(jiān)督學(xué)習(xí)算法在標(biāo)記數(shù)據(jù)集較小的情況下,容易出現(xiàn)過(guò)擬合問(wèn)題。SSL通過(guò)在訓(xùn)練過(guò)程中理解未標(biāo)記數(shù)據(jù)的結(jié)構(gòu)來(lái)緩解這個(gè)問(wèn)題。
此外,這種學(xué)習(xí)技術(shù)減輕了構(gòu)建大量標(biāo)記數(shù)據(jù)集來(lái)學(xué)習(xí)任務(wù)的負(fù)擔(dān)。SSL方法更接近我們?nèi)祟?lèi)的學(xué)習(xí)方式。
讓我們舉個(gè)例子來(lái)直觀地看看半監(jiān)督學(xué)習(xí)的效果。在下面的圖中,當(dāng)只對(duì)標(biāo)記數(shù)據(jù)(大的黑點(diǎn)和白點(diǎn))進(jìn)行訓(xùn)練(即對(duì)標(biāo)記數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí))時(shí),決策邊界(虛線)并不遵循數(shù)據(jù)“流形”的輪廓,這可以由額外的未標(biāo)記數(shù)據(jù)(小灰點(diǎn))來(lái)表示。
因此,SSL的目標(biāo)是利用未標(biāo)記數(shù)據(jù)來(lái)生成決策邊界,從而更好地反映數(shù)據(jù)的底層結(jié)構(gòu)。
由不同的半監(jiān)督學(xué)習(xí)方法生成的決策邊界
半監(jiān)督學(xué)習(xí)的任務(wù)舉例
CIFAR-10— 它是由10個(gè)類(lèi)的32×32像素的RGB圖像組成的數(shù)據(jù)集,任務(wù)是圖像分類(lèi)。通常使用Tiny Images數(shù)據(jù)集中的隨機(jī)圖像來(lái)形成未標(biāo)記數(shù)據(jù)集。
SVHN— 街景門(mén)牌號(hào)數(shù)據(jù)集由真實(shí)門(mén)牌號(hào)的32×32像素的RGB圖像組成,任務(wù)是分類(lèi)最中間的數(shù)字。它附帶一個(gè)“SVHN-extra”數(shù)據(jù)集,該數(shù)據(jù)集由531,131個(gè)額外的數(shù)字圖像組成,可以用作未標(biāo)記數(shù)據(jù)。
Text-Classification Tasks— 亞馬遜評(píng)論數(shù)據(jù)庫(kù),Yelp評(píng)論數(shù)據(jù)集。
總結(jié)
半監(jiān)督學(xué)習(xí)是一種有趣的方法,用于解決機(jī)器學(xué)習(xí)中缺乏標(biāo)記數(shù)據(jù)的問(wèn)題。SSL算法還利用未標(biāo)記數(shù)據(jù)來(lái)提高監(jiān)督學(xué)習(xí)算法的性能。SSL算法通常提供了一種從無(wú)標(biāo)簽示例中了解數(shù)據(jù)結(jié)構(gòu)的方法,減輕了對(duì)標(biāo)簽的需求。
本系列的第2部分會(huì)介紹了一些具體的SSL技術(shù),未完待續(xù)。
責(zé)任編輯:xj
原文標(biāo)題:半監(jiān)督學(xué)習(xí)入門(mén)基礎(chǔ)(一)
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
SSL
+關(guān)注
關(guān)注
0文章
129瀏覽量
25986 -
半監(jiān)督
+關(guān)注
關(guān)注
0文章
5瀏覽量
6377 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8479瀏覽量
133820 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5547瀏覽量
122292
原文標(biāo)題:半監(jiān)督學(xué)習(xí)入門(mén)基礎(chǔ)(一)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
半橋LLC諧振電路的工作原理與模態(tài)分析

時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

曙光公司成都云中心助力提升監(jiān)督質(zhì)效
半加器和全加器的功能特點(diǎn)
哈爾濱工業(yè)大學(xué)在超分辨顯微成像技術(shù)領(lǐng)域取得突破性進(jìn)展

電容半補(bǔ)償和全補(bǔ)償?shù)膮^(qū)別

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)
【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇
旗晟機(jī)器人人員行為監(jiān)督AI智慧算法

三位半和四位半萬(wàn)用表的區(qū)別
神經(jīng)網(wǎng)絡(luò)如何用無(wú)監(jiān)督算法訓(xùn)練
深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述
前饋神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和常見(jiàn)激活函數(shù)
基于FPGA的類(lèi)腦計(jì)算平臺(tái) —PYNQ 集群的無(wú)監(jiān)督圖像識(shí)別類(lèi)腦計(jì)算系統(tǒng)
無(wú)監(jiān)督深度學(xué)習(xí)實(shí)現(xiàn)單次非相干全息3D成像

評(píng)論