在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

最基礎的半監督學習

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:Neeraj varshney ? 2020-11-02 16:08 ? 次閱讀

導讀

最基礎的半監督學習的概念,給大家一個感性的認識。

半監督學習(SSL)是一種機器學習技術,其中任務是從一個小的帶標簽的數據集和相對較大的未帶標簽的數據中學習得到的。SSL的目標是要比單獨使用有標記數據訓練的監督學習技術得到更好的結果。這是半監督學習系列文章的第1部分,對這個機器學習的重要子領域進行了簡要的介紹。

區分半監督學習,監督學習和無監督學習

整個數據集中可用于訓練的有標記數據的范圍區分了機器學習的這三個相關領域。

監督學習是機器學習中最流行的模式,在這種模式中,可以通過標簽的形式獲得完整的監督。整個數據集都有標記,即一個標簽與訓練數據集中的每個樣本相關聯。機器學習模型使用這個標簽數據集訓練,并期望對新的樣本預測一個標簽。監督學習主要包括兩類任務:分類和回歸。分類問題要求算法預測一個離散值,而回歸任務是需要從輸入變量(X)逼近一個映射函數(f)到連續輸出變量(y)。

手寫數字識別使用(MNIST)數據集。每個樣本都有一個圖像和對應的數字作為標簽。任務是學習從圖像中預測標簽(即數字)。

另一個例子是情感分類,使用IMDB數據集。每條記錄都包含一個評論和一個相應的標簽(正面的或負面的)。這里的任務是預測給定評論的情緒。

房價預測是一個回歸任務,其中標簽(房價)是一個連續變量。

在無監督學習中,沒有標記數據可用。訓練數據集包含樣本,但沒有特定的期望結果或標簽。機器學習模型試圖通過提取有用的特征并對其進行分析來自動地在數據中找到結構。像聚類、異常檢測、關聯等任務屬于無監督學習。

聚類是將數據集劃分為多個簇,使同一簇中的數據點與同一簇中的其他數據點更相似,與其他簇中的數據點不相似。例如,下圖(左)中的數據點可以分成3個簇,如圖(右)所示。注意,簇可以是任何形狀。

半監督式學習(SSL),正如其名稱所示,介于兩個極端之間(監督式是指整個數據集被標記,而非監督式是指沒有標記)。半監督學習任務具有一個標記和一個未標記的數據集。它使用未標記的數據來獲得對數據結構的更多理解。通常,SSL使用小的帶標簽數據集和較大的未帶標簽數據集來進行學習。

我們的目標是學習一個預測器來預測未來的測試數據,這個預測器比單獨從有標記的訓練數據中學習的預測器更好。

監督學習,半監督學習,無監督學習在標記數據上的差別可視化

為什么要關注半監督學習

在許多實際應用中,收集大的有標簽數據集太昂貴或者不可行,但是有大量的無標簽數據可用。對于這種情況,半監督學習是一個完美的方案。SSL技術可以利用帶標簽的數據,也可以從未帶標簽的數據派生結構,從而更好地解決總體任務。

典型的監督學習算法在標記數據集較小的情況下,容易出現過擬合問題。SSL通過在訓練過程中理解未標記數據的結構來緩解這個問題。

此外,這種學習技術減輕了構建大量標記數據集來學習任務的負擔。SSL方法更接近我們人類的學習方式。

讓我們舉個例子來直觀地看看半監督學習的效果。在下面的圖中,當只對標記數據(大的黑點和白點)進行訓練(即對標記數據進行監督學習)時,決策邊界(虛線)并不遵循數據“流形”的輪廓,這可以由額外的未標記數據(小灰點)來表示。

因此,SSL的目標是利用未標記數據來生成決策邊界,從而更好地反映數據的底層結構。

由不同的半監督學習方法生成的決策邊界

半監督學習的任務舉例

CIFAR-10— 它是由10個類的32×32像素的RGB圖像組成的數據集,任務是圖像分類。通常使用Tiny Images數據集中的隨機圖像來形成未標記數據集。

SVHN— 街景門牌號數據集由真實門牌號的32×32像素的RGB圖像組成,任務是分類最中間的數字。它附帶一個“SVHN-extra”數據集,該數據集由531,131個額外的數字圖像組成,可以用作未標記數據。

Text-Classification Tasks— 亞馬遜評論數據庫,Yelp評論數據集。

總結

半監督學習是一種有趣的方法,用于解決機器學習中缺乏標記數據的問題。SSL算法還利用未標記數據來提高監督學習算法的性能。SSL算法通常提供了一種從無標簽示例中了解數據結構的方法,減輕了對標簽的需求。

本系列的第2部分會介紹了一些具體的SSL技術,未完待續。

責任編輯:xj

原文標題:半監督學習入門基礎(一)

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SSL
    SSL
    +關注

    關注

    0

    文章

    125

    瀏覽量

    25740
  • 半監督
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6326
  • 機器學習
    +關注

    關注

    66

    文章

    8418

    瀏覽量

    132635
  • 深度學習
    +關注

    關注

    73

    文章

    5503

    瀏覽量

    121162

原文標題:半監督學習入門基礎(一)

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列無監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?255次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自監督學習策略,在大量無標簽文本數據上學習
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習、無監督學習監督學習、自監督學習和強化
    發表于 07-25 14:33

    神經網絡如何用無監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模式或規律,從而提取有用的特征表示。這種訓練方式對于大規模未
    的頭像 發表于 07-09 18:06 ?801次閱讀

    深度學習中的無監督學習方法綜述

    應用中往往難以實現。因此,無監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監督學習方法,包括自編碼器、生成對抗網絡、聚類算法等,并分析它們的原理、應用場景以及優
    的頭像 發表于 07-09 10:50 ?732次閱讀

    前饋神經網絡的基本結構和常見激活函數

    和激活函數的非線性變換,能夠學習和模擬復雜的函數映射,從而解決各種監督學習任務。本文將詳細闡述前饋神經網絡的基本結構,包括其組成層、權重和偏置、激活函數等,并介紹幾種常見的激活函數及其特性。
    的頭像 發表于 07-09 10:31 ?813次閱讀

    基于FPGA的類腦計算平臺 —PYNQ 集群的無監督圖像識別類腦計算系統

    STDP 無監督學習算法,可運用于圖像的 無監督分類。 從平臺設計角度: (1)本設計搭建的基于 PYNQ 集群的通用低功耗的大規模類腦計算平臺,搭載 PYNN,NEST 等通用 SNN
    發表于 06-25 18:35

    CVPR&apos;24 Highlight!跟蹤3D空間中的一切!

    為了使用三維運動先驗正則化估計的三維軌跡,模型另外預測了每條軌跡的剛性嵌入,這使能夠軟地分組表現出相同剛性體運動的像素,并為每個剛性集群強制執行ARAP正則化。作者證明了剛性嵌入可以通過自監督學習,并產生不同剛性部分的合理分割。
    的頭像 發表于 04-13 12:12 ?1255次閱讀
    CVPR&apos;24 Highlight!跟蹤3D空間中的一切!

    機器學習基礎知識全攻略

    監督學習通常是利用帶有專家標注的標簽的訓練數據,學習一個從輸入變量X到輸入變量Y的函數映射。Y = f (X),訓練數據通常是(n×x,y)的形式,其中n代表訓練樣本的大小,x和y分別是變量X和Y的樣本值。
    發表于 02-25 13:53 ?244次閱讀
    機器<b class='flag-5'>學習</b>基礎知識全攻略

    OpenAI推出Sora:AI領域的革命性突破

    大模型的核心技術是自然語言處理(NLP)和深度學習。具體而言,它基于Transformer架構,使用了大規模無監督學習方法,例如自回歸語言建模和掩碼語言建模,來訓練一個龐大的神經網絡模型。
    發表于 02-21 16:36 ?1021次閱讀
    OpenAI推出Sora:AI領域的革命性突破

    控和全控電路的特點 二極管是控型器件嗎

    控和全控電路的特點 二極管是控型器件嗎? 控和全控電路的特點: 控電路是指電路中的電子元件(如晶閘管或場效應管)僅僅對電流的一部分進行控制,而不對電流的全部進行控制。它具有以下
    的頭像 發表于 02-19 15:42 ?1930次閱讀

    Meta發布新型無監督視頻預測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無監督視頻預測模型,名為“V-JEPA”。這一模型在視頻處理領域引起了廣泛關注,因為它通過抽象性預測生成視頻中缺失或模糊的部分來進行學習,提供了一種全新的視頻處理方法。
    的頭像 發表于 02-19 11:19 ?1021次閱讀

    描繪未知:數據缺乏場景的缺陷檢測方案

    Neuro-T 視覺平臺 克服了數據缺乏狀況的困難,通過零代碼設置 GAN模型 和 無監督學習模型 ,輕松實現缺陷圖像的標注、繪制和導出。 工業應用中存在較多的缺陷檢測需求。針對缺陷檢測需求,常見的解決方案有兩種: 基于目標正常圖像數據的模板匹配; 訓練深度學習
    的頭像 發表于 01-25 10:46 ?573次閱讀
    描繪未知:數據缺乏場景的缺陷檢測方案

    2024年AI領域將會有哪些新突破呢?

    傳統的機器學習需要大量的標記數據進行訓練,但自監督學習可以通過無監督的方式從大規模未標記的數據中學習到更有用的表示形式,從而提高模型的性能。
    的頭像 發表于 01-24 09:58 ?2013次閱讀

    谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途

    另一個極端是,監督學習方法(即SupCE)會將所有這些圖像視為單一類(如「金毛獵犬」)。這就忽略了這些圖像在語義上的細微差別,例如在一對圖像中狗在騎自行車,而在另一對圖像中狗坐在壽司屋內。
    的頭像 發表于 01-15 15:40 ?544次閱讀
    谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途
    主站蜘蛛池模板: 久久精品国产免费看久久精品| 综合五月激情| 中文字幕一区二区三区视频在线| 亚洲五月婷婷| 猫色网站| 久久久久九九精品影院| 精品国产成人三级在线观看| 欧美猛妇色xxxxxbbbb| 亚洲国产成人成上人色| 四虎永久免费地址| 广东毛片| 人人澡人人澡人人看青草| 性色小视频| 鲁一鲁色一色| 久操视频免费看| 伊人精品久久久大香线蕉99| 色综合综合色综合色综合| 电影天堂在线观看三级| 1024免费永久福利视频| 四虎884| 久久手机视频| 国产午夜精品福利| 亚色成人| 永久免费在线播放| 日本不卡一区二区三区视频| 免费日本网站| 国产精品久久久福利| 午夜伦伦| 窝窝午夜视频| 国产成人综合日韩精品婷婷九月| 狠狠色噜狠狠狠狠色综合久| 综合啪啪| 欧美日韩亚洲国产| 国产网红主播精品福利大秀专区| 亚州国产精品精华液| 午夜小视频免费观看| 91久久麻豆| av2014天堂网| 啪啪网站视频| 男人天堂伊人网| 成年美女黄网站色大免费视频|