在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于k近鄰與高斯噪聲的虛擬困難樣本增強方法

深度學習自然語言處理 ? 來源:YeungNLP ? 作者:荷風微擺 ? 2022-05-12 11:31 ? 次閱讀

在本文中,我們將介紹亞馬遜團隊在ACL2022中的一篇論文VaSCL,該論文在SimCSE的基礎上,提出了一種基于k近鄰與高斯噪聲的虛擬困難樣本增強方法。作者在無監督訓練中,進行困難樣本增強,從而提高了模型的性能,并且超過了SimCSE。

6338e638-d19e-11ec-bce3-dac502259ad0.png

論文標題:

Virtual Augmentation Supported Contrastive Learning of Sentence Representations

論文鏈接:

https://arxiv.org/abs/2110.08552

01

引言

在ACL2021中,陳丹琦團隊提出了使用Dropout進行正樣本增強的對比學習方法SimCSE,該方法操作簡單卻十分有效,在無監督對比學習中取得了非常好的效果。在有監督SimCSE中,作者對困難負樣本的作用進行了探究實驗,實驗結果證明,引入困難負樣本后,有監督SimCSE的指標從84.9提升至86.2。這說明,在對比學習中,引入困難樣本是能夠提升模型效果的。

然而在無監督SimCSE中,作者僅使用dropout的方式進行了正樣本增強,沒有額外引入困難樣本,這在一定程度上限制了模型的能力。基于這個動機,亞馬遜提出了一種基于k近鄰與高斯噪聲的虛擬困難樣本增強的無監督對比學習方法VaSCL。

02

論文解讀

基于Dropout的對比損失

在介紹VaSCL模型之前,我們先簡單回顧一下無監督SimCSE。假設訓練時的batch size為N,將一個batch的數據記作,將同一個樣本分別輸入模型中兩次,使用不同的dropout mask編碼得到兩個向量和。則在規模為N的batch中,與的InfoNCE損失為:

基于k近鄰的虛擬增強對比損失

在無監督SimCSE的損失函數的基礎上,作者還設計了一種基于k近鄰的虛擬困難樣本增強的損失函數。

將通過模型編碼之后得到向量序列。

作者通過以下方式獲得第i個句向量的虛擬困難樣本:

正樣本增強:對添加高斯噪聲,得到,其中就是經過高斯增強后的正樣本。

獲得k近鄰:獲得在中距離最近的k個負樣本,在本文中我們稱之為k近鄰,記作。

對于來說,是正樣本,是負樣本集合。則對于,k近鄰虛擬增強的對比損失如下。分子表示拉近與的距離,分母表示拉遠與負樣本之間的距離。

在CV中,我們會為輸入的圖片添加高斯噪聲以增加模型的泛化性。添加了高斯噪聲的圖片,肉眼能看出微小的區別,但不會影響整張圖片的語義信息。所以為句向量添加合適的高斯噪聲,理論上也不會對句向量的語義信息產生很大的改變。

在的k近鄰中,存放的是距離最近的k個負樣本,也就是與最相似的k個負樣本。只要batch size足夠大,我們可以近似認為,就是的困難負樣本集合,同樣也是的困難負樣本集合。

如何獲得上述的高斯噪聲呢?最容易想到的做法便是隨機生成一個高斯噪聲,直接添加到句向量中。但是為了提高模型的訓練難度,生成更高質量的高斯噪聲,作者生成若干個候選高斯噪聲,然后選出一個使得最大化的高斯噪聲。

從上述操作可以看出,對于最優的高斯噪聲,作者希望它增強后的正樣本與的距離盡可能遠,與負樣本的距離盡可能近,作者希望這個高斯噪聲能夠對模型產生盡可能大的迷惑性。通過這個高斯噪聲,我們就可以得到困難正樣本,并且從某種意義來說,也使得與的距離盡可能拉近,達到了增強負樣本難度的目的,做法確實挺巧妙。

VaSCL對比損失

63676d46-d19e-11ec-bce3-dac502259ad0.png

將上述兩種對比損失進行組合,得到最終的VaSCL損失函數:

這個損失函數的含義如下:

對于每個句子,拉近同一個句子經過dropout之后的兩個句向量之間的距離,拉遠它們與其他句子的距離。

對于每個句子,拉近原句向量與高斯噪聲增強之后的句向量的距離,拉遠它們與k近鄰負樣本之間的距離。

03

實驗結果

作者分別在STS任務、短文本聚類、意圖識別等任務中進行了實驗,實驗結果如下表所示。可以看到,在三種任務中,絕大部分數據集上,VaSCL的表現都要優于SimCSE,這表明了基于k近鄰與高斯噪聲的困難樣本增強的有效性。

6385a8ce-d19e-11ec-bce3-dac502259ad0.png

63c1165c-d19e-11ec-bce3-dac502259ad0.png

63d37914-d19e-11ec-bce3-dac502259ad0.png

04

總結

SimCSE通過dropout mask這種簡單的方法,避免了人工進行正樣本增強所帶來的語義改變的問題,并且在無監督訓練中取得了不錯的效果。而VaSCL論文延續了SimCSE這種思想,引入了高斯噪聲進行正樣本增強,有著異曲同工之妙。

VaSCL在SimCSE的基礎上,也進行了困難樣本的增強。在進行高斯噪聲增強時,使得增強的樣本與原始樣本盡可能不相似,與負樣本盡可能相似,已達到【混淆視聽】的效果。通過這種方式,VaSCL在絕大多數據集上的表現,也超過了SimCSE。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 噪聲
    +關注

    關注

    13

    文章

    1122

    瀏覽量

    47438
  • 函數
    +關注

    關注

    3

    文章

    4338

    瀏覽量

    62738
  • 模型
    +關注

    關注

    1

    文章

    3261

    瀏覽量

    48914

原文標題:ACL'22 | VaSCL:基于k近鄰與高斯噪聲的困難樣本增強的對比學習方法,超越SimCSE

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    圖像高斯濾波的原理及FPGA實現思路

    (Gaussian Blur),是一種高斯低通濾波。通常這個算法也可以用來模糊圖像,提供模糊濾鏡。也可以用來過濾自然界的高斯噪聲高斯分布(正態分布)是一個常見的連續概率分布,正態
    的頭像 發表于 12-07 09:12 ?358次閱讀
    圖像<b class='flag-5'>高斯</b>濾波的原理及FPGA實現思路

    用RM3100是否可以做高斯計?

    電壓差。高斯計通過霍爾探頭感應磁場,產生霍爾電壓,再依據霍爾電壓公式和已知的霍爾系數來確定磁感應強度的大小。這種測量方法簡單、快速且準確,被廣泛應用于科研、工業生產
    的頭像 發表于 11-02 08:10 ?253次閱讀
    用RM3100是否可以做<b class='flag-5'>高斯</b>計?

    高斯濾波和均值濾波的區別

    高斯濾波和均值濾波在圖像處理中都是常用的平滑濾波方法,但它們之間存在一些關鍵的區別。以下是兩者之間的主要區別: 1. 濾波原理 高斯濾波 : 是一種線性平滑濾波,它使用高斯函數來計算卷
    的頭像 發表于 09-29 09:40 ?732次閱讀

    高斯濾波和雙邊濾波的區別

    高斯濾波和雙邊濾波在圖像處理中都是常用的平滑濾波技術,但它們之間存在一些顯著的區別。以下是兩者之間的主要區別: 一、基本原理 高斯濾波 : 是一種線性平滑濾波,適用于消除高斯噪聲。 其
    的頭像 發表于 09-29 09:37 ?493次閱讀

    高斯濾波的特點有哪些

    、背景)則相對保留。這種平滑處理有助于去除圖像中的噪聲,改善圖像質量。 邊緣保留 : 與其他平滑濾波方法相比,高斯濾波在平滑圖像的同時能夠較好地保留圖像的邊緣信息。這是因為高斯濾波的權
    的頭像 發表于 09-29 09:36 ?366次閱讀

    高斯卷積核函數在圖像采樣中的意義

    。這種平滑處理通過減小圖像中像素之間的差異來模糊圖像,有助于去除圖像中的高頻噪聲和細節紋理,使圖像看起來更加平滑。 去噪效果 :在圖像的采集或傳輸過程中,往往會受到各種噪聲的干擾。高斯卷積核函數能夠通過平滑處理有效地抑
    的頭像 發表于 09-29 09:33 ?452次閱讀

    高斯濾波的基本原理有哪些

    高斯濾波的基本原理可以從以下幾個方面進行闡述: 一、定義與性質 定義 :高斯濾波(Gaussian Filter)是一種常見的圖像處理技術,實質上是一種信號的濾波器,用于平滑和降噪圖像。它采用高斯
    的頭像 發表于 09-29 09:27 ?616次閱讀

    增強現實和虛擬現實的聯系和區別

    增強現實(AR)和虛擬現實(VR)是兩種不同的技術,它們在許多方面都有聯系和區別。 一、增強現實(AR)和虛擬現實(VR)的定義 增強現實(
    的頭像 發表于 07-08 11:00 ?2408次閱讀

    增強現實技術(AR)和虛擬現實技術(VR)的區別?

    增強現實技術(AR)和虛擬現實技術(VR)是兩種不同的技術,它們在許多方面都有明顯的區別。以下是對這兩種技術的介紹和比較。 定義 增強現實技術(AR)是一種將虛擬信息疊加到現實世界中的
    的頭像 發表于 07-04 11:40 ?1244次閱讀

    labview能不能對采集的聲音信號進行高斯噪聲信號分析

    請問對采集到的聲音信號進行高斯加噪分析,能不能對聲音信號直接加上高斯噪聲信號?
    發表于 05-27 15:18

    什么是高斯光束

    圖1:高斯光束和平頂光束在相同的光功率下,顯示高斯光束的峰值強度是平頂光束的兩倍 大多數激光束都是高斯光束,盡管在某些情況下,具有非高斯輻照度分布是有益的。隨著離激光束橫截面中心的距離
    的頭像 發表于 04-11 06:32 ?1115次閱讀
    什么是<b class='flag-5'>高斯</b>光束

    噪聲的測量方法

    有效的方法,本期介紹噪聲的測量方法。 常見觀測噪聲的設備為示波器,而示波器在正確操作使用下測量精度為3%,且本身存在底噪。搭配不同的探頭使用,觀測到的
    的頭像 發表于 04-10 15:16 ?1155次閱讀
    <b class='flag-5'>噪聲</b>的測量<b class='flag-5'>方法</b>

    基于FIR濾波器的帶限白噪聲的設計方案實現

    高斯噪聲:是一種隨機噪聲,其時域內的信號幅度的統計規律服從高斯分布。
    的頭像 發表于 04-09 09:08 ?1214次閱讀
    基于FIR濾波器的帶限白<b class='flag-5'>噪聲</b>的設計方案實現

    什么是相位噪聲 產生相位噪聲的原因 相位噪聲的表示方法及影響

    什么是相位噪聲 產生相位噪聲的原因 相位噪聲的表示方法 相位噪聲的影響 測量相位噪聲的常用
    的頭像 發表于 01-31 09:28 ?3347次閱讀

    同軸線測電源噪聲的測試方法

    在電子設備測試中,電源噪聲測試是一項非常重要的工作。而同軸線測電源噪聲測試方法是一種常用且有效的測試手段。本文將對同軸線測電源噪聲測試方法
    的頭像 發表于 01-11 10:53 ?858次閱讀
    同軸線測電源<b class='flag-5'>噪聲</b>的測試<b class='flag-5'>方法</b>
    主站蜘蛛池模板: 97天天做天天爱夜夜爽| 激情五月激情综合| 国产亚洲精品在天天在线麻豆| 噜噜噜色| 国内a级毛片免费···| 国产精品你懂得| 91精品欧美激情在线播放| 亚洲理论视频| 哪里可以看免费毛片| 在线视频91| 一女被多男玩很肉很黄文| 狠狠色色综合网站| 亚在线| 色费女人18女人毛片免费视频| 欧美日韩亚洲国产| 国产免费糟蹋美女视频| 一级网站在线观看| 九九黄色网| 37pao强力打造免费高速高清 | 精品黄色录像| qyule亚洲精品| 手机看片日韩高清1024| 国产精品福利一区| 亚洲涩综合| 午夜理伦| 久久精品亚洲青青草原| 一本视频在线| 澳门久久| 久久99热精品免费观看无卡顿| 网友自拍区一区二区三区| 七月婷婷在线视频综合| 国产经典三级| 久久午夜神器| 双性受粗大撑开白浊| 亚洲国产精品婷婷久久| 欧美feer| 夜夜操夜夜| 18性夜影院午夜寂寞影院免费| 久久国产精品无码网站| 日本人亚洲人成人| 91po狼人社在线观看|