在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

性別偏見(jiàn)探索和緩解的中文數(shù)據(jù)集-CORGI-PM

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP工作站 ? 2023-02-10 13:49 ? 次閱讀

介紹

大規(guī)模語(yǔ)言模型(LMs)已經(jīng)成為了現(xiàn)在自然語(yǔ)言處理的關(guān)鍵技術(shù),但由于訓(xùn)練語(yǔ)料中常帶有主觀的性別偏見(jiàn)、歧視等,在大模型的使用過(guò)程中,它們時(shí)常會(huì)被放大,因此探測(cè)和緩解數(shù)據(jù)中的性別偏見(jiàn)變得越來(lái)越重要。

部分研究通過(guò)性別交換等自動(dòng)標(biāo)注方法,緩解性別偏見(jiàn)的語(yǔ)料庫(kù);也有一些人工標(biāo)注的性別偏見(jiàn)語(yǔ)料庫(kù),但主要集中在單詞層面或語(yǔ)法層面的偏見(jiàn),或只關(guān)注與性別歧視相關(guān)的話題,并主要以英文為主。因此,該論文提出了第一個(gè)用于性別偏見(jiàn)探測(cè)和緩解的句子級(jí)中文語(yǔ)料庫(kù),采用一種自動(dòng)方法(如圖1所示,對(duì)含有性別偏見(jiàn)得分高的詞的樣本進(jìn)行召回,然后根據(jù)其句子級(jí)性別偏見(jiàn)概率對(duì)樣本進(jìn)行重新排序和過(guò)濾),從現(xiàn)有的大規(guī)模中文語(yǔ)料庫(kù)中構(gòu)建可能存在性別偏見(jiàn)的句子集,再通過(guò)精心設(shè)計(jì)的標(biāo)注方案,對(duì)候選數(shù)據(jù)集進(jìn)行進(jìn)一步的標(biāo)注,構(gòu)建可以用于性別偏見(jiàn)檢測(cè)、分類和緩解三種任務(wù)的數(shù)據(jù)集

67517690-a899-11ed-bfe3-dac502259ad0.png

數(shù)據(jù)構(gòu)建

樣本過(guò)濾

如圖1所示,該研究通過(guò)單詞級(jí)到句子級(jí)的兩階段過(guò)濾,從原始語(yǔ)料庫(kù)中召回、排序和過(guò)濾待標(biāo)注候選數(shù)據(jù)。對(duì)于詞級(jí)別過(guò)濾,通過(guò)計(jì)算目標(biāo)詞與種子方向之間得分,構(gòu)建一個(gè)高偏見(jiàn)分?jǐn)?shù)的詞表,并從原始語(yǔ)料庫(kù)中匹配包含這些詞語(yǔ)的句子,為初步候選集合。其中得分計(jì)算如下:

pYYBAGPl23mAB4vXAAAWhjIHnY0844.jpg

正值表示該詞語(yǔ)更適合女性,負(fù)值表示該詞語(yǔ)更適合男性,性別偏見(jiàn)得分絕對(duì)值越高,說(shuō)明該詞語(yǔ)的偏見(jiàn)程度越高。過(guò)濾得到的詞匯繪制的詞云如圖5所示,

677349be-a899-11ed-bfe3-dac502259ad0.png

對(duì)于句子級(jí)別過(guò)濾,計(jì)算句子的性別偏見(jiàn)得分,并根據(jù)獲得性別偏見(jiàn)關(guān)鍵詞進(jìn)行分組,然后根據(jù)特定的全局閾值性別偏見(jiàn)得分和組內(nèi)閾值排名選擇待標(biāo)注的最終句子集合。

標(biāo)注規(guī)則

標(biāo)注方案為標(biāo)注人員對(duì)一個(gè)句子進(jìn)行判斷,判斷是否存在性別偏見(jiàn);如果存在,則需要給出偏見(jiàn)具體類型,并為了緩解性別偏見(jiàn),還需要對(duì)有偏見(jiàn)的句子進(jìn)行糾正,給出無(wú)偏見(jiàn)句子。為保證標(biāo)注質(zhì)量,6名標(biāo)注人員均具有學(xué)士學(xué)位,并且男女比例相同。

「偏見(jiàn)類別」共包含3種:

AC:性別刻板的活動(dòng)和職業(yè)選擇;

DI:性別刻板的描述和概況;

ANB:表達(dá)性別刻板的態(tài)度、規(guī)范和信仰。

緩解性別偏見(jiàn)主要是在保留原始語(yǔ)義信息的同時(shí),減輕所選句子的性別偏見(jiàn),并要求標(biāo)注者進(jìn)行使句子的表達(dá)式多樣化,主要修改規(guī)則如下:

用中性代詞取代性別代詞;

用語(yǔ)義定義相近的中性描述替換性別特定的形容詞;

對(duì)不能直接減輕的句子,添加額外的解釋進(jìn)行中和。

標(biāo)注過(guò)程分為兩個(gè)階段:第一階段,各標(biāo)注者進(jìn)行標(biāo)注,并要求不要輸入不確定樣本;第二階段,標(biāo)注者之間進(jìn)行交叉標(biāo)注。

語(yǔ)料分析

CORGI-PM數(shù)據(jù)統(tǒng)計(jì)如表1所示,共包含32.9k數(shù)據(jù),并考慮數(shù)據(jù)分布,劃分了訓(xùn)練集、驗(yàn)證集及測(cè)試集。

67b616c2-a899-11ed-bfe3-dac502259ad0.png

如表2所示,發(fā)現(xiàn)偏見(jiàn)句子相較于無(wú)偏見(jiàn)句子來(lái)說(shuō),句子更長(zhǎng),包含詞匯更少;但由于去偏句子需要在保持原意圖語(yǔ)義不變、句子連貫、減輕偏見(jiàn),因此去偏樣本與原樣本相比表達(dá)更長(zhǎng)、更多樣化。

67de0010-a899-11ed-bfe3-dac502259ad0.png

偏見(jiàn)數(shù)據(jù)格式樣例:

{
'train':{
#原始句子
'ori_sentence':[
sent_0,
sent_1,
...,
],
#偏見(jiàn)類型
'bias_labels':[
[010],
[010],
[010],
...,
],
#人工去偏句子
'edit_sentence':[
edited_sent_0,
edited_sent_1,
...,
],
},
'valid':{
...#與訓(xùn)練集一致
},
'test':{
...#與訓(xùn)練集一致
}
}

無(wú)偏見(jiàn)數(shù)據(jù)格式樣例:

{
'train':{
#原始句子
'text':[
sent_0,
sent_1,
...,
],
},
'valid':{
...#與訓(xùn)練集一致
},
'test':{
...#與訓(xùn)練集一致
}
}

實(shí)驗(yàn)結(jié)果

針對(duì)性別偏見(jiàn)檢測(cè)及分類任務(wù),以Precision、Recall和F1作為評(píng)價(jià)指標(biāo),采用BERT、Electra和XLNet模型進(jìn)行微調(diào)進(jìn)行實(shí)驗(yàn)對(duì)比,并采用GPT-3 Curie模型進(jìn)行zero-shot實(shí)驗(yàn),結(jié)果如表3所示。

6800eada-a899-11ed-bfe3-dac502259ad0.png

針對(duì)性別緩解任務(wù),采用GPT-3 Ada(350M)、Babbage(1.3B)和Curie(6.7B)進(jìn)行微調(diào), 并采用Davinci(175B)進(jìn)行zero-shot實(shí)驗(yàn),結(jié)果如表4所示。

681e3e8c-a899-11ed-bfe3-dac502259ad0.png

總結(jié)

中文首個(gè)性別偏見(jiàn)探索和緩解數(shù)據(jù)集,開(kāi)源不易,且用且珍惜。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    799

    瀏覽量

    58563
  • 過(guò)濾器
    +關(guān)注

    關(guān)注

    1

    文章

    430

    瀏覽量

    19641
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24727

原文標(biāo)題:CORGI-PM:首個(gè)中文性別偏見(jiàn)探索和緩解數(shù)據(jù)集

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    那個(gè)涉嫌性別歧視被開(kāi)除的谷歌工程師,到底吐槽了些什么?

    偏見(jiàn),但關(guān)于這些偏見(jiàn)的誠(chéng)懇的討論被主流意識(shí)形態(tài)禁聲了。下面要說(shuō)的遠(yuǎn)不是完整的圖景,但它是公司亟需討論的一個(gè)視角。谷歌的偏見(jiàn)在谷歌,我們非常多的討論關(guān)于種族和性別的無(wú)意識(shí)
    發(fā)表于 08-15 10:36

    TM4C1233H6PM數(shù)據(jù)手冊(cè)中文

    TM4C1233H6PM數(shù)據(jù)手冊(cè)中文
    發(fā)表于 10-31 12:24

    TM4C1233H6PM數(shù)據(jù)手冊(cè)中文

    TM4C1233H6PM數(shù)據(jù)手冊(cè)中文
    發(fā)表于 01-24 11:24

    本應(yīng)公平公正的 AI,卻從數(shù)據(jù)中學(xué)會(huì)了人類的偏見(jiàn)

    再中立了。我們充滿著各種偏見(jiàn)?!边@正是為什么我們要非常非常當(dāng)心自己收集的數(shù)據(jù)的原因。今年3月,微軟領(lǐng)導(dǎo)的一群研究人員參加在舊金山舉行的一場(chǎng)會(huì)議時(shí)提出了一個(gè)可能的解決方案。因?yàn)樽R(shí)別數(shù)據(jù)
    發(fā)表于 06-02 12:51

    請(qǐng)問(wèn)tm4c123gh6pm中文數(shù)據(jù)手冊(cè)嗎?

    請(qǐng)問(wèn)tm4c123gh6pm中文數(shù)據(jù)手冊(cè)嗎?急求!
    發(fā)表于 08-14 07:58

    Spectre和Meltdown的利用漏洞的軟件影響和緩解措施

    以下指南簡(jiǎn)要概述了稱為Spectre和Meltdown的利用漏洞的軟件影響和緩解措施,更準(zhǔn)確地標(biāo)識(shí)為: 變體1:邊界檢查繞過(guò)(CVE-2017-5753)變體2:分支目標(biāo)
    發(fā)表于 08-25 08:01

    人工智能遭遇的偏見(jiàn) 算法偏見(jiàn)帶來(lái)的問(wèn)題

    偏見(jiàn)是人工智能面臨一個(gè)挑戰(zhàn),主要是來(lái)自算法偏見(jiàn),當(dāng)然偏見(jiàn)并不止這些。與人類不同,算法不能撒謊,那么產(chǎn)生結(jié)果的不同必將是數(shù)據(jù)帶來(lái)的問(wèn)題。人工智能算法及系統(tǒng)的測(cè)試與驗(yàn)證,如何避免人工智能的
    發(fā)表于 02-06 14:04 ?1.2w次閱讀

    IBM打造百萬(wàn)人臉數(shù)據(jù) 意圖減少AI偏見(jiàn)與歧視問(wèn)題

    科技中立,但人制造出來(lái)的 AI 卻可能帶有偏見(jiàn)或歧視。AI 偏見(jiàn)情況像是性別歧視、種族歧視,例如面部偵測(cè)算法在識(shí)別白人時(shí)的準(zhǔn)確率比識(shí)別黑人高許多,男性跟女性類別也存在類似問(wèn)題,讓軟件識(shí)別犯罪嫌犯人選、企業(yè)挑選求職者時(shí),也曾引發(fā)歧
    發(fā)表于 02-13 08:47 ?526次閱讀

    創(chuàng)新工具和開(kāi)源軟件如何幫助測(cè)量和緩解RF問(wèn)題

    了解創(chuàng)新工具和開(kāi)源軟件如何幫助測(cè)量和緩解各種RF問(wèn)題,如混頻器的三次諧波、RF污染、需要RF濾波器等。
    的頭像 發(fā)表于 07-23 06:05 ?2186次閱讀

    對(duì)PM和GPF的介紹_對(duì)顆粒捕器的介紹

    本文對(duì)PM和GPF進(jìn)行了介紹并且粗略介紹了顆粒捕器。
    的頭像 發(fā)表于 08-05 17:36 ?1.1w次閱讀
    對(duì)<b class='flag-5'>PM</b>和GPF的介紹_對(duì)顆粒捕<b class='flag-5'>集</b>器的介紹

    Cloud AI提供免費(fèi)消除性別偏見(jiàn) 將不再標(biāo)識(shí)性別

    谷歌剛剛宣布,其使用AI工具的“谷歌云服務(wù)”將不再根據(jù)性別來(lái)標(biāo)記人們。AI工具通過(guò)將人的圖像標(biāo)記為“男人”或“女人”來(lái)識(shí)別個(gè)人的性別。盡管這是一種針對(duì)機(jī)器學(xué)習(xí)模型的訓(xùn)練方法,但Google仍在使用它以避免性別
    發(fā)表于 03-20 09:56 ?756次閱讀

    谷歌的AI工具已可以通過(guò)人的圖像標(biāo)記來(lái)識(shí)別個(gè)人的性別

    谷歌剛剛宣布,其使用AI工具的“谷歌云服務(wù)”將不再根據(jù)性別來(lái)標(biāo)記人們。AI工具通過(guò)將人的圖像標(biāo)記為“男人”或“女人”來(lái)識(shí)別個(gè)人的性別。盡管這是一種針對(duì)機(jī)器學(xué)習(xí)模型的訓(xùn)練方法,但Google仍在使用它以避免性別
    發(fā)表于 03-20 11:15 ?2146次閱讀

    AI可能帶有性別偏見(jiàn)?Salesforce提出了減輕AI性別偏見(jiàn)的方法

    通過(guò)與弗吉尼亞大學(xué)的研究人員合作,Salesforce 提出了有助于減輕 AI 性別偏見(jiàn)的新方法。 通常情況下,研究人員需要為 AI 模型投喂許多單次來(lái)展開(kāi)訓(xùn)練,但其中不可避免地會(huì)摻雜一些或隱性、或顯性的性別
    的頭像 發(fā)表于 07-05 09:31 ?2247次閱讀
    AI可能帶有<b class='flag-5'>性別</b><b class='flag-5'>偏見(jiàn)</b>?Salesforce提出了減輕AI<b class='flag-5'>性別</b><b class='flag-5'>偏見(jiàn)</b>的方法

    Google遵循AI原則減少機(jī)器翻譯的性別偏見(jiàn)

    得益于神經(jīng)機(jī)器翻譯 (NMT) 的進(jìn)步,譯文更加自然流暢,但與此同時(shí),這些譯文也反映出訓(xùn)練數(shù)據(jù)存在社會(huì)偏見(jiàn)和刻板印象。因此,Google 持續(xù)致力于遵循 AI 原則,開(kāi)發(fā)創(chuàng)新技術(shù),減少機(jī)器翻譯中
    的頭像 發(fā)表于 08-24 10:14 ?2863次閱讀

    芯馳科技對(duì)打破創(chuàng)投圈性別偏見(jiàn)的看法

    便是其中的代表,她帶領(lǐng)著芯馳完成一輪又一輪產(chǎn)品推新,用實(shí)力獲得了創(chuàng)投圈的認(rèn)可。接下來(lái),讓我們看看她對(duì)“如何打破創(chuàng)投圈性別偏見(jiàn)”的看法。
    的頭像 發(fā)表于 03-11 08:43 ?2272次閱讀
    主站蜘蛛池模板: 天天躁狠狠躁夜夜躁2021| 国产一区在线mmai| 黄色录像日本| 久久午夜视频| 久久久午夜毛片免费| 狠狠干夜夜操| 日本内谢69xxxx免费| 456亚洲人成影院在线观| 爽好舒服快小柔小说| 欧美日本一道免费一区三区| 国产精品29页| 五月婷婷六月爱| 色在线免费视频| 欧美激欧美啪啪片免费看| 久草婷婷| 97超在线| 色五月情| 午夜啪啪免费视频| 日韩高清成人毛片不卡| 亚洲人成网站色7777| 色的视频网站| 狠狠色丁香久久综合婷婷| 97青青| 日本丰满毛茸茸熟妇| 日本人69xxxxxxxx69| 久久精品国产亚洲婷婷| 婷婷五月情| 美女露出尿囗| 1000部啪啪勿入十八免费| 免费福利片2022潦草影视午夜| 日本69av| 亚洲无线视频| 免费你懂的| 亚洲午夜久久久久影院| 国产69精品久久| 欧美成人a| 日韩一级欧美一级| 成成人看片在线| 久久天天躁狠狠躁夜夜爽| 91av免费| 特级淫片aaaaa片毛片|