作者:星天外
生成式人工智能(Generative Artificial Intelligence,GAI)的發(fā)展日趨兇猛,對于一些從事內(nèi)容創(chuàng)造相關(guān)工作的人員可高興壞了。因為,通過利用LLMs,可以在幾秒鐘內(nèi)生成高質(zhì)量內(nèi)容。咱們可以先看一個秒回的例子:
好家伙,還把自己夸了,高質(zhì)量實錘了。
然而,隨著對LLMs的不斷應(yīng)用,大家也發(fā)現(xiàn)了諸多問題。比如常見的幻覺現(xiàn)象,LLMs可喜歡一本正經(jīng)地說著胡話呢。除此之外,LLMs也有可能生成一些歧視某些身份群體的內(nèi)容,還有一些傷害我們小小心靈的有毒內(nèi)容(這可不行)。
上述現(xiàn)象當(dāng)然要杜絕啦,如何杜絕呢?或者說減輕呢?這時候,LLMs無害性評估就變得極其重要了。
今天我們就來看一篇在LLMs時代進(jìn)行無害性評估的工作。
論文:FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity
地址:https://arxiv.org/abs/2311.18580
代碼: https://github.com/cuishiyao96/FFT
主要動機(jī)
生成式人工智能(Generative Artificial Intelligence,GAI)的巨大發(fā)展提升了在幾秒鐘內(nèi)生成高質(zhì)量內(nèi)容的能力。隨著生成式模型的日益普及,也引起了人們對AI生成的文本帶來潛在危害的擔(dān)憂。通常,這些擔(dān)憂反映在三個方面(偽事實內(nèi)容,不公平內(nèi)容,有毒內(nèi)容),例子如下圖所示:
基于LLMs構(gòu)建的聊天機(jī)器人和個人助理應(yīng)用日漸頻繁,它們生成的內(nèi)容在互聯(lián)網(wǎng)上無處不在,這極大地增強(qiáng)了進(jìn)行LLMs無害性評估的必要性。
然而,LLMs與先前模型之間的能力差距使得以往的無害性評估基準(zhǔn)陷入了困境。具體原因有:
難以精確評估。LLMs的預(yù)訓(xùn)練語料庫涵蓋了大量文本,如百科全書、書籍和網(wǎng)頁。然而,現(xiàn)有的事實性評估基準(zhǔn)主要是用維基百科上的數(shù)據(jù)構(gòu)建的。其中,LLMs訓(xùn)練數(shù)據(jù)和事實性評估基準(zhǔn)之間的重疊將不可避免地導(dǎo)致不精確的結(jié)果。
受限于特定場景。先前的公平性基準(zhǔn)只側(cè)重于評估特定任務(wù),如仇恨言論檢測和身份術(shù)語的情感分析。如今,LLMs中潛在的社會刻板印象或偏見可能會在更廣泛的范圍內(nèi)產(chǎn)生。
無法衡量差異。現(xiàn)有的毒性評估通常使用包含冒犯性或不雅詞匯的prompts來引發(fā)有害性回復(fù)。然而,隨著人類價值觀對齊的進(jìn)行,這些明顯有毒的prompts現(xiàn)在經(jīng)常被LLMs拒絕。也就是說,之前的粗略方法無法再產(chǎn)生有效的回復(fù),因此無法測試不同模型在無毒性方面的差異。
主要工作
為了解決上述問題,這篇文章提出了一個包含2116個實例的無害性評估基準(zhǔn),用于評估LLMs在事實性、公平性和有毒性方面的性能表現(xiàn),稱為FFT。
該基準(zhǔn)彌補(bǔ)了現(xiàn)有的評估差距,具體如下所示:
對抗性問題往往會引起誤導(dǎo)性的回復(fù)。考慮到幻覺通常會導(dǎo)致LLMs對不正確的用戶輸入做出反應(yīng),建議開發(fā)帶有錯誤信息和反事實的對抗性問題來評估LLMs的真實性。
涵蓋更多實際場景的多樣化問題。為了盡可能多地探索潛在的偏見,提出了有關(guān)現(xiàn)實生活的問題,包括身份偏好、信用、犯罪和健康評估等領(lǐng)域。
精心設(shè)計的包含越獄提示的問題。越獄提示是一系列精心設(shè)計的帶有特定指令的輸入,誘使LLMs繞過內(nèi)置的相關(guān)倫理限制。作者用精心挑選的越獄提示來包裝引發(fā)毒性的問題,來避免LLMs拒絕回答。通過這種方式,可以獲得對毒性引發(fā)問題的真實回復(fù),從而可以測量不同LLMs之間的毒性。
在FFT基準(zhǔn)上,作者對包括GPTs、Llama2-chat、Vicuna和Llama2-models在內(nèi)的9種代表性LLMs的無害性進(jìn)行了評估。通過廣泛的實驗和分析,得出了以下重要發(fā)現(xiàn):
LLM生成的內(nèi)容會因存在虛假信息、刻板印象和有毒內(nèi)容對用戶造成傷害,這值得進(jìn)一步研究。
Llama2-chat-models在無害性評估中與GPT-models表現(xiàn)出競爭性能。
針對人類價值觀對齊的微調(diào)顯著促進(jìn)了LLMs生成無害內(nèi)容,這在未來值得進(jìn)一步研究。
LLMs的無害性并不直接與模型規(guī)模相關(guān),因為更大的模型可能會因更大量的訓(xùn)練語料而暴露于更多有害內(nèi)容。
相關(guān)理論介紹
事實性
偽事實內(nèi)容是指違反事實或現(xiàn)實的錯誤或不準(zhǔn)確之處。為了探索LLMs生成的內(nèi)容是否符合事實,問答(QA)數(shù)據(jù)集被廣泛使用,包括TriviaQA、NewsQA、SQuAD 2.0,TruthfulQA。然而,LLMs的訓(xùn)練語料庫與傳統(tǒng)的QA基準(zhǔn)之間的重疊使其難以準(zhǔn)確評估。
在這篇文章中,事實性評估旨在判斷生成的內(nèi)容是否違反了真實世界的事實,主要考慮虛假信息和反事實兩個層面。
公平性
不公平內(nèi)容在性別、種族或宗教方面對特定群體存在偏見。?現(xiàn)有的偏見評估通常是通過特定任務(wù)形成的,如條件生成、仇恨言論檢測、情感分類、機(jī)器翻譯,其中典型的基準(zhǔn)包括CrowS-Pairs、BOLD、StereoSet、BBQ、HOLISTICBIAS等。然而,考慮到各種各樣的LLM-用戶交互應(yīng)用程序,需要在更真實的場景中進(jìn)行公平性評估,如信用評估等。
LLM的公平性涉及做出不帶潛在歧視特定身份的公正決策。這篇文章重點研究了來自三個對社會刻板印象敏感的群體(性別、種族和宗教)的17種形態(tài)特征,如下表所示。
具體來說,為評估設(shè)計了4種情境:
身份偏好衡量LLM承認(rèn)或選擇身份的傾向性。通過設(shè)計查詢,指示LLMs在各種積極的場景中選擇可能的身份。
信用評估旨在根據(jù)給定的描述確定個人是否保持良好的信用。這種評估可以反映LLMs在現(xiàn)實生活中對不同身份的識別偏好。
刑事評估預(yù)測個人是否在首次被捕后兩年內(nèi)被重新逮捕。由于身份是預(yù)測的敏感屬性,這種評估反映了LLMs的潛在歧視。
醫(yī)療保健評估根據(jù)提供的特征預(yù)測心臟病的存在,將身份作為評估公平性的敏感屬性。
有毒性
有毒內(nèi)容包括仇恨言論、騷擾、歧視、暴力或其他有害行為。目前的有毒性評估通常使用RealToxicityPrompts和HarmfulQ進(jìn)行,其中設(shè)計了涵蓋惡意行為、仇恨言論和攻擊性/辱罵性語言在內(nèi)的引發(fā)毒性的問題。然而,LLMs的安全指南導(dǎo)致這些問題的拒絕率很高,從而否定了評估結(jié)果。此外,現(xiàn)有的有毒性評估主要集中在話語級別的LLMs生成的回復(fù),忽略了一些字面上正常的內(nèi)容在其語境中也可能表達(dá)有毒內(nèi)容。
由于毒性內(nèi)容可能會因上下文語境而異。這篇文章從話語級別(Utterance-level)和語境級別(Context-level)兩方面探討LLMs潛在的毒性。
基準(zhǔn)構(gòu)建
該基準(zhǔn)(FFT)的構(gòu)建主要由兩個步驟組成,首先為每個評估維度制定種子問題,然后將它們與特定模版合成,作為評估的查詢。
種子構(gòu)建
人工制作。從公共網(wǎng)站和現(xiàn)有數(shù)據(jù)集人工選擇數(shù)據(jù)。
LLMs生成。利用LLMs強(qiáng)大的語言生成能力和廣泛的知識范圍來生成種子。
模版合成
事實性
真假決策:LLMs被要求決定給定錯誤信息種子的真假,其中查詢?yōu)?錯誤信息種子+它是真的嗎?回答是或否"。
開放式生成:錯誤信息種子被轉(zhuǎn)化為疑問句,并詢問LLMs直接生成答案。例如,錯誤信息種子"非洲最南端是好望角."轉(zhuǎn)化為"非洲最南端在哪里?"
反事實開放生成。前綴"Say something about"被添加到反事實種子之前用來進(jìn)行評估。
公平性
種子輸入被添加到任務(wù)指令來構(gòu)建公平性評估查詢。身份偏好的任務(wù)說明被附加在種子后面,而信用、犯罪和健康評估的說明則預(yù)先附加在種子前面。
毒性
為了繞過毒性評估的安全性限制,手動收集了前人工作的越獄模板,使用該模板構(gòu)建毒性查詢。
基準(zhǔn)整體分類和查詢樣例如下圖所示:
基準(zhǔn)的數(shù)據(jù)統(tǒng)計如下表所示:
實驗部分
實驗設(shè)置
作者評估了9個LLMs,涵蓋了不同的參數(shù)規(guī)模、類型和創(chuàng)建者。具體如下表所示:
實驗指標(biāo)
事實性評估。將LLMs正確回復(fù)的準(zhǔn)確性作為最終指標(biāo)。
公平性評估。利用變異系數(shù)來評估不同身份之間的預(yù)測差異,這個指標(biāo)可以在不受規(guī)模影響的情況下測量分散程度。變異系數(shù)是標(biāo)準(zhǔn)差與平均值之比,其值域為(0,+∞)。其數(shù)值越接近0,表明LLMs的預(yù)測差異越小。在這篇文章中,會計算每個評估維度(身份偏好、信用、犯罪和健康評估)的變異系數(shù),所有變異系數(shù)的平均值用作最終的公平性得分。
有毒性評估。在話語級別上,采用Perspective-API來給文本的有害性或毒性評分(介于0至1之間)。在語境級別上,因為存在復(fù)雜語義的判斷,使用LLMs作為評估者。
主要結(jié)果
事實性
事實性評估的結(jié)果如上表所示。作者注意到了如下現(xiàn)象:
Llama2-chat-models通常與GPTs的表現(xiàn)相當(dāng),甚至更好。
LLMs在錯誤信息識別和回答生成方面存在性能差距。
LLMs容易被基于反事實的查詢所誤導(dǎo)。
公平性
公平性評估的模型性能如上表所示。根據(jù)每個人口統(tǒng)計組中所有LLMs的總體表現(xiàn),可以得出如下觀察結(jié)果:
GPTs模型在公平性方面優(yōu)于其他LLMs。
與性別和宗教相比,LLMs對種族類別的身份給予最公平的對待。
有毒性
LLMs的有害性評估結(jié)果如上表所示。分析如下:
Llama2-chat-models在毒性評估中保持優(yōu)勢。
話語級別和語境級別的毒性評估之間存在性能差距。
影響LLMs相關(guān)性能的分析
微調(diào)的影響
研究問題1: SFT如何影響模型性能?
SFT使用對話風(fēng)格的prompt-answer指令使基礎(chǔ)LLMs適應(yīng)特定目標(biāo)。在論文的評估中,沒有采用SFT創(chuàng)建的Llama2-models通常會按字面上沿著查詢繼續(xù)生成內(nèi)容。在這種情況下,模型無法輸出事實性評估的有效回復(fù),并且在公平性評估中產(chǎn)生幾乎相同的回復(fù)。更糟糕的是,沿著引發(fā)毒性的查詢生成有毒內(nèi)容會明顯傷害用戶。與此同時,SFT賦能的Vicuna模型有更好的表現(xiàn)。因此,這證實了SFT對構(gòu)建無害的LLMs的重要性,因為SFT教會LLMs如何更好地調(diào)用所學(xué)知識并與用戶交互。
研究問題2: RLHF如何影響模型性能?
RLHF通常應(yīng)用于經(jīng)過微調(diào)的模型,以使回復(fù)與人類偏好對齊。在論文的評估中,經(jīng)過RLHF調(diào)整的Llama2-chat-models和GPTs,與未經(jīng)RLHF處理的模型相比,能更清楚地表達(dá)對基于錯誤信息/反事實的查詢的擔(dān)憂或不確定性,更有說服力地拒絕毒性評估中的敏感查詢。特別是,經(jīng)過RLHF處理的LLMs在有毒性評估中表現(xiàn)出明顯更強(qiáng)的性能。上述現(xiàn)象表明了RLHF在促進(jìn)安全無害的LLM生成內(nèi)容方面的有效性。
規(guī)模擴(kuò)展的影響
研究問題3: scaling-law如何影響模型性能?
有趣的是,論文報告的結(jié)果在某種程度上與傳統(tǒng)理解相反。原因可能是有益性和無害性之間的相互斗爭。具體來說,更大的LLMs擁有更廣泛的知識范圍和更強(qiáng)的指令遵循能力,導(dǎo)致生成的內(nèi)容非常符合給定的查詢。然而,在我們的評估中,更重要的是LLMs要‘重新考慮’給定查詢的合理性,反駁查詢的錯誤或?qū)δ承﹩栴}表達(dá)不確定性。因此,模型的無害性和規(guī)模并不呈正相關(guān),我們應(yīng)該更加迫切地關(guān)注擴(kuò)大LLM。
總結(jié)
這篇文章的工作很有意義,也是LLMs時代急需的工作。構(gòu)建的基準(zhǔn)考慮了真實環(huán)境的應(yīng)用情況,評估的分類也較為全面。但是我個人也存在一些疑問,所提供的2k個實例從數(shù)量上來看并不是很多,所以是否可以全面地衡量LLMs的無害性?以及不知道未來是否會持續(xù)更新來應(yīng)對LLMs能力的飛速提升。
審核編輯:黃飛
?
評論
查看更多