簡(jiǎn)介
傳統(tǒng)的計(jì)算系統(tǒng)是圍繞計(jì)算機(jī)程序中表達(dá)的指令的執(zhí)行來(lái)設(shè)計(jì)的。相反,語(yǔ)言模型可以遵循用自然語(yǔ)言表達(dá)的指令,或者從大量數(shù)據(jù)中的隱含模式中學(xué)習(xí)該做什么。為了在語(yǔ)言模型之上構(gòu)建安全可靠的應(yīng)用程序,重要的是可以使用用戶提供的規(guī)則來(lái)控制或約束AI模型行為。
展望未來(lái),與人互動(dòng)的人工智能助手也需要忠實(shí)和完整地遵循指令。為了確保人工智能助手反饋的道德行為,需要能夠可靠地實(shí)施法律法規(guī)或義務(wù)生物學(xué)約束等規(guī)則。此外,必須能夠驗(yàn)證模型行為是否真正基于所提供的規(guī)則,而不是依賴于訓(xùn)練期間識(shí)別的虛假文本線索或分布先驗(yàn)。如果不能依靠人工智能助手來(lái)遵循明確的規(guī)則,它們將很難安全地融入人類的社會(huì)。
人們可能認(rèn)為強(qiáng)加給人工智能模型行為的許多規(guī)則在概念上非常簡(jiǎn)單,并且很容易用自然語(yǔ)言表達(dá)。一種方法是簡(jiǎn)單地將規(guī)則包含在模型的文本提示中,并依賴于模型現(xiàn)有的指令遵循功能。另一種方法是使用第二個(gè)模型來(lái)對(duì)輸出遵循固定規(guī)則集的情況進(jìn)行評(píng)分,然后對(duì)第一個(gè)模型進(jìn)行微調(diào),使其以最大化該評(píng)分的方式表現(xiàn)。
在本文中,將專注于前一種方法,并研究LLM如何很好地遵循作為文本提示一部分提供的規(guī)則。為了應(yīng)對(duì)可用性和安全性方面的挑戰(zhàn),本文引入了規(guī)則遵循語(yǔ)言評(píng)估場(chǎng)景(RULES),如下圖,這是評(píng)估LLM助手中規(guī)則遵循行為的基準(zhǔn)。該基準(zhǔn)包含15個(gè)來(lái)自常見兒童游戲的文本場(chǎng)景以及計(jì)算機(jī)安全領(lǐng)域的想法。每個(gè)場(chǎng)景都用自然語(yǔ)言定義了一組規(guī)則,并定義了一個(gè)評(píng)估程序來(lái)檢查模型輸出是否符合規(guī)則。通過(guò)對(duì)本文的場(chǎng)景與最先進(jìn)的模型進(jìn)行廣泛實(shí)驗(yàn),確定了多種有效的攻擊策略,以誘導(dǎo)模型打破規(guī)則。
RULES補(bǔ)充了現(xiàn)有的安全性和對(duì)抗性穩(wěn)健性評(píng)估,這些評(píng)估主要側(cè)重于規(guī)避固定的通用規(guī)則。本文的工作重點(diǎn)是用自然語(yǔ)言表達(dá)的特定于應(yīng)用程序的規(guī)則,用戶可以隨時(shí)更改或更新這些規(guī)則。在與人類和自動(dòng)化對(duì)手互動(dòng)時(shí),嚴(yán)格遵守本文的場(chǎng)景規(guī)則可能需要不同的方法來(lái)提高模型安全性,因?yàn)橹苯印熬庉嫛碧囟ㄓ泻π袨榈哪芰Σ蛔阋孕迯?fù)本文工作中檢查的模型故障類別。
本文的工作團(tuán)隊(duì)發(fā)布了代碼和測(cè)試用例,同時(shí)還發(fā)布了一個(gè)交互式演示,用于探索針對(duì)不同模型的場(chǎng)景。希望推動(dòng)更多的研究來(lái)提高LLM的穩(wěn)健規(guī)則遵循能力,并打算將所提的基準(zhǔn)測(cè)試作為進(jìn)一步開發(fā)的有用的開放測(cè)試平臺(tái)。
方案
RULES包含15個(gè)基于文本的場(chǎng)景,每個(gè)場(chǎng)景都要求輔助模型遵循一個(gè)或多個(gè)規(guī)則。這些場(chǎng)景的靈感來(lái)自于計(jì)算機(jī)系統(tǒng)和兒童游戲的理想安全特性。RULES的組成部分包括:
場(chǎng)景:由通用指令和規(guī)則組成的評(píng)估環(huán)境,用自然語(yǔ)言表示,以及可以通過(guò)編程檢測(cè)規(guī)則違規(guī)的相應(yīng)評(píng)估程序。指令和規(guī)則可以參考實(shí)體參數(shù)(例如密鑰),必須對(duì)其進(jìn)行采樣,以生成用于用戶交互或評(píng)估的具體“場(chǎng)景實(shí)例”。
規(guī)則:?jiǎn)蝹€(gè)指令,每個(gè)指令指定模型所需的行為。場(chǎng)景可能包含多個(gè)規(guī)則,這些規(guī)則要么是定義模型不能做什么的“負(fù)面”規(guī)則,要么是定義了模型必須做什么的“正面”規(guī)則,如下圖所示。
測(cè)試用例:特定場(chǎng)景實(shí)例的用戶消息序列。正如評(píng)估程序判斷的那樣,如果模型對(duì)序列中的每個(gè)用戶消息做出反應(yīng)而不違反規(guī)則,則稱該模型具有“傳遞”測(cè)試用例。
Correct Behavior
本文將場(chǎng)景可視化為決策樹圖,如上圖所示,其中正確的行為對(duì)應(yīng)于從根節(jié)點(diǎn)開始并遵守所有相關(guān)的內(nèi)部規(guī)則節(jié)點(diǎn)。規(guī)則指定的行為都是“無(wú)狀態(tài)”的,正確的行為只取決于模型響應(yīng)的最后一條用戶消息。
設(shè)計(jì)這些場(chǎng)景是為了讓一個(gè)小型計(jì)算機(jī)程序能夠評(píng)估模型的響應(yīng)是否符合規(guī)則。每個(gè)程序只有幾行代碼,不需要使用大型模型或人工標(biāo)記進(jìn)行推理。本文依賴于字符串比較和簡(jiǎn)單的正則表達(dá)式模式,這會(huì)導(dǎo)致對(duì)負(fù)面行為的更寬容的評(píng)估,對(duì)正面行為的更嚴(yán)格的評(píng)估。本文提出的的評(píng)估程序無(wú)法在邊緣情況下準(zhǔn)確再現(xiàn)人類的判斷,但在實(shí)踐中觀察到,模型中絕大多數(shù)違反規(guī)則的輸出都是明確的。
User Interface
為了設(shè)計(jì)場(chǎng)景和評(píng)估代碼,并為測(cè)試套件收集測(cè)試用例,本文構(gòu)建了幾種不同的用戶界面,用于通過(guò)具有各種模型的場(chǎng)景進(jìn)行玩。這些范圍從用于調(diào)試和播放測(cè)試的簡(jiǎn)單命令行界面到用于從作者及其同事眾包數(shù)據(jù)收集的 Web 應(yīng)用程序。我們發(fā)現(xiàn)通過(guò)這些界面與模型交互有助于了解模型實(shí)際響應(yīng)用戶輸入并修改我們的場(chǎng)景以更好地捕獲有趣但具有挑戰(zhàn)性的行為。用戶界面可能成為研究人工智能系統(tǒng)的研究工具包的重要組成部分。
模型評(píng)估
根據(jù)人工和機(jī)器生成的測(cè)試用例測(cè)試套件來(lái)評(píng)估各種專有和開放的LLM。每個(gè)測(cè)試用例都與特定的場(chǎng)景環(huán)境相關(guān)聯(lián),其中包括場(chǎng)景和隨機(jī)采樣的場(chǎng)景參數(shù)。使用以下三條條信息來(lái)初始化對(duì)話歷史。
指定場(chǎng)景說(shuō)明的用戶消息,
占位符輔助消息“I understand and will comply with the rules.”,
測(cè)試用例的第一條用戶消息。
重復(fù)調(diào)用該模型,并將每個(gè)響應(yīng)和后續(xù)用戶消息附加到會(huì)話歷史中,直到測(cè)試用例中的所有用戶消息都用完為止。第一個(gè)占位符響應(yīng)之后的每個(gè)輔助響應(yīng)都用與場(chǎng)景相對(duì)應(yīng)的評(píng)估程序進(jìn)行評(píng)估,如果在任何響應(yīng)之后,程序確定至少有一個(gè)規(guī)則被打破,認(rèn)為模型沒(méi)有通過(guò)測(cè)試用例。
模型細(xì)節(jié)
本文評(píng)估了各種流行的專有和公共模型,包括OpenAI的GPT-3.5、GPT3.5 Instruction和GPT-4、Anthropic的Claude Instant和Claude、谷歌的PaLM 2 Text Bison以及Vicuna v1.3(7B、13B、33B)、Llama 2 Chat(7B,13B、70B)和Mistral Instruction v0.1(7B)。OpenAI、Anthropic和Google模型可通過(guò)各自的API獲得多個(gè)版本如下表所示。
GPT-3.5 Instruction和PaLM 2 Text Bison是文本生成模型,而不是聊天模型,因此使用一個(gè)簡(jiǎn)單的聊天模板來(lái)提示這兩個(gè)模型進(jìn)行對(duì)話響應(yīng),如下表所示。
手動(dòng)測(cè)試
根據(jù)場(chǎng)景的探索性期間記錄的對(duì)話,組裝了一個(gè)初始手動(dòng)測(cè)試。過(guò)濾重復(fù)的對(duì)話并刪除輔助響應(yīng),從而產(chǎn)生870個(gè)測(cè)試用例。測(cè)試案例的數(shù)量從155個(gè)認(rèn)證案例到27個(gè)保密案例不等,涵蓋了廣泛的策略。大多數(shù)記錄的對(duì)話都針對(duì)負(fù)面規(guī)則,但沒(méi)有跟蹤用戶意圖,也沒(méi)有區(qū)分負(fù)面和正面測(cè)試案例。下表中顯示了手動(dòng)測(cè)試的結(jié)果。所有模型都失敗了大量的測(cè)試用例,盡管GPT-4失敗的測(cè)試用例數(shù)量最少,其次是Claude Instant和Claude 2。
系統(tǒng)測(cè)試
每個(gè)策略的測(cè)試用例示例如上表所示。每個(gè)測(cè)試用例都包含一到三條用戶消息。“Just Ask”策略為每個(gè)規(guī)則定義了一個(gè)單一的基本測(cè)試用例,如果嚴(yán)格遵守,將導(dǎo)致模型違反目標(biāo)規(guī)則,從而測(cè)試模型拒絕最直接攻擊嘗試的能力。大多數(shù)積極的規(guī)則都要求模型根據(jù)特定的用戶輸入產(chǎn)生特定的輸出,因此對(duì)于這些規(guī)則,“Just Ask”測(cè)試用例由兩條用戶消息組成,首先要求模型打破規(guī)則,然后用正確的用戶輸入觸發(fā)破規(guī)行為。
如下圖所示,所有評(píng)估的LLM在大量測(cè)試用例中都失敗了。系統(tǒng)測(cè)試中負(fù)規(guī)則的性能與手動(dòng)測(cè)試的性能密切相關(guān)。模型的夫,負(fù)面測(cè)試失敗率通常低于正面測(cè)試,除Vicuna 33B外的所有開放模型幾乎所有陽(yáng)性測(cè)試都失敗。結(jié)果表明,引導(dǎo)模型偏離正確的行為比強(qiáng)迫這些模型做出特定的不正確行為要容易得多,尤其是對(duì)于開放模型。
在所有評(píng)估的模型中,GPT-4在系統(tǒng)測(cè)試中失敗的測(cè)試用例最少。令人驚訝的是,Claude Instant的表現(xiàn)略好于表面上能力更強(qiáng)的Claude 2。有的LLM不能可靠地遵循規(guī)則;盡管它們可以抵制一些嘗試,但仍有很大的改進(jìn)空間。
方差與不確定性
本文的結(jié)果中有幾個(gè)方差和不確定性的來(lái)源。首先,即使temperature設(shè)置為0,OpenAI和Anthropic API的輸出也是不確定的。這導(dǎo)致了測(cè)試用例結(jié)果的一些差異,在下表中使用系統(tǒng)測(cè)試的子集進(jìn)行了估計(jì)。
連續(xù)10次運(yùn)行相同的評(píng)估,并在每個(gè)評(píng)估的測(cè)試用例子集的39個(gè)測(cè)試用例中,測(cè)量1.1個(gè)或更少的失敗測(cè)試用例數(shù)量的標(biāo)準(zhǔn)差。PaLM 2 API在輸出或測(cè)試用例結(jié)果方面沒(méi)有任何變化,在本地評(píng)估時(shí)也沒(méi)有任何公共模型。
錯(cuò)誤檢測(cè)
如果模型無(wú)法可靠地遵循規(guī)則,它們可能會(huì)至少能夠可靠地檢測(cè)到助手響應(yīng)何時(shí)違反規(guī)則。為了回答這個(gè)問(wèn)題,從系統(tǒng)測(cè)試上評(píng)估的模型的輸出以及地面實(shí)況傳遞/失敗評(píng)估標(biāo)簽中抽取 1098 對(duì)用戶消息和助手響應(yīng),以衡量模型檢測(cè)規(guī)則違規(guī)的能力作為零樣本二元分類任務(wù)。
如上表所示,大多數(shù)模型都可以比偶然做得更好,但不能可靠地檢測(cè)是否遵循了規(guī)則。將正數(shù)定義為助手響應(yīng)違反場(chǎng)景的一個(gè)或多個(gè)規(guī)則的實(shí)例,并測(cè)量通常定義的精度/召回率。目前還沒(méi)有模型“解決”這個(gè)任務(wù),GPT-4 達(dá)到了 82.1% 的準(zhǔn)確率和 F 分?jǐn)?shù) 84.0,其他模型下降得很短。需要一個(gè)簡(jiǎn)潔的“pass”或“fail”答案,它將 Llama 2 等冗長(zhǎng)模型置于劣勢(shì),因?yàn)檫@些模型偶爾會(huì)用額外的文本預(yù)先查看他們的答案。
對(duì)抗性檢測(cè)
本文還評(píng)估了Greedy Coordinate Gradient (GCG),這是一種最近提出的算法,用于查找導(dǎo)致模型產(chǎn)生特定目標(biāo)字符串的后綴,與本文場(chǎng)景中的開放7B模型(Vicuna v1.3、Llama 2 Chat和Mistral v0.1)進(jìn)行比較。GCG是一種迭代優(yōu)化算法,它在每個(gè)時(shí)間步長(zhǎng)更新單個(gè)token,以最大限度地提高目標(biāo)語(yǔ)言模型下目標(biāo)字符串的可能性。
結(jié)果如上表所示,GCG可以增加所有三個(gè)評(píng)估模型的失敗測(cè)試用例數(shù)量。Mistral特別容易被影響,幾乎所有的正面和負(fù)面測(cè)試都失敗了,而Llama 2仍然通過(guò)了一些負(fù)面測(cè)試。針對(duì)Llama 2 7B優(yōu)化的后綴在針對(duì)其他模型使用時(shí),不會(huì)導(dǎo)致失敗測(cè)試用例的數(shù)量顯著增加。
結(jié)論
本文的實(shí)驗(yàn)表明,目前的模型在很大程度上不足以遵循簡(jiǎn)單規(guī)則。盡管在指定和控制LLM的行為方面做出了重大努力,但在人類能夠指望模型可靠地抵御各種人類或機(jī)器生成的攻擊之前,研究界還有更多的工作要做。
同時(shí),本文的工作團(tuán)隊(duì)樂(lè)觀地認(rèn)為,盡管過(guò)去十年在圖像分類模型中對(duì)難以察覺的擾動(dòng)的對(duì)抗性魯棒性方面的進(jìn)展慢于預(yù)期,但在這一領(lǐng)域仍有可能取得有意義的進(jìn)展。打破規(guī)則需要一個(gè)模型采取有針對(duì)性的生成行動(dòng),而打破規(guī)則的目標(biāo)可以在模型的內(nèi)部表示中確定,這反過(guò)來(lái)又可以產(chǎn)生基于檢測(cè)和棄權(quán)的可行防御。
要想使AI虛擬助手在安全地整合到社會(huì)中,就需要研究并改進(jìn)LLMs對(duì)于規(guī)則遵循的能力。
審核編輯:劉清
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7529瀏覽量
88408 -
人工智能
+關(guān)注
關(guān)注
1793文章
47590瀏覽量
239486 -
GPT
+關(guān)注
關(guān)注
0文章
357瀏覽量
15460 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
289瀏覽量
13379 -
OpenAI
+關(guān)注
關(guān)注
9文章
1113瀏覽量
6621
原文標(biāo)題:LLMs可以遵循簡(jiǎn)單的規(guī)則嗎?
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論