對于怎么實現AGI這個玄學的目標,感覺大家都是差不多的狀態:咱也不知道怎么做,但就是覺得現在的LLM技術還遠遠不夠。
所以之前看到OpenAI說要用模型去做對齊研究[1],以及最近發話要4年內做出SuperAlignment[2]時,我都是一臉問號,覺得沒什么新東西,get不到他們的思路。
為什么要做AI研究器
直到最近斷斷續續刷了兩遍Jan Leike的訪談,我突然有種悟了的感覺,原來核心思想就這么簡單。而且回過頭看,OpenAI近幾年其實就是在遵循這個思想,卻做出了看似「暴力」的一個個突破。
OpenAI所選擇的路徑就是:「Turn compute into alignment」,通過計算的量變產生智能的質變。計算需要數據、算力、模型框架的共同作用,拆解成具體的步驟,則是自動化->規模化->迭代。
以前我們總以「范式」這個詞來劃分NLP的發展,比如監督學習->預訓練+精調->預訓練+RLHF。其實這些范式只是增加有效計算量的方法:
自動化:有監督 -> 自監督,擺脫人的依賴,更高效地獲取監督信號
規模化:在更多的數據、更大的模型上進行更多的計算
迭代:不斷基于新的case迭代模型,形成數據飛輪
自動化和規模化所帶來的質變不用多說,GPT系列足以證明。但最后一步的「迭代」卻經常被忽視,而這可能是通向Superalignment重要的一步,Alpha GO就是最好的栗子。它從最開始模仿人類棋手落子,到具備基本能力后不斷自我博弈,最終超越人類棋手。
那么問題來了:目前我們所做的「迭代」,不管是RLHF還是純SFT,仍舊需要人工提供監督信號,無法做到自動化和規模化,迭代速度就會很慢。同時人類也無法監督超越自身水平的任務,不可能訓出超智能的模型。這就是為什么OpenAI從22年就開始說,要用AI來輔助人類進行評估[3]。
繼續思考,如果有個模型可以給出等同人類水平的監督信號,我們除了評估還可以用它干什么?當然是順著量變產生質變的思想,讓它自動化、規模化地幫忙迭代出AGI呀!
自動化:讓AI研究器自動規劃實驗、提供監督信號訓練模型
規模化:把上述自動流程擴展
迭代:AI研究器本身也是一個模型,讓它們雞生蛋蛋生雞,不斷互相訓練
想到這里,OpenAI為什么要構建「a roughly human-level automated alignment researcher」的思路就水到渠成了。不知道Jan Leike大佬的思考邏輯是怎樣的,反正我自己這么捋下來還挺順,歡迎討論。
如何做AI研究器
找到「AI研究器」這個啟動點之后,接下來就是怎么實現的問題了。相比于如何訓練出這個模型,Jan大佬把主要的中心都放在了如何構建自動化、全面化的評估上,其實跟上面的道理一樣,好的評估可以提供監督反饋,從而指導模型的迭代方向。
首先,需要能驗證模型可以達到人類水平。其實要真正評估出這個還是很難的,就像現在業內這么多模型,沒人能給出一個真的排行榜一樣。而且最好是自動化的,避免人來提供ground truth,才能進行更全面的評估。這里大佬提供了一個discriminator-critique gap的測量方法,比如我們做了一個編程模型,想利用ChatGPT自動評估他的效果,最簡單的做法是直接命令ChatGPT判斷某道編程題做的對不對。那問題就來了,我們怎么確定ChatGPT評估結果是否置信?都人工看一遍太浪費時間了。自動化的做法是直接基于ChatGPT訓練一個判斷變成結果是否正確的判別模型,然后我們專門用一些有label的難樣本,去看判別模型的準確率和ChatGPT的準確率,如果差的不多,就說明不用訓練也可以用它直接評估編程結果的好壞。
其次,自動化地進行魯棒性檢測、可解釋性分析。為啥非要做可解釋性呢?
可以為我們指出解決問題的途徑
現有很多研究是在做知識和神經元的關聯性,大佬認為更有意義的是自動化、規模化地去做,從而探究更高維度(模型整體)的可解釋性
最后,故意訓練不對齊的模型進行對抗測試,驗證評估方法的有效性。從而避免出現假對齊的情況。最極端的就是真訓出了一個超級智能,他可能會想辦法備份自己的權重,逃脫人類控制,需要專門通過其他代理任務(比如讓模型去hack某臺機器)看一下這個程度有多難,評估系統能否檢測出來。
投入成本的考量
OpenAI未來4年內將會在Superalignment上組建30-100人規模的團隊,投入20%的算力。其實20%個人感覺主要是先表個決心,這個數量Jan大佬說已經是對齊方向上最大的單筆投入了,做得好以后還會再加。
倒是4年這個規劃,說近不近說遠不遠,還關乎于其他從業者要經歷多久的紅利衰退期(狗頭),Jan給出了如下規劃:
2年內搞清楚用什么技術實現AI對齊研究器,把問題拆的足夠細,剩下就是工程問題了
3年內實現AI對齊研究器
剩下一年探索超級對齊
這么一看時間還是挺緊的,后面兩個計劃略顯樂觀,Jan給出的信心是85%,而且表示有很多實驗已經在實驗中了(至少從22年8月那個博文發出前就開始研究了)。他的信心主要來自于5方面:
語言模型的成功:LLM可以理解自然語言,讓我們可以向模型表達我們希望他們怎么做,操控起來更加容易
RLHF的效果超出預期:只用了很少的計算,甚至還沒嘗試收集數據,就可以在小模型上得到比大模型更好的效果
在評估度量方面已經取得了很多進展,可以提供改進的方向
評估比生成更簡單:如果人類只做評估,而不做生成,那么開發速度就會加快,還是自動化監督信號的思想
對語言模型的信念:語言模型很適合做超級對齊,任何任務都可以表述為文本的輸入輸出,不管是做實驗和理解結果都可以做
目前的技術還有用嗎
對于預訓練,Jan Leike認為預測下一個token這種方式并不一個長期目標,可能需要更好的任務。個人認為互聯網上視頻、圖像、文字數據遲早會被消耗殆盡,所以目前的預訓練主要是提供一個較好的基模型,后續高質量的監督信號應該會來源于模型本身,就像前文一直說的「自動化」。但這樣是否還能稱作「預訓練」就不一定了。
對于RLHF,Jan Leike也持懷疑態度,因為目前的監督信號來源于人工評判,但人工并不擅長區分看起來都很好的答案,各種論文顯示人類之間的一致率有70%就不錯了,這個監督信號本身自己都不一定對的齊。同時,需要人工就導致無法規模化擴展,也不符合我們增加計算量的需求。
目前預訓練+RLHF的范式大概率也只是AI發展中的一個版本,按照OpenAI的AI研究器思路,后續模型訓練的系統復雜度可能會提升很多,估計會有N多個擅長不同任務的AI研究器來訓一個模型,人工只需要提供少量監督信號,告訴系統要做什么,就可以讓他們自動運轉,訓完了自動同步權重,不斷升級。
總結
整個Jan Leike的采訪看下來,真的收獲頗豐,不知道有沒有清晰地表達出來,其實就是:
計算是核心,計算的量變產生智能的質變
加速有效計算量的方法是:自動化->規模化->迭代
就像人類百萬年來,從石器時代進化到現在的信息時代,科技的進步不是一蹴而就,而是螺旋上升,由幾代人的智慧凝結而成。
-
AI
+關注
關注
87文章
31077瀏覽量
269411 -
模型
+關注
關注
1文章
3259瀏覽量
48907 -
nlp
+關注
關注
1文章
489瀏覽量
22052 -
OpenAI
+關注
關注
9文章
1100瀏覽量
6572
原文標題:總結
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論