如何发布网络小说,有声读物,欢乐颂第一季免费阅读

對于怎么實現AGI這個玄學的目標，感覺大家都是差不多的狀態：咱也不知道怎么做，但就是覺得現在的LLM技術還遠遠不夠。

所以之前看到OpenAI說要用模型去做對齊研究[1]，以及最近發話要4年內做出SuperAlignment[2]時，我都是一臉問號，覺得沒什么新東西，get不到他們的思路。

為什么要做AI研究器

直到最近斷斷續續刷了兩遍Jan Leike的訪談，我突然有種悟了的感覺，原來核心思想就這么簡單。而且回過頭看，OpenAI近幾年其實就是在遵循這個思想，卻做出了看似「暴力」的一個個突破。

OpenAI所選擇的路徑就是：「Turn compute into alignment」，通過計算的量變產生智能的質變。計算需要數據、算力、模型框架的共同作用，拆解成具體的步驟，則是自動化->規模化->迭代。

以前我們總以「范式」這個詞來劃分NLP的發展，比如監督學習->預訓練+精調->預訓練+RLHF。其實這些范式只是增加有效計算量的方法：

自動化：有監督 -> 自監督，擺脫人的依賴，更高效地獲取監督信號

規模化：在更多的數據、更大的模型上進行更多的計算

迭代：不斷基于新的case迭代模型，形成數據飛輪

自動化和規模化所帶來的質變不用多說，GPT系列足以證明。但最后一步的「迭代」卻經常被忽視，而這可能是通向Superalignment重要的一步，Alpha GO就是最好的栗子。它從最開始模仿人類棋手落子，到具備基本能力后不斷自我博弈，最終超越人類棋手。

那么問題來了：目前我們所做的「迭代」，不管是RLHF還是純SFT，仍舊需要人工提供監督信號，無法做到自動化和規模化，迭代速度就會很慢。同時人類也無法監督超越自身水平的任務，不可能訓出超智能的模型。這就是為什么OpenAI從22年就開始說，要用AI來輔助人類進行評估[3]。

繼續思考，如果有個模型可以給出等同人類水平的監督信號，我們除了評估還可以用它干什么？當然是順著量變產生質變的思想，讓它自動化、規模化地幫忙迭代出AGI呀！

自動化：讓AI研究器自動規劃實驗、提供監督信號訓練模型

規模化：把上述自動流程擴展

迭代：AI研究器本身也是一個模型，讓它們雞生蛋蛋生雞，不斷互相訓練

想到這里，OpenAI為什么要構建「a roughly human-level automated alignment researcher」的思路就水到渠成了。不知道Jan Leike大佬的思考邏輯是怎樣的，反正我自己這么捋下來還挺順，歡迎討論。

如何做AI研究器

找到「AI研究器」這個啟動點之后，接下來就是怎么實現的問題了。相比于如何訓練出這個模型，Jan大佬把主要的中心都放在了如何構建自動化、全面化的評估上，其實跟上面的道理一樣，好的評估可以提供監督反饋，從而指導模型的迭代方向。

首先，需要能驗證模型可以達到人類水平。其實要真正評估出這個還是很難的，就像現在業內這么多模型，沒人能給出一個真的排行榜一樣。而且最好是自動化的，避免人來提供ground truth，才能進行更全面的評估。這里大佬提供了一個discriminator-critique gap的測量方法，比如我們做了一個編程模型，想利用ChatGPT自動評估他的效果，最簡單的做法是直接命令ChatGPT判斷某道編程題做的對不對。那問題就來了，我們怎么確定ChatGPT評估結果是否置信？都人工看一遍太浪費時間了。自動化的做法是直接基于ChatGPT訓練一個判斷變成結果是否正確的判別模型，然后我們專門用一些有label的難樣本，去看判別模型的準確率和ChatGPT的準確率，如果差的不多，就說明不用訓練也可以用它直接評估編程結果的好壞。

其次，自動化地進行魯棒性檢測、可解釋性分析。為啥非要做可解釋性呢？

可以為我們指出解決問題的途徑

現有很多研究是在做知識和神經元的關聯性，大佬認為更有意義的是自動化、規模化地去做，從而探究更高維度（模型整體）的可解釋性

最后，故意訓練不對齊的模型進行對抗測試，驗證評估方法的有效性。從而避免出現假對齊的情況。最極端的就是真訓出了一個超級智能，他可能會想辦法備份自己的權重，逃脫人類控制，需要專門通過其他代理任務（比如讓模型去hack某臺機器）看一下這個程度有多難，評估系統能否檢測出來。

投入成本的考量

OpenAI未來4年內將會在Superalignment上組建30-100人規模的團隊，投入20%的算力。其實20%個人感覺主要是先表個決心，這個數量Jan大佬說已經是對齊方向上最大的單筆投入了，做得好以后還會再加。

倒是4年這個規劃，說近不近說遠不遠，還關乎于其他從業者要經歷多久的紅利衰退期（狗頭），Jan給出了如下規劃：

2年內搞清楚用什么技術實現AI對齊研究器，把問題拆的足夠細，剩下就是工程問題了

3年內實現AI對齊研究器

剩下一年探索超級對齊

這么一看時間還是挺緊的，后面兩個計劃略顯樂觀，Jan給出的信心是85%，而且表示有很多實驗已經在實驗中了（至少從22年8月那個博文發出前就開始研究了）。他的信心主要來自于5方面：

語言模型的成功：LLM可以理解自然語言，讓我們可以向模型表達我們希望他們怎么做，操控起來更加容易

RLHF的效果超出預期：只用了很少的計算，甚至還沒嘗試收集數據，就可以在小模型上得到比大模型更好的效果

在評估度量方面已經取得了很多進展，可以提供改進的方向

評估比生成更簡單：如果人類只做評估，而不做生成，那么開發速度就會加快，還是自動化監督信號的思想

對語言模型的信念：語言模型很適合做超級對齊，任何任務都可以表述為文本的輸入輸出，不管是做實驗和理解結果都可以做

目前的技術還有用嗎

對于預訓練，Jan Leike認為預測下一個token這種方式并不一個長期目標，可能需要更好的任務。個人認為互聯網上視頻、圖像、文字數據遲早會被消耗殆盡，所以目前的預訓練主要是提供一個較好的基模型，后續高質量的監督信號應該會來源于模型本身，就像前文一直說的「自動化」。但這樣是否還能稱作「預訓練」就不一定了。

對于RLHF，Jan Leike也持懷疑態度，因為目前的監督信號來源于人工評判，但人工并不擅長區分看起來都很好的答案，各種論文顯示人類之間的一致率有70%就不錯了，這個監督信號本身自己都不一定對的齊。同時，需要人工就導致無法規模化擴展，也不符合我們增加計算量的需求。

目前預訓練+RLHF的范式大概率也只是AI發展中的一個版本，按照OpenAI的AI研究器思路，后續模型訓練的系統復雜度可能會提升很多，估計會有N多個擅長不同任務的AI研究器來訓一個模型，人工只需要提供少量監督信號，告訴系統要做什么，就可以讓他們自動運轉，訓完了自動同步權重，不斷升級。

總結

整個Jan Leike的采訪看下來，真的收獲頗豐，不知道有沒有清晰地表達出來，其實就是：

計算是核心，計算的量變產生智能的質變

加速有效計算量的方法是：自動化->規模化->迭代

就像人類百萬年來，從石器時代進化到現在的信息時代，科技的進步不是一蹴而就，而是螺旋上升，由幾代人的智慧凝結而成。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
31077

瀏覽量
269411
模型

模型

+關注

關注
1

文章
3259

瀏覽量
48907
nlp

nlp

+關注

關注
1

文章
489

瀏覽量
22052
OpenAI

OpenAI

+關注

關注
9

文章
1100

瀏覽量
6572

原文標題：總結

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

為什么要做AI研究器

評論

當我們談AI時我們要做什么？

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

AI for Science：人工智能驅動科學創新》第4章-AI與生命科學讀后感

基于CPLD的SPI控制器的研究與實現

需要做一套水質監測系統，想請問一下各位大神有研究得能提供一下方案不

「AI大學·未來課棧@成都棧」報名開啟，AI 帶你大開眼界！

AI研究所：指甲上有問題，去醫院該掛什么科？

【免費直播】讓AI芯片擁有最強大腦—AI芯片的操作系統設計介紹.

【HarmonyOS HiSpark AI Camera】基于HiSpark AI Camera HarmonyOS 智能巡檢機器人開發

MCU也需要AI嗎

AI是什么呢？AI應用又會給人們帶來哪些改變

Ai 部署的臨界考慮電子指南

依圖率先入局，AI算法獨角獸為什么要做芯片？

AI ready是什么？文明的發展需要做好準備

世界榮耀，做AI時代的海