似乎每天都會有一個新的大型語言模型(LLM)誕生,其創(chuàng)造者和學(xué)術(shù)界也都會對其響應(yīng)人類提示的非凡能力進(jìn)行瘋狂般的評論。它可以修復(fù)代碼!它可以寫一封推薦信!它能快速總結(jié)一篇文章!
我是一名正在使用和教授此類模型的政治和數(shù)據(jù)科學(xué)家,從我的角度來看,學(xué)者們需要對 LLM 持謹(jǐn)慎態(tài)度。最廣受吹捧的 LLMs 是專有的和封閉的:由商業(yè)公司運營,不公開其基礎(chǔ)模型,無法供他人獨立檢查或驗證,研究人員和公眾不知道這些模型是在哪些文件上訓(xùn)練的。
急于將此類人工智能(AI)模型納入研究是一個問題。它們的使用威脅著來之不易的研究倫理學(xué)進(jìn)展和結(jié)果的可重復(fù)性。
相反,研究人員需要通力合作,開發(fā)透明的、不依賴公司的開源 LLM。
誠然,專有模型很方便,“開箱即用”。但是,當(dāng)務(wù)之急是投資于開源的 LLM,既要幫助建立它們,又要將它們用于研究。我很樂觀地認(rèn)為,它們將被廣泛采用,就像開源統(tǒng)計軟件一樣,專有的統(tǒng)計程序在最初會很受歡迎,但如今社區(qū)大多使用的是 R 或 Python 等開源平臺。
一個開源的 LLM,BLOOM,已于去年 7 月發(fā)布,其他建立開源 LLM 的努力也在進(jìn)行中。這類項目很好,但我認(rèn)為我們需要更多的合作,并匯集國際資源和專業(yè)知識。開源的 LLM 的資金通常不如大公司充足。而且,他們還需要在奔跑中站穩(wěn)腳跟:這個領(lǐng)域的發(fā)展如此之快,以至于 LLM 的一個版本在幾周或幾個月內(nèi)就變得過時了。加入這些努力的學(xué)者,越多越好。
而且,使用開源的 LLM 對可重復(fù)性至關(guān)重要。封閉式 LLM 的所有者可以在任何時候改變他們的產(chǎn)品或其訓(xùn)練數(shù)據(jù)——這可以改變科學(xué)研究的結(jié)果。
例如,一個研究小組可能會發(fā)表一篇論文,測試一個專有的 LLM 給出的建議是否能夠幫助臨床醫(yī)生更有效地與病人溝通。如果另一個小組試圖復(fù)制這項研究,他們不知道模型的基礎(chǔ)訓(xùn)練數(shù)據(jù)是否相同,甚至該技術(shù)是否仍然得到支持。OpenAI 的 GPT-3 已經(jīng)被 GPT-4 所取代,支持早期版本的 LLM 將不再是該公司的主要優(yōu)先事項。
相比之下,對于開源的 LLM,研究人員可以查看模型的很多細(xì)節(jié),以了解它是如何工作的,定制它的代碼并標(biāo)記錯誤。這些細(xì)節(jié)包括模型的可調(diào)整參數(shù)和它所訓(xùn)練的數(shù)據(jù)。社區(qū)的參與和監(jiān)督有助于使這些模型長期保持穩(wěn)定。
此外,在科學(xué)研究中使用專有的 LLM 對研究倫理也有令人不安的影響。用于訓(xùn)練這些模型的文本是未知的:它們可能包括社交媒體平臺上用戶之間的直接消息,或由在法律上無法同意共享其數(shù)據(jù)的兒童編寫的內(nèi)容。盡管制作公開文本的人們可能已經(jīng)同意了平臺的服務(wù)條款,但這也許不是研究人員希望看到的知情同意標(biāo)準(zhǔn)。
在我看來,科學(xué)家應(yīng)盡可能在自己的工作中不再使用這些模型。我們應(yīng)該轉(zhuǎn)而使用開放的 LLM,并盡力推廣它們。此外,學(xué)者們,尤其是那些擁有大量社交媒體粉絲的學(xué)者,不應(yīng)該告訴他人使用專有模型。如果價格飆升,或者公司倒閉,研究人員可能會后悔推廣了那些讓同事被困在昂貴合同中的技術(shù)。
目前,研究人員可以求助于私人組織制作的開放式 LLM。例如,我和我的同事們正在使用 Meta 公司的開放式 LLM OPT-175B。LLaMA 和 OPT-175B 都是免費使用的。但從長遠(yuǎn)來看,這樣做的壞處是使科學(xué)依賴于企業(yè)的 “仁慈”,這是一個充滿不穩(wěn)定性的局面。
因此,應(yīng)該有與 LLM 合作的學(xué)術(shù)行為準(zhǔn)則,以及監(jiān)管。但這些都需要時間。我預(yù)計,這種規(guī)定最初會很笨拙,而且生效緩慢。
同時,大規(guī)模的合作項目迫切需要支持,為研究訓(xùn)練開源模型。政府應(yīng)該通過撥款增加資金。該領(lǐng)域正在以閃電般的速度發(fā)展,現(xiàn)在需要開始協(xié)調(diào)國家和國際的努力。科學(xué)界最適合評估由此產(chǎn)生的模型的風(fēng)險,且需要謹(jǐn)慎向公眾推薦這些模型。
但是很明顯,開放的環(huán)境才是正確的。
審核編輯 :李倩
-
人工智能
+關(guān)注
關(guān)注
1791文章
47294瀏覽量
238578 -
開源
+關(guān)注
關(guān)注
3文章
3355瀏覽量
42510 -
語言模型
+關(guān)注
關(guān)注
0文章
525瀏覽量
10277 -
生成式AI
+關(guān)注
關(guān)注
0文章
504瀏覽量
478
原文標(biāo)題:Nature:為什么生成式AI要開源?紐約大學(xué)教授發(fā)文,“科學(xué)發(fā)展的道德之路”
文章出處:【微信號:信息與電子工程前沿FITEE,微信公眾號:信息與電子工程前沿FITEE】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論