在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

2025年:大模型Scaling Law還能繼續(xù)嗎

SSDFans ? 來源:SSDFans ? 2025-01-15 14:32 ? 次閱讀

OpenAI 最近推出了其新的推理模型 o3,該模型在 ARC 數(shù)據(jù)集上大幅超越了之前的最佳性能(SOTA),并在具有挑戰(zhàn)性的 FrontierMath 數(shù)據(jù)集上取得了令人驚嘆的結(jié)果。很明顯,該模型在推理能力方面是一個(gè)重要的進(jìn)步。

然而,最近關(guān)于人工智能進(jìn)展停滯的報(bào)道中包含了一種對進(jìn)展速度的悲觀情緒。許多人可能仍然在思考大型語言模型(LLM)擴(kuò)展法則,這些法則預(yù)測計(jì)算、數(shù)據(jù)和模型大小的增加將導(dǎo)致更好的模型,是否已經(jīng)“遇到了瓶頸”。我們是否達(dá)到了基于變換器的 LLMs 當(dāng)前范式的可擴(kuò)展性極限?

除了首次公開發(fā)布的推理模型(OpenAI 的 o1、Google 的 Gemini 2.0 Flash,以及即將在 2025 年發(fā)布的 o3)之外,大多數(shù)模型提供商似乎都在進(jìn)行表面上看似漸進(jìn)式的現(xiàn)有模型改進(jìn)。從這個(gè)意義上說,2024 年基本上是一年的發(fā)展鞏固,許多模型在本質(zhì)上已經(jīng)趕上了年初的主流模型 GPT-4。

但這掩蓋了像 GPT-4o、Sonnet 3.5、Llama 3 等“主力”模型(即非推理模型)所取得的實(shí)際進(jìn)展,這些模型在 AI 應(yīng)用中最為頻繁。大型實(shí)驗(yàn)室一直在推出這些模型的新版本,這些新版本在各個(gè)任務(wù)上都推動了 SOTA 性能,并且在編程和解決數(shù)學(xué)問題等任務(wù)上帶來了巨大的改進(jìn)。

不可忽視的是,2024 年模型性能的改進(jìn)主要是由訓(xùn)練后和測試時(shí)計(jì)算的擴(kuò)展所驅(qū)動的。在預(yù)訓(xùn)練方面,新聞并不多。這導(dǎo)致了一些猜測,即(預(yù)訓(xùn)練)擴(kuò)展法則正在崩潰,我們已經(jīng)達(dá)到了當(dāng)前模型、數(shù)據(jù)和計(jì)算所能達(dá)到的極限。

在這篇文章中,將回顧 LLM 擴(kuò)展法則的歷史,并分享對未來方向的看法。從外部預(yù)測大型 AI 實(shí)驗(yàn)室的進(jìn)展是困難的。對 2025 年 LLM 擴(kuò)展可能如何繼續(xù)的總結(jié):

預(yù)訓(xùn)練:有限 - 計(jì)算擴(kuò)展正在進(jìn)行中,但我們可能受限于足夠規(guī)模的新高質(zhì)量數(shù)據(jù);

訓(xùn)練后:更有可能 - 合成數(shù)據(jù)的使用已被證明非常有效,這可能會繼續(xù)下去;

推理時(shí):也很有可能 - OpenAI 和 Google/Deepmind 在今年開始了這一趨勢,其他參與者將跟進(jìn);同時(shí),注意開源復(fù)制;在應(yīng)用層面,我們將看到越來越多的代理產(chǎn)品。

什么是 LLM 擴(kuò)展法則?

在深入探討之前,什么是 LLM 擴(kuò)展法則?簡而言之:它們是關(guān)于規(guī)模(以計(jì)算、模型大小和數(shù)據(jù)集大小衡量)與模型性能之間相關(guān)性的經(jīng)驗(yàn)觀察。

有了這個(gè)背景,讓我們看看我們目前的位置以及我們是如何走到這一步的。

計(jì)算最優(yōu)的預(yù)訓(xùn)練 - Kaplan 和 Chinchilla

最初的擴(kuò)展法則指的是 LLMs 的預(yù)訓(xùn)練階段。Kaplan 擴(kuò)展法則(OpenAI,2020)建議,隨著、預(yù)訓(xùn)練計(jì)算預(yù)算增加,應(yīng)該更多地?cái)U(kuò)展模型大小而不是數(shù)據(jù)。這意味著:給定 10 倍的訓(xùn)練預(yù)算增加,應(yīng)該將模型大小擴(kuò)展 5.5 倍,數(shù)據(jù)擴(kuò)展 1.8 倍。

2020 年由 OpenAI 發(fā)布的 GPT-3,很可能遵循了這些擴(kuò)展法則,并且在給定其大小的情況下,訓(xùn)練數(shù)據(jù)量異常少。也就是說,它有 1750 億參數(shù),但僅在 3000 億token上進(jìn)行了訓(xùn)練,這相當(dāng)于大約 1.7 個(gè)token/參數(shù)。

這些原始擴(kuò)展法則存在一些缺陷,例如沒有考慮嵌入?yún)?shù),并且通常使用相對較小的模型來估計(jì)擴(kuò)展法則,這并不一定適用于大型模型。Chinchilla 擴(kuò)展法則(Deepmind,2022)糾正了一些這些缺陷,并得出了非常不同的結(jié)論。

特別是,數(shù)據(jù)的重要性比以前認(rèn)為的要大得多,因此模型大小和數(shù)據(jù)應(yīng)該與計(jì)算同等比例地?cái)U(kuò)展。這些新發(fā)現(xiàn)表明,像 GPT-3 和當(dāng)時(shí)發(fā)布的其他模型實(shí)際上是嚴(yán)重欠擬合的。一個(gè)像 GPT-3 這樣的 1750 億參數(shù)的模型應(yīng)該在大約 3.5T token上進(jìn)行訓(xùn)練才能達(dá)到計(jì)算最優(yōu),這大約是 20 個(gè)token/參數(shù)。或者,通過反向論證,像 GPT-3 這樣的模型應(yīng)該小 20 倍,即只有 150 億參數(shù)。

6c47f090-d2d4-11ef-9310-92fbcf53809c.png

Chinchilla 陷阱:優(yōu)化推理

僅僅遵循 Chinchilla 擴(kuò)展法則會導(dǎo)致“Chinchilla 陷阱”,即你最終會得到一個(gè)太大、因此在大規(guī)模推理時(shí)運(yùn)行成本過高的模型。例如,在 Touvron 等人(Meta,2023)的 Llama 1 論文中,指出損失在 Chinchilla 最優(yōu)之后繼續(xù)下降。Llama 1 模型以高達(dá) 142 個(gè)token/參數(shù)的比例進(jìn)行訓(xùn)練,這是最小的(70 億)模型,訓(xùn)練在 1T 標(biāo)記上。這一趨勢繼續(xù)出現(xiàn)在 Llama 2(Meta,2023)中,token翻倍至 2T,導(dǎo)致高達(dá) 284 個(gè)token/參數(shù)的比例。最后,也在 Llama 3(Meta,2024)中出現(xiàn),比例高達(dá) 1,875 個(gè)token/參數(shù)(80 億模型在 15T tokne上訓(xùn)練)。訓(xùn)練這些小型模型更長時(shí)間使它們達(dá)到出人意料地高性能,且在推理時(shí)運(yùn)行成本較低。

這種證據(jù)不僅來自 Llama 3 模型訓(xùn)練在極高的token參數(shù)比例上,而且來自文獻(xiàn)。例如,Sardana 等人(MosaicML,2023)估計(jì)了考慮推理時(shí)計(jì)算的擴(kuò)展法則。在他們的實(shí)驗(yàn)中,他們訓(xùn)練了高達(dá) 10,000 個(gè)token/參數(shù) 的模型比例,并發(fā)現(xiàn)損失在 Chinchilla 最優(yōu)之后繼續(xù)下降。這些圖表很好地說明了訓(xùn)練小型模型更長時(shí)間的點(diǎn),以及如何導(dǎo)致如果預(yù)期有足夠高的推理需求,總成本更低。

6c4f5b8c-d2d4-11ef-9310-92fbcf53809c.png

Sardana et al. (2023)

測試時(shí)間計(jì)算擴(kuò)展

不用說,隨著數(shù)據(jù)和參數(shù)越來越多地訓(xùn)練模型,計(jì)算成本越來越高。在 Llama 3 論文中,旗艦?zāi)P偷挠?xùn)練使用了 3.8×10^25 FLOPs,這是 Llama 2 的 50 倍。根據(jù) EpochAI,截至 2024 年 12 月,已知的最大訓(xùn)練預(yù)算是在 Gemini Ultra 的情況下,為 5×10^25 FLOPs。計(jì)算量非常大,尤其是如果考慮將其擴(kuò)大幾個(gè)數(shù)量級的話。

6c6bc4de-d2d4-11ef-9310-92fbcf53809c.png

OpenAI 2024

作為回應(yīng),2024 年發(fā)布了像 OpenAI 的 o1 和最近的 o3 這樣的模型,這些模型利用測試時(shí)計(jì)算來生成預(yù)測。所以,這些模型不是立即生成答案,而是在測試時(shí)生成思維鏈,或使用 RL 技術(shù)來生成更好的答案。通俗地說,可以說我們給了模型更多時(shí)間來“思考”再給出答案。這催生了一種完全不同的 LLM 擴(kuò)展法則,即測試時(shí)計(jì)算。

推薦聽聽 OpenAI 的 Noam Brown 的有趣演講,他談到了他在訓(xùn)練用于玩撲克、國際象棋、Hex 等游戲的模型時(shí)學(xué)到的經(jīng)驗(yàn),以及測試時(shí)計(jì)算如何使 SOTA 性能成為可能,這些性能僅通過擴(kuò)展訓(xùn)練計(jì)算是無法實(shí)現(xiàn)的。

例如,如果存在訓(xùn)練和推理時(shí)間計(jì)算之間的權(quán)衡,即可以用 10 倍的訓(xùn)練預(yù)算換取 15 倍的推理時(shí)間計(jì)算增加,那么在訓(xùn)練計(jì)算已經(jīng)非常昂貴而推理計(jì)算非常便宜的情況下,這樣做是有意義的。

6c798aec-d2d4-11ef-9310-92fbcf53809c.png

Jones (2021)

擴(kuò)展法則是否仍然有效,還是我們已經(jīng)遇到了瓶頸?

這是個(gè)大問題,從大型實(shí)驗(yàn)室外部很難回答。讓我們回顧一下他們內(nèi)部的說法,同時(shí)要意識到他們的陳述可能存在一些偏見。

Anthropic 的 Dario Amodei 表示:“我見過這種情況發(fā)生很多次,真的相信擴(kuò)展可能會繼續(xù),而且其中有一些我們還沒有在理論上解釋清楚的魔力。”

OpenAI 的 Sam Altman 則表示:“沒有遇到瓶頸。”

此外,公司仍在擴(kuò)大他們的數(shù)據(jù)中心,xAI 的 Colossus 集群托管了 10 萬個(gè) H100 節(jié)點(diǎn),并計(jì)劃將其擴(kuò)展到至少 100 萬個(gè)。

盡管在擴(kuò)展計(jì)算能力時(shí)存在工程挑戰(zhàn)和能源瓶頸,但這一過程正在進(jìn)行中。然而,計(jì)算能力只是 LLM 擴(kuò)展法則中的一個(gè)因素,另外兩個(gè)因素是模型大小和數(shù)據(jù)。有了更大的集群,也可以在給定時(shí)間內(nèi)訓(xùn)練更大的模型。不過,數(shù)據(jù)的擴(kuò)展則是另一回事。

EpochAI 估計(jì),在索引的網(wǎng)絡(luò)中有 510T 個(gè)token的數(shù)據(jù)可用,而已知的最大數(shù)據(jù)集是大約 18T 個(gè)token(Qwen2.5)。看起來似乎還有很大的空間可以擴(kuò)展數(shù)據(jù),但其中大部分?jǐn)?shù)據(jù)質(zhì)量較低或重復(fù)。再加上從 1-2 年前開始,互聯(lián)網(wǎng)上新增的大量文本是由 LLM 生成的。盡管還有可能的新數(shù)據(jù)源可用,例如轉(zhuǎn)錄互聯(lián)網(wǎng)上的所有視頻,或者使用不在開放互聯(lián)網(wǎng)上的文本(例如專有數(shù)據(jù)),但低垂的果實(shí)已經(jīng)被采摘了。

6c8684cc-d2d4-11ef-9310-92fbcf53809c.png

EpochAI

擴(kuò)展的邊際效益遞減實(shí)際上正是冪律關(guān)系所預(yù)期的。也就是說,為了獲得第一單位的改進(jìn),需要 1 單位的數(shù)據(jù),然后是 10 單位用于下一個(gè)改進(jìn),接著是 100 單位,以此類推。正如 Yann LeCun 所說,這適用于所有“長尾”領(lǐng)域,即隨著數(shù)據(jù)集大小的增加,輸入的多樣性不斷增長的領(lǐng)域,如對話和問答

從擴(kuò)展法則的方程式和圖表來看,應(yīng)該清楚地認(rèn)識到這些關(guān)系是有極限的,這一點(diǎn)也得到了 Kaplan 原始論文[3]的認(rèn)可。原因在于自然語言中固有的熵,以及損失無法降低到零。因此,雖然目前看來性能似乎只是隨著計(jì)算、數(shù)據(jù)、模型大小的對數(shù)線性增長,但最終它必須趨于平穩(wěn)。問題不在于是否會趨于平穩(wěn),而在于何時(shí)會發(fā)生。

我們現(xiàn)在已經(jīng)達(dá)到了這個(gè)點(diǎn)了嗎?很難回答,因?yàn)檫@不僅僅是簡單地將計(jì)算或數(shù)據(jù)再擴(kuò)展一個(gè)數(shù)量級并看看會發(fā)生什么。AI 實(shí)驗(yàn)室正在構(gòu)建大型的新集群,這將使他們能夠更長時(shí)間地訓(xùn)練模型,并觀察損失是否繼續(xù)以相同的速度減少。據(jù)我們所知,我們還沒有在 10 萬個(gè) H100 節(jié)點(diǎn)上訓(xùn)練這些模型,更不用說 100 萬個(gè)了,所以很難判斷我們還能將訓(xùn)練損失降低多少。更重要的是,我們只有一個(gè)互聯(lián)網(wǎng),所以擴(kuò)展數(shù)據(jù)是一個(gè)更困難的問題。正如我們從 Kaplan 擴(kuò)展法則中知道的,只有當(dāng)模型不受這些因素之一的限制時(shí),這些法則才成立。

6c966b9e-d2d4-11ef-9310-92fbcf53809c.png

Ilya Sutskever在NeurIPS 2024

然而,鑒于那些利用測試時(shí)計(jì)算的模型所表現(xiàn)出的令人印象深刻的表現(xiàn),以及OpenAI 的 o3 的發(fā)布,很明顯,擴(kuò)展測試時(shí)計(jì)算是未來的發(fā)展趨勢。

如下面的圖表所示,當(dāng)擴(kuò)展測試時(shí)計(jì)算時(shí),在具有挑戰(zhàn)性的 Arc 數(shù)據(jù)集上的性能提升是相當(dāng)顯著的。從 o3 low到 o3 high,模型被賦予了 172 倍更多的計(jì)算資源來生成答案。它平均每道題使用 5700 萬個(gè)token,相當(dāng)于 13.8 分鐘的運(yùn)行時(shí)間,而在低計(jì)算設(shè)置中,它每道題僅使用 33 萬個(gè)token,即每道題 1.3 分鐘。

根據(jù) Noam Brown 的說法,這只是開始。明年,我們可能會讓模型運(yùn)行數(shù)小時(shí)、數(shù)天甚至數(shù)周來回答真正具有挑戰(zhàn)性的問題。

6ca54ab0-d2d4-11ef-9310-92fbcf53809c.jpg

Arc Prize網(wǎng)站

結(jié)論

鑒于目前的發(fā)展勢頭和硬件部署情況,人們將會嘗試通過投入更多的計(jì)算資源來進(jìn)一步推動擴(kuò)展法則。這可能是在訓(xùn)練方面,通過延長預(yù)訓(xùn)練時(shí)間或在訓(xùn)練后投入更多資源,但尤其在推理方面,通過讓模型“思考”更長時(shí)間后再給出答案。

公眾可能并不總是能夠接觸到最大的模型,這些模型可能性能最佳,但運(yùn)行成本過高。像 GPT4o 或 Sonnet 3.5 這樣的模型,可能更適合用于推理的小型模型。而擁有 4050 億參數(shù)的 Llama 3 模型,雖然相當(dāng)龐大,但可以作為小型模型的優(yōu)秀教師模型,或者用于生成合成數(shù)據(jù)。

今年的趨勢,肯定會延續(xù)到 2025 年(在一年的這個(gè)時(shí)間點(diǎn)上,這是一個(gè)容易做出的預(yù)測):

代理(Agents)

測試時(shí)計(jì)算(Test-time compute)

合成數(shù)據(jù)(Synthetic data)

代理實(shí)際上也是測試時(shí)計(jì)算的一種方式,但這種方式比大型實(shí)驗(yàn)室更易于公眾和應(yīng)用開發(fā)者接觸。盡管如此,大型實(shí)驗(yàn)室也在大力投資代理技術(shù)。

測試時(shí)計(jì)算是關(guān)鍵。正如我們在 o1 Gemini 2.0 Flash 和 o3 中所看到的,這些將是解決需要更復(fù)雜推理的用例,或者在需要權(quán)衡一些訓(xùn)練計(jì)算以換取更多推理計(jì)算的情況下的解決方案。

至于合成數(shù)據(jù),它主要用于訓(xùn)練后,但也可以將清理互聯(lián)網(wǎng)視為一種合成數(shù)據(jù)生成的方式。從今年的 LLM 論文中可以看出,合成數(shù)據(jù)對于 SFT 在數(shù)學(xué)和編程等任務(wù)上的性能提升非常重要。在某些領(lǐng)域,合成數(shù)據(jù)比其他領(lǐng)域更有用,所以不確定它是否真的能夠填補(bǔ)人類撰寫數(shù)據(jù)缺失的空白。

因此,本文的結(jié)論是,我們可能已經(jīng)達(dá)到了一個(gè)點(diǎn),即預(yù)訓(xùn)練擴(kuò)展法則并沒有完全崩潰,但可能正在放緩,這并不令人驚訝。這主要是因?yàn)槲覀円呀?jīng)耗盡了大量高質(zhì)量文本的來源。

然而,這并不意味著該領(lǐng)域不會再有任何進(jìn)展,因?yàn)轭A(yù)訓(xùn)練只是拼圖的一部分。正如我們所見,擴(kuò)展測試時(shí)計(jì)算和使用合成數(shù)據(jù),很可能是未來進(jìn)展的主要驅(qū)動力。至少到目前為止,我們可能只是處于測試時(shí)擴(kuò)展法則的早期階段,所以還有很大的改進(jìn)空間。

總之,這是我們看到的 2025 年 LLM 擴(kuò)展最具潛力的方向:

預(yù)訓(xùn)練:有限 - 計(jì)算擴(kuò)展正在進(jìn)行中,但我們可能受限于足夠規(guī)模的新高質(zhì)量數(shù)據(jù);

訓(xùn)練后:更有可能 - 合成數(shù)據(jù)的使用已被證明非常有效,這可能會繼續(xù)下去;

推理時(shí):也很有可能 - OpenAI 和 Google/Deepmind 在今年開始了這一趨勢,其他參與者將跟進(jìn);同時(shí),注意開源復(fù)制;在應(yīng)用層面,我們將看到越來越多的代理產(chǎn)品。

參考文獻(xiàn):

[1] T. Brown et al. Language Models are Few-Shot Learners, 2020.[paper]

[2] J. Hoffmann et al. Training Compute-Optimal Large Language Models, 2022.[paper]

[3] J. Kaplan et al. Scaling Laws for Neural Language Models, 2020.[paper]

[4] H. Touvron et al. LLaMA: Open and Efficient Foundation Language Models, 2023.[paper]

[5] H. Touvron et al. Llama 2: Open Foundation and Fine-Tuned Chat Models, 2023.[paper]

[6] Llama Team, AI @ Meta. The Llama 3 Herd of Models, 2024.[paper]

[7] N. Sardana et al. Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws, 2024.

原文鏈接:https://www.jonvet.com/blog/llm-scaling-in-2025

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2864

    瀏覽量

    3583
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    316

    瀏覽量

    588

原文標(biāo)題:2025年:大模型Scaling Law還能繼續(xù)嗎?

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦

    2025Q1通信業(yè)技術(shù)躍遷與生態(tài)重構(gòu):AI+低空經(jīng)濟(jì)雙輪驅(qū)動

    騰訊2024財(cái)報(bào)顯示,AI相關(guān)資本開支同比增長221.27%,2025計(jì)劃繼續(xù)加碼AI原生應(yīng)用研發(fā)及算力基礎(chǔ)設(shè)施建設(shè),其自研混元T1模型
    的頭像 發(fā)表于 04-03 15:11 ?505次閱讀
    <b class='flag-5'>2025</b><b class='flag-5'>年</b>Q1通信業(yè)技術(shù)躍遷與生態(tài)重構(gòu):AI+低空經(jīng)濟(jì)雙輪驅(qū)動

    2025星閃技術(shù)應(yīng)用巡回研討會-深圳站火熱報(bào)名中

    2025星閃技術(shù)應(yīng)用巡回研討會-深圳站火熱報(bào)名中,感興趣的可以關(guān)注【國際星閃聯(lián)盟】微信公眾號了解活動信息。
    發(fā)表于 03-25 10:17

    恩智浦分析2025無線連接技術(shù)趨勢

    2024,得益于智能家居技術(shù)的進(jìn)步、連接的增強(qiáng)以及行業(yè)標(biāo)準(zhǔn)的演進(jìn),物聯(lián)網(wǎng) (IoT) 繼續(xù)迅速擴(kuò)張。展望未來,2025將迎來更多創(chuàng)新,特別是在智能家居和樓宇領(lǐng)域。預(yù)計(jì)在
    的頭像 發(fā)表于 02-21 14:18 ?487次閱讀

    電子發(fā)燒友社區(qū)2025春節(jié)放假通知!

    尊敬的電子發(fā)燒友用戶及各位工程師: 新春佳節(jié)將至,電子發(fā)燒友全體員工提前祝大家新年快樂,闔家幸福,事業(yè)蒸蒸日上!感謝大家在過去一里的支持與陪伴,愿我們在新的一繼續(xù)攜手共進(jìn),共同探索科技的無限
    發(fā)表于 01-22 13:42

    曬獎(jiǎng)品——2024度優(yōu)秀版主

    感謝電子發(fā)燒友論壇,給予我2024度優(yōu)秀版主的光榮稱號。今天收到了獎(jiǎng)杯,分享如下: 在2025里,我獎(jiǎng)繼續(xù)努力為論壇做貢獻(xiàn)。 祝咱電子發(fā)燒友論壇
    發(fā)表于 01-19 11:20

    科技云報(bào)到:從大模型到云端,“AI+云計(jì)算”還能講出什么新故事

    科技云報(bào)到:從大模型到云端,“AI+云計(jì)算”還能講出什么新故事
    的頭像 發(fā)表于 01-07 13:27 ?262次閱讀

    OpenAI公布2025目標(biāo),AGI位列首位

    OpenAI的首席執(zhí)行官Sam Altman近日揭曉了公司2025的全新發(fā)展目標(biāo)。在此之前,Altman曾在個(gè)人社交媒體平臺上廣泛征集網(wǎng)友們對OpenAI的期望與建議。 經(jīng)過綜合考量與規(guī)劃
    的頭像 發(fā)表于 01-02 11:03 ?654次閱讀

    4G低功耗、帶屏等持續(xù)高增長,2025消費(fèi)類安防還能繼續(xù)火嗎?

    2024消費(fèi)類安防線上市場增長,4G低功耗攝像頭成核心趨勢,帶屏攝像頭市場份額低,黑光攝像頭或在線下突破,安防廠商需深思2025走勢。
    的頭像 發(fā)表于 12-29 15:34 ?588次閱讀

    復(fù)旦提出大模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

    在 AI 領(lǐng)域,近期的新聞焦點(diǎn)無疑是關(guān)于「Scaling Law 是否撞墻?」的辯論。這一曾經(jīng)被視作大模型發(fā)展的第一性原理,如今卻遭遇了挑戰(zhàn)。 ? 在這樣的背景下,研究人員開始意識到,與其單純堆砌
    的頭像 發(fā)表于 12-06 11:24 ?510次閱讀
    復(fù)旦提出大<b class='flag-5'>模型</b>推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

    訊飛星火低代碼智能體平臺全新升級

    Scaling Law魔法觸達(dá)瓶頸,智能體正在創(chuàng)造下一個(gè)風(fēng)口。
    的頭像 發(fā)表于 11-28 14:42 ?996次閱讀

    規(guī)模法則引領(lǐng)機(jī)器人領(lǐng)域新突破:邁向通用機(jī)器人的ChatGPT時(shí)刻

    如果將人工智能(AI)比喻為一個(gè)正在成長的孩子,那么規(guī)模法則(Scaling Law)就是其成長過程中的核心驅(qū)動力。只要給予這個(gè)“孩子”充足的數(shù)據(jù)、模型和算力這些“營養(yǎng)”,它便能茁壯成長。2020
    的頭像 發(fā)表于 11-08 09:27 ?714次閱讀

    芯片自激之后拆下來還能繼續(xù)使用嗎?

    芯片自激之后拆下來還能繼續(xù)使用
    發(fā)表于 08-30 10:04

    浪潮信息趙帥:開放計(jì)算創(chuàng)新 應(yīng)對Scaling Law挑戰(zhàn)

    北京20248月15日?/美通社/ -- 日前在2024開放計(jì)算中國峰會上,浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥表示,智能時(shí)代,開源模型和開放計(jì)算激發(fā)了人工智能產(chǎn)業(yè)生態(tài)的創(chuàng)新活力,面對大模型
    的頭像 發(fā)表于 08-15 16:02 ?411次閱讀
    浪潮信息趙帥:開放計(jì)算創(chuàng)新 應(yīng)對<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>挑戰(zhàn)

    百度預(yù)計(jì)2025下半年推出文心大模型5.0版本

    根據(jù)李彥宏去年十月份的披露,文心大模型4.0在發(fā)布后已經(jīng)在性能方面全面超越了GPT-4。據(jù)已知信息,百度世界大會通常在每年下半年舉行,據(jù)此推測,文心大模型5.0有望在2025下半年亮
    的頭像 發(fā)表于 05-29 11:27 ?796次閱讀

    股價(jià)久違飆漲,商湯要用自己的Scaling law挑戰(zhàn)GPT4

    前一天的“2024商湯技術(shù)交流日”上,商湯發(fā)布了對標(biāo)GPT4-Turbo的大模型日日新大模型SenseNova5.0,追趕GPT4可能是當(dāng)下中國大模型行業(yè)的集體目
    的頭像 發(fā)表于 05-08 08:05 ?276次閱讀
    股價(jià)久違飆漲,商湯要用自己的<b class='flag-5'>Scaling</b> <b class='flag-5'>law</b>挑戰(zhàn)GPT4
    主站蜘蛛池模板: 六月婷婷综合激情 | 欧美一卡二卡科技有限公司 | 国产视频一区二区在线观看 | 久久免费精品高清麻豆 | 五月天精品 | 黄色福利小视频 | 免费观看视频 | 在线观看黄色的网站 | jizz 大全欧美 | 免费黄色国产视频 | 免费大片a一级一级 | 亚洲精品香蕉婷婷在线观看 | 日韩一区二区三区在线 | 日本番囗 | 三级毛片免费 | www.日本免费 | 狠狠做久久深爱婷婷97动漫 | 午夜精品视频在线观看美女 | 亚洲一区二区三区在线播放 | 中国一级毛片aaa片 中国一级特黄aa毛片大片 | 国产香蕉一区二区精品视频 | www.av在线| 日本一区免费在线观看 | 综合色天天 | 黄色在线网站视频 | 在线播放ww| www男人的天堂 | 好看的一级毛片 | www.青草视频 | 精品久久香蕉国产线看观看亚洲 | 欧洲性开放大片免费观看视频 | 丁香婷婷综合五月六月 | 亚洲a级毛片 | xvideos国产| 欧美a欧美 | 天天操天天玩 | 毛片三级在线观看 | 午夜视频欧美 | 日日久 | 51精品国产 | 色偷偷尼玛图亚洲综合 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品