本文來自“技術(shù)復(fù)盤與分析:Sora是如何成功的?”,報告深入分析了Sora的各項能力、采用的技術(shù)路線和創(chuàng)新性的工作。我們認(rèn)為Sora是將之前的研究工作上進行了很好的綜合,并在強大的算力、工程能力以及GPT和DALL·E模型技術(shù)積累下誕生的。
隨著OpenAI將這種具有開創(chuàng)性的技術(shù)路徑走通,國內(nèi)模型和應(yīng)用廠商有望快速迭代出類Sora的視頻生成模型和應(yīng)用產(chǎn)品。
Sora的突破可以概括為以下幾點:
? 從生成效果看,突破此前視頻生成模型的時長限制,能夠生成60s時長、分辨率1080p的視頻,可用性極高。
? 從技術(shù)路線看,依舊遵從LLM范式“大力出奇跡”,通過patches向量化與transformer架構(gòu)結(jié)合,使得訓(xùn)練數(shù)據(jù)能夠使用大小、尺寸、分辨率不同的視頻,能夠讓模型學(xué)習(xí)到視頻的規(guī)律乃至世界的規(guī)律;使用GPT生成prompt,在訓(xùn)練和推理過程中解決了模態(tài)之間的對齊問題,大大提升了生成效果。
? 從產(chǎn)業(yè)發(fā)展看,Sora通用性極強,有望統(tǒng)一視頻生成生態(tài);能夠進一步賦能與促進下游應(yīng)用發(fā)展,未來有望成為真正的“世界模擬器” 。
Sora的誕生無異是產(chǎn)業(yè)的里程碑,以其為代表的“多模型協(xié)同”方式是接近AGI的可行道路。與Gemini這樣的多模態(tài)模型不同,Sora的核心能力依舊在視頻生成領(lǐng)域,且在推理時需要調(diào)用GPT的能力重述prompt。這種方式可能不如Gemini符合直覺,但效果非常顯著,大大加速了產(chǎn)業(yè)走向AGI的過程。
Sora代表LLM的通用和涌現(xiàn)范式在視頻領(lǐng)域的成功復(fù)現(xiàn),因此算力依舊是模型與應(yīng)用廠商布局的關(guān)鍵。通過巧妙的patches嵌入方法,Sora能夠運用高效的Transformer架構(gòu)在海量的視頻上進行訓(xùn)練,因此也涌現(xiàn)了模擬現(xiàn)實世界的能力。在其他技術(shù)路徑的模型獲得更好的效果之前,這種“大力出奇跡”的訓(xùn)練方式將依舊是產(chǎn)業(yè)的主流,算力需求將持續(xù)迎來更大的爆發(fā)。
Sora可能成為視頻生成領(lǐng)域的Base Model,模型層的競爭格局可能走向收斂。相比其他輕應(yīng)用,Sora的生成時長更長、質(zhì)量更高,能夠完全替代這些輕應(yīng)用。因此在多數(shù)場景下,Sora都能取代其他的生成模型和應(yīng)用,最終使視頻模型格局走向收斂。
-
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48836 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15372 -
Sora
+關(guān)注
關(guān)注
0文章
81瀏覽量
198
原文標(biāo)題:復(fù)盤與分析:Sora是如何成功的?
文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論