電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)今年春節(jié)期間,OpenAI的AI文字生成視頻模型Sora驚艷全世界,極高的視頻生成效果、長(zhǎng)達(dá)60秒的視頻生成長(zhǎng)度,讓過(guò)去Pika Labs推出的Pika 1.0、去年Runway推出的Gen-1、谷歌團(tuán)隊(duì)發(fā)布的VideoPoet等各種文生視頻模型都黯然失色。
然而,Sora在發(fā)布近4個(gè)月的時(shí)間里,依然沒(méi)有開(kāi)放普通用戶(hù)使用,同時(shí)也沒(méi)有更多的視頻案例流出,目前只有官方發(fā)布的演示視頻。
最近,快手旗下的名為“可靈”的文生視頻大模型上線(xiàn),與Sora不同的是,可靈發(fā)布即開(kāi)放申請(qǐng)使用,目前已經(jīng)有大量用戶(hù)獲得使用名額,社交平臺(tái)上已經(jīng)有不少用戶(hù)上傳了可靈生成的視頻,甚至在海外AI圈迅速爆火。
對(duì)比Sora,可靈的效果如何?
快手在推出可靈時(shí),很明確地表示可靈是“首個(gè)效果對(duì)標(biāo)Sora且面向用戶(hù)開(kāi)放的文生視頻大模型”。既然對(duì)標(biāo)Sora,那么就要看下雙方的實(shí)際表現(xiàn)如何了。
首先從生成視頻的指標(biāo)上看,Sora宣稱(chēng)能夠輸出1080p分辨率,最長(zhǎng)60秒的視頻,從OpenAI展示出的Demo來(lái)看,Sora的強(qiáng)大之處更在于物體模型的穩(wěn)定,不僅是在單鏡頭運(yùn)動(dòng)中物體建模能夠保持一致性,即使是多鏡頭的畫(huà)面切換中,依然能夠保持色彩、畫(huà)面風(fēng)格的一致。
可靈官方宣稱(chēng)的指標(biāo)是,支持長(zhǎng)達(dá)2分鐘的電影級(jí)畫(huà)面輸出,支持720p和1080p視頻輸出,幀率30fps,同時(shí)支持多種寬高比。可靈采用3D時(shí)空聯(lián)合注意力機(jī)制,能夠更好地建模復(fù)雜時(shí)空運(yùn)動(dòng),生成較大幅度運(yùn)動(dòng)的視頻內(nèi)容,同時(shí)能夠符合運(yùn)動(dòng)規(guī)律。
提示詞:小男孩在花園里騎自行車(chē)經(jīng)歷秋冬春夏四季變換
在一些演示視頻中,也可以看到可靈的物理建模比較穩(wěn)定,在一分多鐘的長(zhǎng)鏡頭畫(huà)面中,整體畫(huà)面一致性表現(xiàn)較為理想。
提示詞:微距鏡頭,火山在一個(gè)咖啡杯中噴發(fā)
文生視頻的一個(gè)重要應(yīng)用就是生成現(xiàn)實(shí)中不存在的畫(huà)面,能夠充分將人的想象力轉(zhuǎn)化成視頻。Sora發(fā)布之初在咖啡杯中的海盜船令人印象深刻,可靈官方演示視頻中也有類(lèi)似的案例。
提示詞:一個(gè)戴眼鏡的中國(guó)男孩在快餐店內(nèi)閉眼享受美味的芝士漢堡
在“吃漢堡”的場(chǎng)景中,Sora此前的演示視頻已經(jīng)較為真實(shí)地展示了漢堡的咬痕,但可靈添加了更多細(xì)節(jié),不僅是漢堡在被咬后的缺口,同時(shí)小男孩咬下漢堡后嘴邊殘留的碎屑也展現(xiàn)出來(lái)了,更加符合物理規(guī)律。
不過(guò),目前可靈內(nèi)測(cè)的版本只支持5秒、720p分辨率的視頻,有博主測(cè)試同樣提示詞,可靈有時(shí)候理解相對(duì)Sora會(huì)較弱。
比如提示詞:動(dòng)畫(huà)場(chǎng)景特寫(xiě)了一個(gè)跪在融化的紅燭旁的毛茸茸的小怪物。藝術(shù)風(fēng)格是3D和現(xiàn)實(shí)主義的,重點(diǎn)是照明和紋理。這幅畫(huà)的基調(diào)是驚奇和好奇,因?yàn)楣治锉牬笱劬堉炷曋鹧妗K淖藙?shì)和表情傳達(dá)出一種天真和頑皮的感覺(jué),就好像它是第一次探索周?chē)氖澜纭E蛻騽⌒詿艄獾氖褂眠M(jìn)一步增強(qiáng)了圖像的舒適氛圍。
這串細(xì)節(jié)描寫(xiě)豐富的提示詞,Sora官網(wǎng)展示的效果是這樣的:
而可靈是這樣的:
當(dāng)然,由于模型的不同,可能可靈的提示詞優(yōu)化方向會(huì)與Sora有所區(qū)別。
但從效果來(lái)看,可靈與Sora已經(jīng)十分接近,更重要的是,可靈已經(jīng)開(kāi)放公眾測(cè)試,Sora目前依然處于PPT階段。
文生視頻模型即將迎來(lái)大爆發(fā)?
盡管Sora表現(xiàn)依然有所領(lǐng)先,但此前Sora火爆出圈的短片《氣球人》被爆經(jīng)過(guò)大量后期調(diào)整,三個(gè)人的團(tuán)隊(duì)花了1.5至2周的時(shí)間才做出來(lái),團(tuán)隊(duì)自曝Sora生成的視頻素材最終用到影片里的只有1/300。
所以,Sora一直未開(kāi)放使用或許也有實(shí)際效果不如預(yù)期的考慮。因此,可靈的強(qiáng)大之處在于,實(shí)打?qū)嵉亻_(kāi)放給創(chuàng)作者使用,目前在快手旗下的快影APP中就能申請(qǐng)使用資格,截至6月14日,已經(jīng)有8萬(wàn)人在排隊(duì)審核中。
同時(shí),快手上已經(jīng)出現(xiàn)大量采用可靈制作的短片,通過(guò)多個(gè)5秒的短鏡頭拼接而成,實(shí)際效果可見(jiàn)即可得。
而近期除了可靈之外,Luma AI也對(duì)外開(kāi)放了其文生視頻模型Dream Machine,更是宣稱(chēng)可以輸出120秒120幀的高質(zhì)量視頻。
目前文生視頻模型,包括可靈、Sora等都采用了Diffusion Transformer作為整體架構(gòu),有觀點(diǎn)認(rèn)為,Sora并不是技術(shù)性的突破,而是產(chǎn)品性的突破。即文生視頻實(shí)際上也是大模型應(yīng)用的一個(gè)方向,而Sora就是其中一個(gè)突破性產(chǎn)品。
可靈領(lǐng)銜的文生視頻模型大規(guī)模應(yīng)用,更是代表著這類(lèi)產(chǎn)品的新高度。從產(chǎn)品上看,可以預(yù)見(jiàn),未來(lái)半年里,國(guó)內(nèi)外可能將會(huì)陸續(xù)涌現(xiàn)更多高質(zhì)量的文生視頻大模型產(chǎn)品,并大大加快迭代的進(jìn)度。
文生視頻大模型的爆發(fā),將會(huì)有很大可能,徹底改變未來(lái)短視頻創(chuàng)作的生態(tài)。
-
Sora
+關(guān)注
關(guān)注
0文章
81瀏覽量
198
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論