我吃西红柿,有声读物,雪鹰领主

來源｜AIGC開放社區

在 Sora 引爆文生視頻賽道之前，國內的字節跳動也推出了一款顛覆性視頻模型——Boximator。

與 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通過文本精準控制生成視頻中人物或物體的動作。

例如，下雨天，大風把一位女生的雨傘吹走了。目前，很少有視頻模型能精準做到這一點。

Boximator 案例賞析

我們先看一下 Boximator 與 Gen-2、Pink1.0，在使用相同的文本提示詞、圖像生成的視頻，所表現出來的不同動作。

為了方便觀察，「AIGC 開放社區」將對比視頻整合在一起，最左邊的是 Boximator 生成的視頻。

一個可愛的 3D 男孩站著，然后走路

在這個案例中，Pika 1.0 生成的視頻男孩只是站著沒有走動，Gen-2 的視頻走動了但不明顯，只有 Boximator 產生了明顯的走動動作。

一位英俊的男人用他的右手從口袋里拿出一朵玫瑰，并且在看著這朵玫瑰

這個案例 Pika 1.0 和 Gen-2 表現的都非常不好，男士沒有掏出玫瑰花的動作。Boximator 再一次完美理解文本語義并做出了相應的動作。

往杯子里加紅酒

這個案例主要展示了控制物體動作的能力，Pika 1.0 和 Gen-2 都做出了倒酒的動作，但是杯子里的酒沒有明顯上升的動作。只有 Boximator 做到了倒酒 + 上升兩個動作。

看了這 3 個案例，能感受到 Boximator 對文本語義精準理解，以及對動作控制的強大功能了吧。

Boximator 模型介紹

為了實現對視頻中物體、人物的動作控制，Boximator 使用了“軟框”和“硬框”兩種約束方法。

硬框：可精確定義目標對象的邊界框。用戶可以在圖片中畫出感興趣的對象,Boximator 會將其視為硬框約束, 在之后的幀中精準定位該對象的位置。

軟框：軟框定義一個對象可能存在的區域, 形成一個寬松的邊界框。對象需要停留在這個區域內, 但位置可以有一定變化，實現適度的隨機性。

兩類框都包含目標對象的 ID, 用于在不同幀中跟蹤同一對象。此外, 框還包含坐標、類型等信息的編碼。

控制模塊和訓練策略

控制模塊可以將框約束的編碼與視頻幀的視覺編碼結合，用來指導視頻的精準動作生成。包含框編碼器和自注意力層兩大塊。

框編碼器：將框的坐標、ID、類型等信息, 通過 Fourier 編碼和 MLP 映射為控制向量。

自注意力層：將框的控制向量與視頻幀的視覺向量通過自注意力建模其關系, 學習將框指導幀生成。

訓練策略方面，Boximator 主要分為兩個階段: 自跟蹤階段，訓練模型的同時生成視頻內容和對應的框，并簡化框與對象的關系學習。

正常訓練，訓練模型只生成視頻內容, 框的內在表達已經學會指導對象生成。此外, 訓練還使用多階段策略，逐步過渡從硬框到軟框的約束, 以及適當融合無框數據。

Boximator 實驗數據

為獲得視頻訓練數據, 研究人員從 WebVid-10M 數據集中，過濾出 110 萬段動態明顯的視頻片段, 并自動為其注釋了 220 萬個對象的邊界框。并在 PixelDance 和 ModelScope 這兩個模型上訓練了 Boximator。

實驗數據顯示，Boximator 在保持原模型視頻質量, 具有非常強大的動作控制能力。同時可以作為一種插件，幫助現有視頻擴散模型提升生成質量。

在 MSR-VTT 數據集上, 無論是視頻質量還是框與對象對齊精度方面,Boximator 都優于原模型。在人類評估中,Boximator 生成的視頻也在質量和運動控制上明顯超過原模型。

字節跳動的研究人員表示，目前該模型處于研發階段，預計 2-3 個月內發布測試網站。讓我們期待一下國內挑戰 Sora 的產品誕生吧！

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

字節跳動

字節跳動

+關注

關注
0

文章
318

瀏覽量
8932
Sora

Sora

+關注

關注
0

文章
81

瀏覽量
199

原文標題：字節跳動推出顛覆性文生視頻模型，可自由控制動作！

文章出處：【微信號：AI前線，微信公眾號：AI前線】歡迎添加關注！文章轉載請注明出處。

字節跳動否認與中興通訊合作傳聞

大模型已經與多個手機品牌建立了合作關系，但并未涉及與中興通訊在智能手機領域的合作。同時，字節跳動還強調，目前并不存在與中興通訊關于芯片合作的具體計劃。這一澄清使得市場上對于兩家企業可能

發表于 12-18 10:08 ?326次閱讀

字節跳動自研視頻生成模型Seaweed開放

近日，字節跳動旗下的AI內容平臺即夢AI傳來新消息，宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這一舉措標志著

發表于 11-11 14:31 ?252次閱讀

字節跳動計劃在歐洲設立AI研發中心

字節跳動正積極布局歐洲市場，計劃在該地區設立AI研發中心。據知情人士透露，字節跳動已開始在歐洲尋找LLM(Large Language Model，大語言

發表于 10-28 11:04 ?597次閱讀

今日看點丨Vishay裁員800人，關閉上海等三家工廠；字節跳動發布兩款視頻生成大模型

1. 字節跳動發布兩款視頻生成大模型面向企業市場開啟邀測 ? 9月24日，字節

發表于 09-25 15:48 ?751次閱讀

字節跳動豆包大模型已支持實時語音通話

字節跳動火山引擎今日隆重推出創新對話式AI實時交互解決方案，該方案以火山方舟大模型服務平臺為核心，全面升級語音交互體驗。該方案深度融合火山引擎RTC技術，實現了語音數據的即時采集、高效

發表于 08-12 16:13 ?736次閱讀

字節跳動回應要進軍手機市場

近日，關于字節跳動秘密啟動AI手機研發項目的傳聞引起了廣泛關注。然而，字節跳動相關人士在12日對此進行了澄清，表示這一消息并不屬實。

發表于 06-13 11:48 ?762次閱讀

字節跳動豆包大模型全面開啟對外服務

近日，字節跳動在2024年春季火山引擎Force原動力大會上宣布，其自主研發的豆包大模型正式開啟對外服務。這一大模型家族涵蓋了多個細分領域，

發表于 05-16 09:29 ?503次閱讀

字節跳動發布豆包大模型

在近日舉行的火山引擎原動力大會上，字節跳動公司正式發布了其強大的豆包大模型。據火山引擎總裁譚待透露，這款大模型展現了驚人的數據處理能力，目前日均處理文本量高達1200億Tokens，并

發表于 05-15 11:26 ?735次閱讀

南開大學和字節跳動聯合開發一款StoryDiffusion模型

近日，南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。

發表于 05-07 14:46 ?1275次閱讀

字節跳動被曝正秘密研發多個AI產品

據多位知情人士透露，科技巨頭字節跳動正在人工智能（AI）大模型領域秘密研發多個創新產品。其中，多模態數字人產品備受矚目，該產品將結合先進的AI技術與虛擬形象，為用戶提供全新的交互體驗。此外，字

發表于 03-05 11:22 ?978次閱讀

Stability AI與Morph AI共同推出一體化AI視頻創作工具

近日，業界領先的AI技術公司Stability AI與中國AI創業公司Morph AI達成重要合作。雙方宣布共同推出一款革新性的all-in-one（一體式）AI

發表于 03-05 10:44 ?883次閱讀

字節跳動辟謠推出中文版Sora 期待國產Sora大模型

字節跳動辟謠推出中文版Sora 期待國產Sora大模型 “文成視頻大模型”的熱度持續火爆，大家都

發表于 02-21 17:29 ?862次閱讀

字節跳動辟謠推出中文版Sora

近日，有關字節跳動在Sora引爆文生視頻賽道之前，已研發出“中文版Sora”的傳言在網絡上流傳。據稱，這款創新性視頻

發表于 02-21 10:27 ?724次閱讀

字節跳動澄清未推出中文版Sora

近日，有傳聞稱字節跳動在Sora文生視頻模型發布之前，已經推出了一款名為

發表于 02-20 13:58 ?685次閱讀

字節跳動推出創新視頻模型Boximator，實現精確操控人物或物體動作

針對 Boximator 的相關問題，字節跳動方回應指出，這只是視頻生成對象移動技術方法的研究項目，暫不可能成為完整可用的產品。相比國外優秀的視頻

發表于 02-20 13:49 ?541次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

字節跳動推出一款顛覆性視頻模型—Boximator

評論

字節跳動否認與中興通訊合作傳聞

字節跳動自研視頻生成模型Seaweed開放

字節跳動計劃在歐洲設立AI研發中心

今日看點丨Vishay裁員800人，關閉上海等三家工廠；字節跳動發布兩款視頻生成大模型

字節跳動豆包大模型已支持實時語音通話

字節跳動回應要進軍手機市場

字節跳動豆包大模型全面開啟對外服務

字節跳動發布豆包大模型

南開大學和字節跳動聯合開發一款StoryDiffusion模型

字節跳動被曝正秘密研發多個AI產品

Stability AI與Morph AI共同推出一體化AI視頻創作工具

字節跳動辟謠推出中文版Sora 期待國產Sora大模型

字節跳動辟謠推出中文版Sora

字節跳動澄清未推出中文版Sora

字節跳動推出創新視頻模型Boximator，實現精確操控人物或物體動作