阿里發(fā)布“神筆馬良版Sora”：寥寥數(shù)筆，動畫自成！

UCloud小助手發(fā)布于2024-08-05 16:20 / 524人閱讀

AI視頻生成賽道風起云涌，國內(nèi)外新穎的文生、圖生視頻產(chǎn)品層出不窮。在各大廠商的“內(nèi)卷”之下，當下的視頻生成模型各方面已經(jīng)接近“以假亂真”的效果。例如，OpenAI 的 Sora 和國內(nèi)的 Vidu、可靈等模型，通過利用 Diffusion Transformer 的擴展特性，不僅能夠滿足各種分辨率、尺寸和時長的預測要求，同時生成的視頻更符合物理世界的表現(xiàn)。

但與此同時，大部分視頻生成模型的準確程度、遵循指令的能力還有待提升，生成視頻仍然是一個“抽卡”的過程，往往需要用戶生成許多次，才能獲得符合需求的結(jié)果。這也造成算力成本過高、資源浪費等問題。

為了解決這些問題，阿里云提出了一種基于 DiT 架構(gòu)的軌跡可控視頻生成模型 Tora。Tora能夠根據(jù)任意數(shù)量的物體軌跡，圖像和文本條件生成不同分辨率和時長的視頻，在 720p分辨率下能夠生成長達204 幀的穩(wěn)定運動視頻。值得注意的是，Tora繼承了DiT的scaling特性，生成的運動模式更流暢，更符合物理世界。

三種模態(tài)組合輸入，精準控制運動軌跡

Tora支持軌跡、文本、圖像三種模態(tài)，或它們的組合輸入，可對不同時長、寬高比和分辨率的視頻內(nèi)容進行動態(tài)精確控制。

軌跡輸入可以是各種各樣的直線、曲線，其具有方向，不同方向的多個軌跡也可以進行組合。

例如，你可以用一條S型曲線控制漂浮物的運動軌跡，同時用文字描述來控制它的運動速度。下面這個視頻中，所使用的提示詞用到了“緩慢”、“優(yōu)雅”、“輕輕”等副詞。

與目前常見的運動筆刷功能有所不同的是，即使沒有輸入圖像，Tora也可以基于軌跡和文本的組合，生成對應的視頻。

例如下面這個視頻中的1、3兩個視頻，就是在沒有初始幀，只有軌跡和文字的情況下生成的。

Tora也支持首尾幀控制，不過這個案例只以圖片形式出現(xiàn)在官方給出的論文里，并沒有提供視頻演示。

方法介紹

基于OpenSora框架，創(chuàng)新兩種運動處理模塊

如下圖所示，Tora包括一個Spatial-Temporal Denoising Diffusion Transformer，（ST-DiT，時空去噪擴散變換器）、一個Trajectory Extractor（TE，軌跡提取器）和一個Motion-guidance Fuser（MGF，運動引導融合器）。

Tora 的 ST-DiT 繼承了 OpenSora v1.2 的設(shè)計，將輸入視頻在時空維度上壓縮成Spacetime visual patches（時空視覺補丁），再通過交替的spatial transformer block（空域變換器塊）和temporal transformer block（時域變換器塊）進行噪聲預測。

為了實現(xiàn)用戶友好的軌跡控制，TE 和 MGF 將用戶提供的軌跡編碼為多層次的Spacetime motion patches（時空運動補丁），再通過自適應歸一化層將這些patches無縫整合到每個DiT block中，以確保生成視頻的運動與預定義的軌跡一致。

Motion-guidance Fuser：運動引導融合器

有了與visual patches共享特征空間的運動特征后，下一步需要將多層次的運動特征引入到相應的 DiT 塊中，使生成的運動能夠遵循預定義的軌跡，同時不影響原有的視覺效果。

Tora 參考了transformer的多種特征注入結(jié)構(gòu)，如上圖所示，Motion-guidance Fuser實驗了包括額外通道連接、自適應歸一化和交叉注意力三種架構(gòu)。

實驗結(jié)果顯示，自適應歸一化在視覺質(zhì)量和軌跡跟隨程度方面表現(xiàn)最佳，同時計算效率最高。自適應歸一化層能夠根據(jù)多樣化的條件（文本&軌跡&圖像）動態(tài)調(diào)整特征，確保視頻生成的時間一致性。這在注入運動線索時尤為重要，能夠有效維持視頻運動的連續(xù)性和自然性。

實驗結(jié)果

實現(xiàn)細節(jié)與測試數(shù)據(jù)

Tora 基于 OpenSora v1.2 權(quán)重，使用分辨率從 144p 到 720p、幀數(shù)從 51 幀到 204 幀不等的視頻進行訓練。為平衡不同分辨率和幀數(shù)的訓練 FLOP和所需內(nèi)存，批次大小調(diào)整為 1 到 25。

訓練過程分為兩個階段，首先使用密集光流進行 2 個 epoch 的訓練，然后使用稀疏光流進行 1 個 epoch 的微調(diào)。

在推理過程中，精選了 185 個包含多樣化運動軌跡和場景的長視頻片段，作為評估運動可控性的新基準。

結(jié)語：AI視頻生成可控性再上一層

在AI視頻生成時長、質(zhì)量已經(jīng)達到一定程度之際，如何讓生成的視頻更可控、更符合需求，是當下的重要命題。

在精準度、可控性和資源利用效率等方面的持續(xù)優(yōu)化下，AI視頻生成產(chǎn)品的使用體驗將迎來新的階段，價格也會更加親民，讓更多創(chuàng)作者參與進來。

GPU算力平臺云服務器阿里云發(fā)布市場阿里云發(fā)布https 阿里云如何發(fā)布網(wǎng)站阿里云主機發(fā)布網(wǎng)站

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/131146.html

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關(guān)注我要私信

TA的文章

U大使獎勵規(guī)則全新發(fā)布

閱讀 156·2024-12-10 11:51
服務器常用端口大全

閱讀 303·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術(shù)官Mira 離職

閱讀 328·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 466·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 540·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 334·2024-09-14 16:58
網(wǎng)頁開發(fā)助手——自動編寫運行代碼

閱讀 531·2024-08-29 18:47
一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

閱讀 811·2024-08-16 14:40

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

阿里發(fā)布“神筆馬良版Sora”：寥寥數(shù)筆，動畫自成！

三種模態(tài)組合輸入，精準控制運動軌跡

方法介紹

Motion-guidance Fuser：運動引導融合器

實驗結(jié)果

結(jié)語：AI視頻生成可控性再上一層

相關(guān)文章

BAT的云計算布局

【PHP】PSR簡要規(guī)范

十年磨一劍，王堅自研的MaxCompute如何解決世界級算力難題

云計算下半場：一超多強則是背后的生態(tài)戰(zhàn)

酷炫的SVG 動態(tài)圖標

發(fā)表評論

0條評論

UCloud小助手

男|高級講師

TA的文章

U大使獎勵規(guī)則全新發(fā)布

服務器常用端口大全

又來!OpenAI 宮斗大戲曝光,首席技術(shù)官Mira 離職

2.4K star的GOT-OCR2.0：端到端OCR 模型

Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

網(wǎng)頁開發(fā)助手——自動編寫運行代碼

一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

最新活動