AI視頻生成賽道風起云涌,國內(nèi)外新穎的文生、圖生視頻產(chǎn)品層出不窮。在各大廠商的“內(nèi)卷”之下,當下的視頻生成模型各方面已經(jīng)接近“以假亂真”的效果。例如,OpenAI 的 Sora 和國內(nèi)的 Vidu、可靈等模型,通過利用 Diffusion Transformer 的擴展特性,不僅能夠滿足各種分辨率、尺寸和時長的預測要求,同時生成的視頻更符合物理世界的表現(xiàn)。
但與此同時,大部分視頻生成模型的準確程度、遵循指令的能力還有待提升,生成視頻仍然是一個“抽卡”的過程,往往需要用戶生成許多次,才能獲得符合需求的結(jié)果。這也造成算力成本過高、資源浪費等問題。
為了解決這些問題,阿里云提出了一種基于 DiT 架構(gòu)的軌跡可控視頻生成模型 Tora。Tora能夠根據(jù)任意數(shù)量的物體軌跡,圖像和文本條件生成不同分辨率和時長的視頻,在 720p分辨率下能夠生成長達204 幀的穩(wěn)定運動視頻。值得注意的是,Tora繼承了DiT的scaling特性,生成的運動模式更流暢,更符合物理世界。
Tora支持軌跡、文本、圖像三種模態(tài),或它們的組合輸入,可對不同時長、寬高比和分辨率的視頻內(nèi)容進行動態(tài)精確控制。
軌跡輸入可以是各種各樣的直線、曲線,其具有方向,不同方向的多個軌跡也可以進行組合。
例如,你可以用一條S型曲線控制漂浮物的運動軌跡,同時用文字描述來控制它的運動速度。下面這個視頻中,所使用的提示詞用到了“緩慢”、“優(yōu)雅”、“輕輕”等副詞。
與目前常見的運動筆刷功能有所不同的是,即使沒有輸入圖像,Tora也可以基于軌跡和文本的組合,生成對應的視頻。
例如下面這個視頻中的1、3兩個視頻,就是在沒有初始幀,只有軌跡和文字的情況下生成的。
Tora也支持首尾幀控制,不過這個案例只以圖片形式出現(xiàn)在官方給出的論文里,并沒有提供視頻演示。
基于OpenSora框架,創(chuàng)新兩種運動處理模塊
如下圖所示,Tora包括一個Spatial-Temporal Denoising Diffusion Transformer,(ST-DiT,時空去噪擴散變換器)、一個Trajectory Extractor(TE,軌跡提取器)和一個Motion-guidance Fuser(MGF,運動引導融合器)。
Tora 的 ST-DiT 繼承了 OpenSora v1.2 的設(shè)計,將輸入視頻在時空維度上壓縮成Spacetime visual patches(時空視覺補丁),再通過交替的spatial transformer block(空域變換器塊) 和temporal transformer block(時域變換器塊)進行噪聲預測。
為了實現(xiàn)用戶友好的軌跡控制,TE 和 MGF 將用戶提供的軌跡編碼為多層次的Spacetime motion patches(時空運動補丁),再通過自適應歸一化層將這些patches無縫整合到每個DiT block中,以確保生成視頻的運動與預定義的軌跡一致。
有了與visual patches共享特征空間的運動特征后,下一步需要將多層次的運動特征引入到相應的 DiT 塊中,使生成的運動能夠遵循預定義的軌跡,同時不影響原有的視覺效果。
Tora 參考了transformer的多種特征注入結(jié)構(gòu),如上圖所示,Motion-guidance Fuser實驗了包括額外通道連接、自適應歸一化和交叉注意力三種架構(gòu)。
實驗結(jié)果顯示,自適應歸一化在視覺質(zhì)量和軌跡跟隨程度方面表現(xiàn)最佳,同時計算效率最高。自適應歸一化層能夠根據(jù)多樣化的條件(文本&軌跡&圖像)動態(tài)調(diào)整特征,確保視頻生成的時間一致性。這在注入運動線索時尤為重要,能夠有效維持視頻運動的連續(xù)性和自然性。
實現(xiàn)細節(jié)與測試數(shù)據(jù)
Tora 基于 OpenSora v1.2 權(quán)重,使用分辨率從 144p 到 720p、幀數(shù)從 51 幀到 204 幀不等的視頻進行訓練。為平衡不同分辨率和幀數(shù)的訓練 FLOP和所需內(nèi)存,批次大小調(diào)整為 1 到 25。
訓練過程分為兩個階段,首先使用密集光流進行 2 個 epoch 的訓練,然后使用稀疏光流進行 1 個 epoch 的微調(diào)。
在推理過程中,精選了 185 個包含多樣化運動軌跡和場景的長視頻片段,作為評估運動可控性的新基準。
在AI視頻生成時長、質(zhì)量已經(jīng)達到一定程度之際,如何讓生成的視頻更可控、更符合需求,是當下的重要命題。
在精準度、可控性和資源利用效率等方面的持續(xù)優(yōu)化下,AI視頻生成產(chǎn)品的使用體驗將迎來新的階段,價格也會更加親民,讓更多創(chuàng)作者參與進來。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/131146.html
摘要:提到的云計算布局,就不得不提到年月中國領(lǐng)袖峰會上,三位掌門人針對云計算的同臺論道。且從官方有限的披露資料而言,很難對現(xiàn)階段的百度云計算獨立做評判。該計劃提出的發(fā)展目標是到年,我國云計算產(chǎn)業(yè)規(guī)模達到億元。提到BAT的云計算布局,就不得不提到2010年3月中國IT領(lǐng)袖峰會上,BAT三位掌門人針對云計算的同臺論道。坐在臺上的百度和騰訊創(chuàng)始人相繼發(fā)言,李彥宏不客氣的說,云計算好比新瓶裝舊酒,技術(shù)上沒...
摘要:是一系列關(guān)于開發(fā)的規(guī)范,分有好幾個版本,自己學的也較為膚淺,但還是希望能時常查看規(guī)范,為了方便記憶和遵循,我把關(guān)鍵詞為必須的撿拾出來,做個簡單地必要規(guī)范的記錄。所有文件必須使用作為行的結(jié)束符。 PSR是一系列關(guān)于PHP開發(fā)的規(guī)范,分有好幾個版本,自己學的也較為膚淺,但還是希望能時常查看規(guī)范,為了方便記憶和遵循,我把關(guān)鍵詞為必須的撿拾出來,做個簡單地必要規(guī)范的記錄。(就是個搬磚的。。。)...
摘要:年,王堅帶著解決大規(guī)模算力瓶頸的任務加入阿里。王堅帶隊,目標是自研大數(shù)據(jù)計算平臺統(tǒng)一阿里巴巴內(nèi)部的數(shù)據(jù)和大數(shù)據(jù)計算體系。不僅如此,它們的存儲和計算成本還令人意外地降低。從年到年,杭州從全國最擁堵城市排行榜上下跌名。 摘要:?2009年這項關(guān)于大數(shù)據(jù)的技術(shù)長征開始。王堅帶隊,目標是自研大數(shù)據(jù)計算平臺MaxCompute統(tǒng)一阿里巴巴內(nèi)部的數(shù)據(jù)和大數(shù)據(jù)計算體系。 大數(shù)據(jù)時代,隨著企業(yè)數(shù)據(jù)規(guī)...
摘要:中國云計算產(chǎn)業(yè)進入下半場。業(yè)內(nèi)人士認為,阿里云也是抄上的。一超多強長期存在,背后是生態(tài)在較量據(jù)年上半年中國公有云市場份額調(diào)研報告顯示,阿里云騰訊云金山云位列前三,合計占據(jù)了中國公有云的市場份額。中國云計算產(chǎn)業(yè)進入下半場。標志是政府和傳統(tǒng)企業(yè)開始上云。2006年,Amazon Web Services(AWS)開始向企業(yè)提供IT基礎(chǔ)設(shè)施服務。作為戰(zhàn)略的跟隨者,阿里巴巴于2008年開始布局云計算...
摘要:在上能看到好多效果驚艷的圖標。現(xiàn)在來看代碼,相信不會再是一頭霧水了也可以用控制的屬性,控制的動畫過程,做成能響應點擊等事件的圖標按鈕。當然能做的遠不止圖標,這里有不少例子。? ? ? ?? ? ? ? ??? ? ? ? ? ?? ? ? ? ? ? ??? ? ? ? ? ? ??? ? ? ? ?? 在 ?loading.io?上能看到好多效果驚艷的loading圖標。它們都是用sv...
閱讀 156·2024-12-10 11:51
閱讀 303·2024-11-07 17:59
閱讀 328·2024-09-27 16:59
閱讀 466·2024-09-23 10:37
閱讀 540·2024-09-14 16:58
閱讀 334·2024-09-14 16:58
閱讀 531·2024-08-29 18:47
閱讀 811·2024-08-16 14:40