国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

阿里發(fā)布“神筆馬良版Sora”:寥寥數(shù)筆,動畫自成!

UCloud小助手 / 524人閱讀

AI視頻生成賽道風起云涌,國內(nèi)外新穎的文生、圖生視頻產(chǎn)品層出不窮。在各大廠商的“內(nèi)卷”之下,當下的視頻生成模型各方面已經(jīng)接近“以假亂真”的效果。例如,OpenAI 的 Sora 和國內(nèi)的 Vidu、可靈等模型,通過利用 Diffusion Transformer 的擴展特性,不僅能夠滿足各種分辨率、尺寸和時長的預測要求,同時生成的視頻更符合物理世界的表現(xiàn)。


但與此同時,大部分視頻生成模型的準確程度、遵循指令的能力還有待提升,生成視頻仍然是一個“抽卡”的過程,往往需要用戶生成許多次,才能獲得符合需求的結(jié)果。這也造成算力成本過高、資源浪費等問題。


為了解決這些問題,阿里云提出了一種基于 DiT 架構(gòu)的軌跡可控視頻生成模型 Tora。Tora能夠根據(jù)任意數(shù)量的物體軌跡,圖像和文本條件生成不同分辨率和時長的視頻,在 720p分辨率下能夠生成長達204 幀的穩(wěn)定運動視頻。值得注意的是,Tora繼承了DiT的scaling特性,生成的運動模式更流暢,更符合物理世界。


三種模態(tài)組合輸入,精準控制運動軌跡

Tora支持軌跡、文本、圖像三種模態(tài),或它們的組合輸入,可對不同時長、寬高比和分辨率的視頻內(nèi)容進行動態(tài)精確控制。


軌跡輸入可以是各種各樣的直線、曲線,其具有方向,不同方向的多個軌跡也可以進行組合。


例如,你可以用一條S型曲線控制漂浮物的運動軌跡,同時用文字描述來控制它的運動速度。下面這個視頻中,所使用的提示詞用到了“緩慢”、“優(yōu)雅”、“輕輕”等副詞。

與目前常見的運動筆刷功能有所不同的是,即使沒有輸入圖像,Tora也可以基于軌跡和文本的組合,生成對應的視頻。

例如下面這個視頻中的1、3兩個視頻,就是在沒有初始幀,只有軌跡和文字的情況下生成的。

Tora也支持首尾幀控制,不過這個案例只以圖片形式出現(xiàn)在官方給出的論文里,并沒有提供視頻演示。

方法介紹

基于OpenSora框架,創(chuàng)新兩種運動處理模塊

如下圖所示,Tora包括一個Spatial-Temporal Denoising Diffusion Transformer,(ST-DiT,時空去噪擴散變換器)、一個Trajectory Extractor(TE,軌跡提取器)和一個Motion-guidance Fuser(MGF,運動引導融合器)。


Tora 的 ST-DiT 繼承了 OpenSora v1.2 的設(shè)計,將輸入視頻在時空維度上壓縮成Spacetime visual patches(時空視覺補丁),再通過交替的spatial transformer block(空域變換器塊) 和temporal transformer block(時域變換器塊)進行噪聲預測。


為了實現(xiàn)用戶友好的軌跡控制,TE 和 MGF 將用戶提供的軌跡編碼為多層次的Spacetime motion patches(時空運動補丁),再通過自適應歸一化層將這些patches無縫整合到每個DiT block中,以確保生成視頻的運動與預定義的軌跡一致。

Motion-guidance Fuser:運動引導融合器

有了與visual patches共享特征空間的運動特征后,下一步需要將多層次的運動特征引入到相應的 DiT 塊中,使生成的運動能夠遵循預定義的軌跡,同時不影響原有的視覺效果。


Tora 參考了transformer的多種特征注入結(jié)構(gòu),如上圖所示,Motion-guidance Fuser實驗了包括額外通道連接、自適應歸一化和交叉注意力三種架構(gòu)。


實驗結(jié)果顯示,自適應歸一化在視覺質(zhì)量和軌跡跟隨程度方面表現(xiàn)最佳,同時計算效率最高。自適應歸一化層能夠根據(jù)多樣化的條件(文本&軌跡&圖像)動態(tài)調(diào)整特征,確保視頻生成的時間一致性。這在注入運動線索時尤為重要,能夠有效維持視頻運動的連續(xù)性和自然性。

實驗結(jié)果

實現(xiàn)細節(jié)與測試數(shù)據(jù)

Tora 基于 OpenSora v1.2 權(quán)重,使用分辨率從 144p 到 720p、幀數(shù)從 51 幀到 204 幀不等的視頻進行訓練。為平衡不同分辨率和幀數(shù)的訓練 FLOP和所需內(nèi)存,批次大小調(diào)整為 1 到 25。


訓練過程分為兩個階段,首先使用密集光流進行 2 個 epoch 的訓練,然后使用稀疏光流進行 1 個 epoch 的微調(diào)。

在推理過程中,精選了 185 個包含多樣化運動軌跡和場景的長視頻片段,作為評估運動可控性的新基準。

結(jié)語:AI視頻生成可控性再上一層

在AI視頻生成時長、質(zhì)量已經(jīng)達到一定程度之際,如何讓生成的視頻更可控、更符合需求,是當下的重要命題。

在精準度、可控性和資源利用效率等方面的持續(xù)優(yōu)化下,AI視頻生成產(chǎn)品的使用體驗將迎來新的階段,價格也會更加親民,讓更多創(chuàng)作者參與進來。


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/131146.html

相關(guān)文章

  • BAT的云計算布局

    摘要:提到的云計算布局,就不得不提到年月中國領(lǐng)袖峰會上,三位掌門人針對云計算的同臺論道。且從官方有限的披露資料而言,很難對現(xiàn)階段的百度云計算獨立做評判。該計劃提出的發(fā)展目標是到年,我國云計算產(chǎn)業(yè)規(guī)模達到億元。提到BAT的云計算布局,就不得不提到2010年3月中國IT領(lǐng)袖峰會上,BAT三位掌門人針對云計算的同臺論道。坐在臺上的百度和騰訊創(chuàng)始人相繼發(fā)言,李彥宏不客氣的說,云計算好比新瓶裝舊酒,技術(shù)上沒...

    justCoding 評論0 收藏0
  • 【PHP】PSR簡要規(guī)范

    摘要:是一系列關(guān)于開發(fā)的規(guī)范,分有好幾個版本,自己學的也較為膚淺,但還是希望能時常查看規(guī)范,為了方便記憶和遵循,我把關(guān)鍵詞為必須的撿拾出來,做個簡單地必要規(guī)范的記錄。所有文件必須使用作為行的結(jié)束符。 PSR是一系列關(guān)于PHP開發(fā)的規(guī)范,分有好幾個版本,自己學的也較為膚淺,但還是希望能時常查看規(guī)范,為了方便記憶和遵循,我把關(guān)鍵詞為必須的撿拾出來,做個簡單地必要規(guī)范的記錄。(就是個搬磚的。。。)...

    Steve_Wang_ 評論0 收藏0
  • 十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題

    摘要:年,王堅帶著解決大規(guī)模算力瓶頸的任務加入阿里。王堅帶隊,目標是自研大數(shù)據(jù)計算平臺統(tǒng)一阿里巴巴內(nèi)部的數(shù)據(jù)和大數(shù)據(jù)計算體系。不僅如此,它們的存儲和計算成本還令人意外地降低。從年到年,杭州從全國最擁堵城市排行榜上下跌名。 摘要:?2009年這項關(guān)于大數(shù)據(jù)的技術(shù)長征開始。王堅帶隊,目標是自研大數(shù)據(jù)計算平臺MaxCompute統(tǒng)一阿里巴巴內(nèi)部的數(shù)據(jù)和大數(shù)據(jù)計算體系。 大數(shù)據(jù)時代,隨著企業(yè)數(shù)據(jù)規(guī)...

    周國輝 評論0 收藏0
  • 云計算下半場 :一超多強則是背后的生態(tài)戰(zhàn)

    摘要:中國云計算產(chǎn)業(yè)進入下半場。業(yè)內(nèi)人士認為,阿里云也是抄上的。一超多強長期存在,背后是生態(tài)在較量據(jù)年上半年中國公有云市場份額調(diào)研報告顯示,阿里云騰訊云金山云位列前三,合計占據(jù)了中國公有云的市場份額。中國云計算產(chǎn)業(yè)進入下半場。標志是政府和傳統(tǒng)企業(yè)開始上云。2006年,Amazon Web Services(AWS)開始向企業(yè)提供IT基礎(chǔ)設(shè)施服務。作為戰(zhàn)略的跟隨者,阿里巴巴于2008年開始布局云計算...

    Scholer 評論0 收藏0
  • 酷炫的SVG 動態(tài)圖標

    摘要:在上能看到好多效果驚艷的圖標。現(xiàn)在來看代碼,相信不會再是一頭霧水了也可以用控制的屬性,控制的動畫過程,做成能響應點擊等事件的圖標按鈕。當然能做的遠不止圖標,這里有不少例子。? ? ? ?? ? ? ? ??? ? ? ? ? ?? ? ? ? ? ? ??? ? ? ? ? ? ??? ? ? ? ??   在 ?loading.io?上能看到好多效果驚艷的loading圖標。它們都是用sv...

    mindwind 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<