智譜 AI 開源視頻生成模型CogVideoX：單張 4090 顯卡即可推理

UCloud小助手發布于2024-08-06 18:03 / 498人閱讀

隨著大型模型技術的持續發展，視頻生成技術正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術，正在重新定義行業的未來格局。

而近幾個月，國產的AI視頻生成模型也是層出不窮,像是快手可靈、字節即夢、智譜清影、Vidu、PixVerse V2 等。

就在近日，智譜AI秉承“以先進技術，服務全球開發者”的理念，宣布將與“清影”同源的視頻生成模型——CogVideoX開源，以期讓每一位開發者、每一家企業都能自由地開發屬于自己的視頻生成模型，從而推動整個行業的快速迭代與創新發展。

隨著大型模型技術的持續發展，視頻生成技術正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術，正在重新定義行業的未來格局。

而近幾個月，國產的AI視頻生成模型也是層出不窮,像是快手可靈、字節即夢、智譜清影、Vidu、PixVerse V2 等。

CogVideoX是什么？

CogVideoX是智譜AI最新推出的開源AI視頻生成模型，與智譜AI的商業產品“清影”同源。

CogVideoX支持英文提示詞，能生成6秒長、每秒8幀、分辨率為720*480的視頻。模型推理需16—36GB顯存，目前不支持量化推理和多卡推理。項目還包括3D Causal VAE組件用于視頻重建，以及豐富的示例和工具，包括CLI/WEB Demo、在線體驗、API接口示例和微調指南。

CogVideoX-2B的提示詞上限為226個token，視頻長度為6秒，幀率為8幀/秒，視頻分辨率為720*480。現在主流的AI視頻，全部都是閉源的，有一個說是開源的Open-Sora，說實話實測下來的效果也是差強人意。而CogVideoX的效果雖然和主流的閉源模型尚存在一些差距，但是總的來講還是值得使用的。

簡單來說，CogVideoX是一個能夠將你的文字直接轉換成視頻的神奇工具。這次的CogVideoX-2B模型，不僅視頻生成能力驚人，而且對電腦配置的要求并不高，讓普通用戶也能輕松上手。

模型亮點

CogVideoX-2B的亮點可不少。生成視頻時，你需要準備18GB的GPU內存（如果使用SAT技術），而使用diffusers的話，則需要36GB，但據說這個要求很快就會得到優化。如果你想要自己動手調教這個模型，那么40GB的GPU內存是必不可少的。生成的視頻長度為6秒，分辨率為720 * 480，幀率為8幀/秒。目前，它還不支持量化推理和多卡推理，但這并不影響它在視頻生成技術上的重大意義。

專家 Transformer

使用VAE的編碼器將視頻壓縮至潛在空間，然后將潛在空間分割成塊并展開成長的序列嵌入z_vision。同時，我們使用T5，將文本輸入編碼為文本嵌入z_text，然后將z_text和z_vision沿序列維度拼接。拼接后的嵌入被送入專家Transformer塊堆棧中處理。最后，我們反向拼接嵌入來恢復原始潛在空間形狀，并使用VAE進行解碼以重建視頻。

Data

視頻生成模型訓練需篩選高質量視頻數據，以學習真實世界動態。視頻可能因人工編輯或拍攝問題而不準確。為此，團隊開發了負面標簽來識別和排除低質量視頻，如過度編輯、運動不連貫、質量低下、講座式、文本主導和屏幕噪音視頻。通過video-llama訓練的過濾器，我們標注并篩選了20,000個視頻數據點。

同時，計算光流和美學分數，動態調整閾值，確保生成視頻的質量。視頻數據通常沒有文本描述，需要轉換為文本描述以供文本到視頻模型訓練。現有的視頻字幕數據集字幕較短，無法全面描述視頻內容。

團隊提出了一種從圖像字幕生成視頻字幕的管道，并微調端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過Panda70M模型生成簡短字幕，使用CogView3模型生成密集圖像字幕，然后使用GPT-4模型總結生成最終的短視頻。

還微調了一個基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型，使用密集字幕數據進行訓練，以加速視頻字幕生成過程。

實例展示

一艘精致的木制玩具船，桅桿和船帆上雕刻著復雜的圖案，在模擬海浪的藍色長毛絨地毯上平穩地滑行。船身漆成濃郁的棕色，并帶有小窗戶。地毯柔軟而有質感，提供了一個完美的背景，就像一片廣闊的海洋。船的周圍環繞著各種玩具和兒童用品，暗示著一個充滿童趣的環境。這個場景捕捉到了童年的天真和想象力，玩具船的旅程象征著在異想天開的室內環境中的無盡冒險。

鏡頭跟在一輛白色復古越野車后面，車頂有黑色行李架，越野車在陡峭的山坡上沿著松樹環繞的陡峭土路快速行駛，輪胎上的塵土飛揚，陽光照在越野車上，越野車在土路上快速行駛，給整個場景投下了溫暖的光輝。土路緩緩彎向遠方，看不到其他車輛。道路兩旁的樹木都是紅杉，還有零星的綠色植物。從后方看，汽車輕松地沿著彎道行駛，仿佛在崎嶇的地形上行駛。土路本身被陡峭的丘陵和山脈環繞，頭頂是晴朗的藍天和飄渺的白云。

在一個飽受戰爭蹂躪的城市，廢墟和殘垣斷壁訴說著滿目瘡痍，在這個令人心碎的背景下，一個凄美的特寫鏡頭定格了一個年輕的女孩。她的臉上沾滿了灰燼，無聲地證明著周圍的混亂。她的眼睛里閃爍著悲傷和堅韌，捕捉到了這個因沖突而失去天真世界的原始情感。

小結：智譜清影引領視頻生成技術新潮流

CogVideoX-2B的開源，無疑是在視頻生成技術上的一大步。它讓普通人也能輕松制作出高質量的視頻內容，而且開源這件事，讓全球的開發者和研究者都能參與到這個技術的共享和進步中來。

而智譜清影的開源舉措，不僅刷新了視頻生成技術的邊界，也為技術愛好者開辟了新的學習天地。當前，視頻生成領域充滿活力，似乎昭示著國內AI視頻技術即將邁入全新時代。智譜清影的這一策略，無疑將其置于視頻生成領域的先鋒地位，未來的前景令人翹首以待。此次行動不僅是技術上的決斷，更是對開源共享信念的踐行，它傳遞出一個信息：技術的未來屬于每一個愿意開源和分享的企業與個人。期待不久的將來，我們都能借助CogVideoX，創造出屬于我們自己的視頻生成奇跡。

GPU算力平臺云服務器語言模型推理服務器級 ai顯卡推薦開源云服務器和獨立顯卡 ai智能語音系統開源

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/131147.html

智譜AI最新GLM-4-Plus上線開放平臺！可視頻通話

GLM-4-Plus是智譜AI最新推出的旗艦級預訓練語言模型，標志著公司在人工智能技術上取得了重大突破。相比前一代GLM-3模型，GLM-4-Plus在多個關鍵指標上實現了大幅提升，尤其是在語言理解能力、指令遵循能力和長文本處理能力方面。這些進步使得GLM-4-Plus在各類自然語言處理任務中的表現更加出色。主要更新語言基座模型 GLM-4-Plus：在語言理解、指令遵循、長文本處理等方面性能得到...

miguel.jiang 2024-09-10 13:19 評論0 收藏0
買了一張4090顯卡除了打游戲還能做什么？

在當今的圖形處理領域，NVIDIA一直以其卓越的性能和創新的技術引領市場潮流。作為其最新的旗艦級顯卡，GeForce RTX 4090一經發布便吸引了無數玩家的目光。作為最大的賣點，游戲性能以及功效無疑是這張顯卡作為佼佼者的地方；于此同時，其關于視頻編輯、3D建模、深度學習等專業領域的應用以及廣泛的適用性和高效性能同時也是不可忽視的。視頻編輯與后期制作RTX 4090不僅僅是一塊游戲顯卡，它在視頻...

UCloud小助手 2024-07-02 17:59 評論0 收藏0
Mistral聯合英偉達開源12B小模型：碾壓Llama 3，單張4090可跑

小模型，成為本周的AI爆點。與動輒上千億參數的大模型相比，小模型的優勢是顯而易見的:它們不僅計算成本更低，訓練和部署也更為便捷，可以滿足計算資源受限、數據安全級別較高的各類場景。因此，在大筆投入大模型訓練之余，像 OpenAI、谷歌等科技巨頭也在積極訓練好用的小模型。先是HuggingFace推出了小模型SmoLLM；OpenAI直接殺入小模型戰場，發布了GPT-4o mini。GPT-4o mi...

UCloud小助手 2024-07-22 15:21 評論0 收藏0

發表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關注我要私信

TA的文章

U大使獎勵規則全新發布

閱讀 156·2024-12-10 11:51
服務器常用端口大全

閱讀 303·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術官Mira 離職

閱讀 328·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 466·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 540·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 334·2024-09-14 16:58
網頁開發助手——自動編寫運行代碼

閱讀 531·2024-08-29 18:47
一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

閱讀 811·2024-08-16 14:40

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

智譜 AI 開源視頻生成模型CogVideoX：單張 4090 顯卡即可推理

CogVideoX是什么？

模型亮點

實例展示

小結：智譜清影引領視頻生成技術新潮流

相關文章

智譜AI最新GLM-4-Plus上線開放平臺！可視頻通話

**買了一張4090顯卡除了打游戲還能做什么？**

**Mistral聯合英偉達開源12B小模型：碾壓Llama 3，單張4090可跑**

發表評論

0條評論

UCloud小助手

男|高級講師

TA的文章

U大使獎勵規則全新發布

服務器常用端口大全

又來!OpenAI 宮斗大戲曝光,首席技術官Mira 離職

2.4K star的GOT-OCR2.0：端到端OCR 模型

Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

網頁開發助手——自動編寫運行代碼

一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

最新活動