近日,當下炙手可熱的快手宣布開源旗下明星產品可靈中一項重要技術項目LivePortrait。,該框架能夠準確、實時地將驅動視頻的表情、姿態遷移到靜態或動態人像視頻上,生成極具表現力的視頻結果。如下動圖所示:
LivePortrait的主要功能包括從單一圖像生成生動動畫、精確控制眼睛和嘴唇的動作、處理多個人物肖像的無縫拼接、支持多風格肖像、生成高分辨率動畫等。這些功能不僅讓LivePortrait在動畫生成上更加靈活多變,也為用戶提供了更多的創意空間。
并且,LivePortrait發布即可用,秉承快手風格,論文、主頁、代碼一鍵三連。LivePortrait一經開源,就得到了HuggingFace首席執行官Clément Delangue的關注轉發,首席戰略官 Thomas Wolf還親自體驗了功能,厲害了!
同時,LivePotrait獲得了開源社區的廣泛關注,短短一周多時間左右,在GitHub上總計收獲了6.4K Stars,550 Forks,140 Issues&PRs,獲得廣泛好評,關注仍在持續增長中:
方法介紹
和當前主流基于擴散模型的方法不同,LivePortrait探索并拓展了基于隱式關鍵點框架的潛力,從而平衡了模型計算效率和可控性。LivePortrait聚焦于更好的泛化性,可控性和實用的效率。為了提升生成能力和可控性,LivePortrait采用69M高質量訓練幀,視頻-圖片混合訓練策略,升級網絡結構,并設計了更好的動作建模和優化方式。此外,LivePortrait將隱式關鍵點看成一種面部混合變形 (Blendshape) 的有效隱式表示,并基于此精心提出了貼合 (stitching) 和重定向 (retargeting) 模塊。這兩個模塊為輕量MLP網絡,因此在提升可控性的同時,計算成本可以忽略。即使是和一些已有的基于擴散模型的方法比較,LivePortrait依舊很能打。同時,在RTX4090 GPU上,LivePortrait的單幀生成速度能夠達到12.8ms,若經過進一步優化,如TensorRT,預計能達10ms以內!
LivePortrait的模型訓練分為兩階段。第一階段為基礎模型訓練,第二階段為貼合和重定向模塊訓練。
第一階段:基礎模型訓練
在第一階段模型訓練中,LivePortrait對基于隱式點的框架,如Face Vid2vid[1],做了一系列改進,包括:
高質量訓練數據收集:LivePortrait采用了公開視頻數據集Voxceleb[2],MEAD[3],RAVDESS [4]和風格化圖片數據集AAHQ[5]。此外,還使用了大規模4K分辨率的人像視頻,包含不同的表情和姿態,200余小時的說話人像視頻,一個私有的數據集LightStage[6],以及一些風格化的視頻和圖片。LivePortrait將長視頻分割成少于30秒的片段,并確保每個片段只包含一個人。為了保證訓練數據的質量,LivePortrait使用快手自研的KVQ[7](快手自研的視頻質量評估方法,能夠綜合感知視頻的質量、內容、場景、美學、編碼、音頻等特征,執行多維度評價)來過濾低質量的視頻片段??傆柧殧祿?9M視頻,包含18.9K身份和60K靜態風格化人像。
視頻-圖像混合訓練:僅使用真人人像視頻訓練的模型對于真人人像表現良好,但對風格化人像(例如動漫)的泛化能力不足。風格化的人像視頻是較為稀有的,LivePortrait從不到100個身份中收集了僅約1.3K視頻片段。相比之下,高質量的風格化人像圖片更為豐富,LivePortrait收集了大約60K身份互異的圖片,提供多樣身份信息。為了利用這兩種數據類型,LivePortrait將每張圖片視為一幀視頻片段,并同時在視頻和圖片上訓練模型。這種混合訓練提升了模型的泛化能力。
升級的網絡結構:LivePortrait將規范隱式關鍵點估計網絡 (L),頭部姿態估計網絡 (H) 和表情變形估計網絡 (Δ) 統一為了一個單一模型 (M),并采用ConvNeXt-V2-Tiny[8]為其結構,從而直接估計輸入圖片的規范隱式關鍵點,頭部姿態和表情變形。此外,受到face vid2vid相關工作啟發,LivePortrait采用效果更優的SPADE[9]的解碼器作為生成器 (G)。隱式特征 (fs) 在變形后被細致地輸入SPADE解碼器,其中隱式特征的每個通道作為語義圖來生成驅動后的圖片。為了提升效率,LivePortrait還插入PixelShuffle[10]層作為 (G) 的最后一層,從而將分辨率由256提升為512。
更靈活的動作變換建模:原始隱式關鍵點的計算建模方式忽視了縮放系數,導致該縮放容易被學到表情系數里,使得訓練難度變大。為了解決這個問題,LivePortrait在建模中引入了縮放因子。LivePortrait發現縮放正則投影會導致過于靈活的可學習表情系數,造成跨身份驅動時的紋理粘連。因此LivePortrait采用的變換是一種靈活性和驅動性之間的折衷。
關鍵點引導的隱式關鍵點優化:原始的隱式點框架似乎缺少生動驅動面部表情的能力,例如眨眼和眼球運動。具體來說,驅動結果中人像的眼球方向和頭部朝向往往保持平行。LivePortrait將這些限制歸因于無監督學習細微面部表情的困難。為了解決這個問題,LivePortrait引入了2D關鍵點來捕捉微表情,用關鍵點引導的損失 (Lguide)作為隱式關鍵點優化的引導。
級聯損失函數:LivePortrait采用了face vid2vid的隱式關鍵點不變損失 (LE),關鍵點先驗損失 (LL),頭部姿態損失 (LH) 和變形先驗損失 (LΔ)。為了進一步提升紋理質量,LivePortrait采用了感知和GAN損失,不僅對輸入圖的全局領域,面部和嘴部的局部領域也施加了這些損失,記為級聯感知損失 (LP,cascade) 和級聯GAN損失 (LG,cascade) 。面部和嘴部區域由2D語義關鍵點定義。LivePortrait也采用了人臉身份損失 (Lfaceid) 來保留參考圖片的身份。
第一階段的所有模塊為從頭訓練,總的訓練優化函數 (Lbase) 為以上損失項的加權和。
LivePortrait的相關技術點,已在快手的諸多業務完成落地,包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年輕人的噗嘰APP等,并將探索新的落地方式,持續為用戶創造價值。此外,LivePortrait會基于可靈基礎模型,進一步探索多模態驅動的人像視頻生成,追求更高品質的效果。
現在,無論你是想制作一段個性化的肖像視頻,還是想給老照片賦予新的生命,LivePortrait都能幫你輕松實現。這不僅僅是一個工具,更是一個讓創意無限擴展的平臺。所以,別再讓你的照片沉睡在相冊里了,讓LivePortrait喚醒它們,讓它們動起來,講述屬于它們自己的故事。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/131136.html
摘要:最近,這就是街舞第二季開播,又一次燃起了全民熱舞的風潮。然而,真要自己跳起來,實際與想象之間,估計差了若干個羅志祥。系統映射結果展示對于系統的結果,研究人員表示還不完美。谷歌在和跳舞的結合上也花了心思。好了,先不說了,我要去跟學跳舞了。 最近,《這!就是街舞》第二季開播,又一次燃起了全民熱舞的風潮。 剛開播沒多久,這個全程高能的節目,就在豆瓣上就得到了 9.6 的高分。舞者們在比賽中精...
摘要:而另一款網紅產品抖音,也在去年底上線過一個尬舞機的音樂體感游戲現在成了隱藏功能游戲開始后,隨著音樂會給出不同的動作提示,用戶按照提示擺出正確動作即可得分。 如今說到體感游戲,大家一定都不陌生,比如微軟的 Kinect、任天堂的 Switch,都曾是游戲業的革命性產品。而另一款網紅產品—抖音,也在去年底上線過一個尬舞機的音樂體感游戲(現在成了隱藏功能): showImg(https://...
摘要:人臉識別技術所獨具的活性判別能力保證了他人無法以非活性的照片木偶蠟像來欺騙識別系統。人臉識別技術所采用的依據是人臉照片或實時攝取的人臉圖像,因而無疑是最容易獲得的。 人臉識別是近年來模式識別、圖像處理、機器視覺、神經網絡以及認知科學等領域研究的熱點課題之一,被廣泛應用于公共安全(罪犯識別等)...
摘要:阿里巴巴集團安全部今年在直播管控中的特色在于大量采用人工智能和深度學習等技術,配合優化后的高性能多媒體計算集群,大幅度降低人工審核成本的同時,提升了對內容風險的防控能力。 阿里巴巴直播內容風險防控中的AI力量 直播作為近來新興的互動形態和今年阿里巴巴雙十一的一大亮點,其內容風險監控是一個全新的課題,技術的挑戰非常大,管控難點主要包括業界缺乏成熟方案和標準、主播行為、直播內容不可控、峰值...
閱讀 157·2024-12-10 11:51
閱讀 303·2024-11-07 17:59
閱讀 330·2024-09-27 16:59
閱讀 466·2024-09-23 10:37
閱讀 540·2024-09-14 16:58
閱讀 336·2024-09-14 16:58
閱讀 532·2024-08-29 18:47
閱讀 813·2024-08-16 14:40