国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

剛剛!Meta開源全新模型,視頻也能分割了

UCloud小助手 / 492人閱讀

繼前幾日推出完開源大模型Llama 3.1后,就在剛剛,Meta在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 來了。在其前身的基礎上,SAM 2 的誕生代表了領域內的一次重大進步 —— 為靜態圖像和動態視頻內容提供實時、可提示的對象分割,將圖像和視頻分割功能統一到一個強大的系統中。

SAM 2可以快速、精確地在任何視頻或圖像中選擇對象。它不僅能在圖像中分割對象,還能在視頻中追蹤對象,即使這些對象在訓練時從未見過。該模型支持實時互動,非常適合各種實際應用,比如視頻編輯和互動式媒體內容制作。

模型介紹以及功能

SAM2的核心優勢在于其快速精準的對象分割能力,無論是靜態圖像還是動態視頻,它都能輕松應對。這一模型不僅能夠識別和分割圖像中的單一對象,還能在視頻流中實時追蹤對象,即便這些對象在訓練階段未曾出現過。SAM2的實時互動特性,使其在視頻編輯和互動媒體內容制作等領域具有廣泛的應用前景。

它采用了統一的架構設計,無需針對圖像和視頻分別訓練,就能同時處理兩種類型的分割任務。這種設計大大提高了模型的通用性和效率,為各種視覺應用場景提供了強大支持。

與 SAM 一樣,SAM 2 也會開源并免費使用,并在 Amazon SageMaker 等平臺上托管。為了履行對開源 AI 的承諾,Meta 使用寬松的 Apache 2.0 協議共享代碼和模型權重,并根據 BSD-3 許可分享 SAM 2 評估代碼。

正如扎克伯格上周在一封公開信中指出的那樣,開源人工智能比任何其他現代技術都更具有潛力,可以提高人類的生產力、創造力和生活質量,同時還能加速經濟增長并推動突破性的醫學和科學研究。人工智能社區利用 SAM 取得的進展給我們留下了深刻的印象, SAM 2 必將釋放更多令人興奮的可能性。

而SAM 2 前腳剛上線,大家就迫不及待的用起來了:「在 Meta 未提供的測試視頻上試用 SAM 2。效果好得令人瞠目結舌。」

同時還有網友認為,SAM 2 的出現可能會使其他相關技術黯然失色。

如何構建

SAM 能夠了解圖像中對象的一般概念。然而,圖像只是動態現實世界的靜態快照。許多重要的現實用例需要在視頻數據中進行準確的對象分割,例如混合現實、機器人、自動駕駛車輛和視頻編輯。Meta 認為通用的分割模型應該適用于圖像和視頻。

圖像可以被視為具有單幀的非常短的視頻。Meta 基于這個觀點開發了一個統一的模型,無縫支持圖像和視頻輸入。處理視頻的唯一區別是,模型需要依靠內存來調用該視頻之前處理的信息,以便在當前時間步準確地分割對象。

視頻中對象的成功分割需要了解實體在空間和時間上的位置。與圖像分割相比,視頻提出了重大的新挑戰。對象運動、變形、遮擋、光照變化和其他因素可能會因幀而異。由于攝像機運動、模糊和分辨率較低,視頻的質量通常低于圖像,這增加了難度。因此,現有的視頻分割模型和數據集在為視頻提供可比的「分割任何內容」功能方面存在不足。

Meta 構建 SAM 2 和新 SA-V 數據集來解決這些挑戰。

與用于 SAM 的方法類似,Meta 對視頻分割功能的研究涉及設計新任務、模型和數據集。

然后,研究團隊使用 SAM 2 來幫助創建視頻對象分割數據集 ——SA-V,該數據集比當前存在的任何數據集大一個數量級。研究團隊使用它來訓練 SAM 2 以實現 SOTA 性能。

可提示的視覺分割

研究團隊設計了一個可提示的視覺分割任務,將圖像分割任務推廣到視頻領域。SAM 經過訓練,可以將圖像中的點、框或蒙版作為輸入,以定義目標對象并預測分割蒙版。

借助 SAM 2,我們訓練它接受視頻任意幀中的輸入提示,以定義要預測的時空蒙版(即“蒙版小片”)。

SAM 2 根據輸入提示立即預測當前幀上的蒙版,并將其在時間上傳播以生成所有視頻幀中的目標對象的蒙版小片。一旦預測了初始蒙版小片,就可以通過在任意幀中向 SAM 2 提供額外提示來迭代細化它。這可以根據需要重復多次,直到獲得所需的蒙版小片。

SA-V:構建最大的視頻分割數據集

為了收集一個大型且多樣化的視頻分割數據集,Meta 建立了一個數據引擎,其中注釋員使用 SAM 2 交互地在視頻中注釋 masklet,然后將新注釋的數據用于更新 SAM 2。他們多次重復這一循環,以迭代地改進模型和數據集。與 SAM 類似,Meta 不對注釋的 masklet 施加語義約束,注重的是完整的物體(如人)和物體的部分(如人的帽子)。

借助 SAM 2,收集新的視頻對象分割掩碼比以往更快,比每幀使用 SAM 快約 8.4 倍。此外,Meta 發布的 SA-V 數據集的注釋數量是現有視頻對象分割數據集的十倍以上,視頻數量大約是其 4.5 倍。

總結而言,SA-V 數據集的亮點包括:

在大約 51,000 個視頻中有超過 600,000 個 masklet 注釋;

視頻展示了地理上不同的真實場景,收集自 47 個國家;

覆蓋整個對象、對象中的一部分,以及在物體被遮擋、消失和重新出現的情況下具有挑戰性的實例。

局限性

雖然 SAM 2 在分割圖像和短視頻中的對象方面表現出色,但仍然會遇到諸多挑戰。

SAM 2 可能會在攝像機視角發生劇烈變化、長時間遮擋、擁擠的場景或較長的視頻中失去對對象的追蹤。

在實際應用中,Meta 設計了交互式模型來緩解這一問題,并通過在任意幀中點擊校正來實現人工干預,從而恢復目標對象。

當目標對象只在一幀中指定時,SAM 2 有時會混淆對象,無法正確分割目標,如上述的馬匹所示。在許多情況下,通過在未來幀中進行額外的細化提示,這一問題可以完全解決,并在整個視頻中獲得正確的 masklet。

雖然 SAM 2 支持同時分割多個多帶帶對象的功能,但模型的效率卻大大降低。實際上,SAM 2 對每個對象進行多帶帶處理,只利用共享的每幀嵌入,不進行對象間通信。雖然這簡化了模型,但納入共享的對象級上下文信息有助于提高效率。

在同一幀或其他幀中添加進一步的提示來優化預測只能部分緩解此問題。在訓練過程中,如果模型預測在幀間抖動,不會對其進行任何懲罰,因此無法保證時間上的平滑性。提高這種能力可以促進需要對精細結構進行詳細定位的實際應用。

雖然 Meta 的數據引擎在循環中使用了 SAM 2,且在自動 masklet 生成方面也取得了長足進步,但仍然依賴人工注釋來完成一些步驟,例如驗證 masklet 質量和選擇需要校正的幀。

因此,未來的發展需要進一步自動化這個數據注釋過程,以提高效率。要推動這項研究,還有很多工作要做。


文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/131142.html

相關文章

  • 智譜 AI 開源視頻生成模型CogVideoX:單張 4090 顯卡即可推理

    隨著大型模型技術的持續發展,視頻生成技術正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術,正在重新定義行業的未來格局。而近幾個月,國產的AI視頻生成模型也是層出不窮,像是快手可靈、字節即夢、智譜清影、Vidu、PixVerse V2 等。就在近日,智譜AI秉承以先進技術,服務全球開發者的理念,宣布將與清影同源的視頻生成模型——CogVideoX開源,以期讓每一位開發者、每一家企...

    UCloud小助手 評論0 收藏0
  • Facebook開源深度學習框架Caffe2,帶來跨平臺機器學習工具

    摘要:部署旨在幫助開發人員和研究人員訓練大規模機器學習模型,并在移動應用中提供驅動的用戶體驗。現在,開發人員可以獲取許多相同的工具,能夠在大規模分布式場景訓練模型,并為移動設備創建機器學習應用。 AI 模型的訓練和部署通常與大量數據中心或超級計算機相關聯,原因很簡單。從大規模的圖像、視頻、文本和語音等各種信息中持續處理、創建和改進模型的能力不是小型計算擅長的。在移動設備上部署這些模型,使其快速輕量...

    weapon 評論0 收藏0
  • 最后一屆ImageNet挑戰賽落幕,「末代」皇冠多被國人包攬

    摘要:在本次競賽中,南京信息工程大學和帝國理工學院的團隊獲得了目標檢測的最優成績,最優檢測目標數量為平均較精確率為。最后在視頻目標檢測任務中,帝國理工大學和悉尼大學所組成的團隊取得了較佳表現。 在本次 ImageNet 競賽中,南京信息工程大學和帝國理工學院的團隊 BDAT 獲得了目標檢測的最優成績,最優檢測目標數量為 85、平均較精確率為 0.732227。而在目標定位任務中Momenta和牛津...

    jimhs 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<