以假亂真，MIT基于深度學習的新算法給視頻配音

mmy123456 發布于2019-04-25 18:04 / 2031人閱讀

摘要：它們的學習過程主要來自于深度學習框架，該項目也由美國國家科學基金會資助。聽音辨物為視頻匹配逼真聲音是音效師的主要工作領域后期制作音頻向導，他們記錄你在一部好萊塢電影中看到和聽到的腳步聲門的嘎吱聲騰空橫踢。

神經網絡已經在玩游戲方面超過了我們，并且也應用于智能手機照片的管理以及郵件回復方面。此外，它們還能在好萊塢謀得一職。?

在 MIT 的計算機科學和人工智能實驗室（CSAIL），一個由 6 位研究人員組成的小組創建了一套機器學習系統，它可以將聲音效果與視頻剪輯匹配。別高興得太早，CSAIL 的算法還不能在任何舊的視頻上工作，而且它產生的聲音效果也是有限的。對于該項目，CSAIL 的博士生 Andrew Owens 和研究生 Phillip Isola 將他們用鼓槌重擊一堆東西錄制成視頻，包括樹樁、桌子、椅子、水坑、樓梯扶手、枯葉，還有骯臟的地面。?

該小組將最初的 1000 個批量視頻輸入到它的 AI 算法中。通過分析視頻中物體的物理外觀，鼓槌的每次運動軌跡，還有最終的聲音，計算機能夠學習到物理物體和它被擊中所發聲音之間的聯系。然后，通過“觀看”物體被鼓槌重擊，輕敲和刮蹭時的不同視頻，這個系統可以計算出伴隨每個剪輯相應的音調、音量以及的聲音聽覺特性。

視頻：https://youtu.be/0FW99AQmMc8?

該算法本身不產生聲音——它只是從成千上萬的音頻剪輯數據庫中獲取數據。此外，聲音效果也不是基于視覺匹配來選擇；你可以在上面視頻中1:20 處看到，該算法有自己的創意。它隨著沙沙作響的塑料袋來選擇聲音效果，在灌木從徹底被鼓槌敲擊時直接給出聲音效果。?

Owens 說，研究小組使用卷積神經網絡來分析視頻幀，遞歸神經網絡來選擇對應的音頻。?

它們的學習過程主要來自于 Caffe 深度學習框架，該項目也由美國國家科學基金會（National Science Foundation and Shell）資助。小組的一名成員在谷歌研究院工作，Owens 則是微軟研究獎學金計劃的一員。?

Owens 說，“我們幾乎已經把現有的深度學習技術運用到了新領域，我們的目標不是開發新的深度學習方法。”?

聽音辨物?

為視頻匹配逼真聲音是音效師的主要工作領域——后期制作音頻向導，他們記錄你在一部好萊塢電影中看到（和聽到）的腳步聲、門的嘎吱聲、騰空橫踢。?

一位出色的音效師可以將聲音較精確匹配給視頻，讓觀眾誤以為這聲音是實際捕捉到的。?

MIT 的機器人還沒有這么嫻熟。該研究小組進行了一項在線調查，為 4000 名參與者展示了同一視頻配上原始音頻和算法生成的聲音版本，然后讓他們選擇哪個視頻里的聲音是真實的。有 22% 的人選擇了假音頻——還遠不完美，但效果仍是之前版本算法的兩倍。?

根據 Owens 所述，那些測試結果是一個好兆頭，預示著計算機視覺算法可以檢測物體的組成，以及輕敲、重擊、刮蹭物體時產生的不同物理效果。不過，還是有些物體系統不能正確處理。有些時候，系統會認為鼓槌在撞擊某一物體，但實際上并沒有，比起對更堅實物體產生的聲音效果，更多的人更容易被對落葉和灰塵產生的聲音效果愚弄。?

這個項目不僅僅是為了產生有趣的聲音效果，它背后還有更深層的原因。Owens 認為，如果該系統已經非常完善，那么計算機視覺技術就可以幫助機器人通過分析物體發出的聲音來識別它的材質和物理屬性。Owens 說，“我們希望這些算法通過觀察這些物理相互作用以及響應來學習，你可以把它想象成嬰兒那樣通過敲打、跺腳和玩耍來學習世界。”?

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器給視頻配音的軟件基于深度學習的深度教學基于深度學習的語音增強基于深度學習的圖像識別

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4389.html

3 分鐘帶你走進視覺智能新時代 | 七牛云&美圖 AI 共享日精彩語錄

摘要：月日下午，七牛云美圖共享日在廈門舉行，來自七牛云美圖廈門大學羅普特等眾位大咖齊聚一堂。七牛云美圖共享日精華語錄計算機識別是按照具體問題具體分析，具體場景具體分析。又稱小牛匯共享日，是小牛匯舉辦的第一個系列活動。時間機器、穿越星際的宇宙飛船、飛行汽車，幾乎每一部科幻電影作品中都能發明點新東西。超現實技術在引起人們陣陣贊嘆的同時，也在激勵著人們思考如何將不可能變成可能。而在我們的生活當中...

Jonathan Shieber 2019-06-26 18:32 評論0 收藏0
深度學習在圖像超分辨率重建中的應用

摘要：基于深度學習的，主要是基于單張低分辨率的重建方法，即。而基于深度學習的通過神經網絡直接學習分辨率圖像到高分辨率圖像的端到端的映射函數。超分辨率技術（Super-Resolution）是指從觀測到的低分辨率圖像重建出相應的高分辨率圖像，在監控設備、衛星圖像和醫學影像等領域都有重要的應用價值。SR可分為兩類:從多張低分辨率圖像重建出高分辨率圖像和從單張低分辨率圖像重建出高分辨率圖像。基于深度學...

xinhaip 2019-04-25 18:10 評論0 收藏0

發表評論

登陸后可評論

0條評論

mmy123456

男|高級講師

我要關注我要私信

TA的文章

WeVPS：$22/月/1GB內存/20GB SSD空間/3TB流量/1Gbps端口/KVM/臺灣；

閱讀 1618·2021-09-08 10:42
Sectigo：20%中小企業遭到黑客攻擊，企業應如何保護網站安全？ Sectigo的一項新研究《網

閱讀 3604·2021-08-11 10:23
Echarts4.0 使用系列——折線圖，這里可能有你需要的

閱讀 3959·2019-08-30 14:10
CSS盒模型與BFC

閱讀 2732·2019-08-29 17:29
Vue.js 2.0 輕松入門（一）

閱讀 3090·2019-08-29 12:50
純前端表格控件 SpreadJS 內測邀請

閱讀 637·2019-08-26 13:36
Deno 并不是下一代 Node.js

閱讀 3456·2019-08-26 11:59
每日 30 秒 ? 字符編碼排雷錄

閱讀 1487·2019-08-23 16:23

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

以假亂真，MIT基于深度學習的新算法給視頻配音

相關文章

3 分鐘帶你走進視覺智能新時代 | 七牛云&美圖 AI 共享日精彩語錄

深度學習在圖像超分辨率重建中的應用

發表評論

0條評論

mmy123456

男|高級講師

TA的文章

WeVPS：$22/月/1GB內存/20GB SSD空間/3TB流量/1Gbps端口/KVM/臺灣；

Sectigo：20%中小企業遭到黑客攻擊，企業應如何保護網站安全？ Sectigo的一項新研究《網

Echarts4.0 使用系列——折線圖，這里可能有你需要的

CSS盒模型與BFC

Vue.js 2.0 輕松入門（一）

純前端表格控件 SpreadJS 內測邀請

Deno 并不是下一代 Node.js

每日 30 秒 ? 字符編碼排雷錄

最新活動