原創翻譯 | 10個音頻處理任務讓你開始使用深度學習應用

notebin 發布于2019-04-25 18:24 / 3856人閱讀

摘要：這是機器學習課程中的一個典型例子，他把演講者的聲音和背景音樂分開。雖然用于啟動檢測的技術主要依賴于音頻特征工程和機器學習，但在這里可以很容易地使用深度學習來優化結果。

介紹

想象一個能理解你想要什么，且當你打電話給客戶服務中心時能理解你的感受的機器--如果你對某件事感到不高興，你可以很快地和一個人交談。如果您正在尋找特定的信息，您可能不需要與某人交談(除非您愿意！)。

這將是世界的新秩序--你已經可以看到這種情況在很好的程度上發生了。看看2017年數據科學行業的亮點。你可以看到深度學習帶來的突破，這是以前很難解決的領域。深入學習有潛力幫助解決的一個領域是音頻/語音處理，尤其是因為它的非結構化性質和巨大的影響。

因此，對于那些好奇的人，我已經編制了一份清單，當你開始音頻處理時，這些任務是值得你去處理的。我相信在使用深度學習的時候會有更多的突破。

這篇文章的結構是為了解釋每一項任務及其重要性。還有一篇研究論文，詳細介紹了這一具體任務，并附有一份案例研究，它將幫助你開始解決這個問題。

所以我們開始吧！

音頻分類

音頻分類是音頻處理領域的一個基本問題。任務本質上是從音頻中提取特征，然后識別音頻屬于哪個類。與音頻分類相關的許多有用的應用可以自行找到--例如類型分類、樂器識別和藝術家識別。

這個任務也是音頻處理中探索最多的話題。去年在這個領域發表了大量的論文。事實上，我們還舉辦了一次社區協作實踐黑客馬拉松，以解決這一特殊任務。

白皮書?–?http://ieeexplore.ieee.org/document/5664796/?reload=true

解決音頻分類問題的一種常用方法是對音頻輸入進行預處理，提取有用的特征，然后應用分類算法對其進行分類。例如，在下面的案例研究中，我們得到了一個聲音的5秒摘錄，任務是確定它屬于哪一類--無論是狗叫聲還是鉆孔聲。正如本文所提到的，解決這個問題的方法是提取一個名為MFCC的音頻特征，然后通過一個神經網絡傳遞它以得到適當的類。

案例研究–?https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

2. 音頻指紋

音頻指紋的目的是確定音頻的數字“摘要”。這是為了從音頻樣本中識別音頻。Shazam是音頻指紋應用的一個很好的例子。它根據一首歌的前兩到五秒來識別音樂。然而，仍然存在系統故障的情況，特別是在背景噪聲很大的情況下。

白皮書?–?http://www.cs.toronto.edu/~dross/ChandrasekharSharifiRoss_ISMIR2011.pdf

要解決這個問題，一種方法是可以用不同的方式來表示音頻，這樣就可以很容易地破解音頻。然后，然后，我們可以找出區分音頻和背景噪聲的模式。在下面的案例研究中，作者將原始音頻轉換為光譜圖，然后使用峰值查找和指紋哈希算法來定義音頻文件的指紋。

案例研究–?http://willdrevo.com/fingerprinting-and-audio-recognition-with-python/

3. 自動音樂標注

音樂標記是音頻分類的一個更復雜的版本。在這里，我們可以有多個類，每個音頻可能屬于多標簽分類問題。此任務的一個潛在應用程序可以是為音頻創建元數據，以便稍后搜索。深入學習在一定程度上幫助解決了這一問題，這可以從下面的案例研究中看到。

白皮書–?https://link.springer.com/article/10.1007/s10462-012-9362-y

從大多數任務中可以看出，第一步總是從音頻示例中提取特性。然后，根據音頻的細微差別對其進行排序(例如，如果音頻包含比歌手的聲音更多的器樂噪音，則標記可以是“器樂”)。這可以通過機器學習或深入學習的方法來完成。下面的案例研究利用深度學習來解決這個問題，特別是卷積遞歸神經網絡和MEL頻率提取。

案例研究?–?https://github.com/keunwoochoi/music-auto_tagging-keras

4. 音頻分割

切分字面上是指根據定義的一組特征將特定的對象劃分為部分(或部分)。分割，尤其是音頻數據分析，是一個重要的預處理步驟。這是因為我們可以分割一個有噪聲和冗長的音頻信號為短的均勻段(方便的短序列音頻)，用于進一步的處理。該任務的一個應用是心音分割，即識別特定于心臟的聲音。

白皮書–?http://www.mecs-press.org/ijitcs/ijitcs-v6-n11/IJITCS-V6-N11-1.pdf

我們可以將其轉化為一個有監督的學習問題，其中每個時間戳都可以根據所需的片段進行分類。然后，我們可以應用音頻分類方法來解決這件餓個問題。在下面的案例研究中，任務是將心音分割成兩個部分(lub和dub)，以便我們可以識別每個部分中的異常。利用音頻特征提取可以來解決該問題，再利用深度學習進行分類。

案例研究–?https://www.analyticsvidhya.com/blog/2017/11/heart-sound-segmentation-deep-learning/

5. 聲源分離

聲源分離包括將一個或多個源信號從混合信號中分離出來。其中最常見的應用之一是同時識別音頻中的歌詞，以便進行同聲翻譯(例如卡拉OK)。這是Andrew Ng機器學習課程中的一個典型例子，他把演講者的聲音和背景音樂分開。

白皮書?–?http://ijcert.org/ems/ijcert_papers/V3I1103.pdf

典型的使用場景包括：

加載音頻文件

計算時頻變換以獲得譜圖，以及

使用一些源分離算法(如非負矩陣因式分解)來獲得時頻掩碼。

然后用頻譜圖將掩模相乘，結果被轉換回時域。

案例研究–?https://github.com/IoSR-Surrey/untwist

6.節拍跟蹤

顧名思義，這里的目標是跟蹤音頻文件集合中每個節拍的位置。拍頻跟蹤可以用于自動完成必須按順序完成的耗時任務，以使事件與音樂同步。它在各種應用中都很有用，如視頻編輯、音頻編輯和人機即興創作.

白皮書?–?https://www.audiolabs-erlangen.de/content/05-fau/professor/00-mueller/01-students/2012_GroschePeter_MusicSignalProcessing_PhD-Thesis.pdf

解決拍頻跟蹤問題的一種方法是解析音頻文件，并使用起始檢測算法跟蹤拍頻。雖然用于啟動檢測的技術主要依賴于音頻特征工程和機器學習，但在這里可以很容易地使用深度學習來優化結果。

案例研究–?https://github.com/adamstark/BTrack

7. 音樂推薦

多虧了互聯網，我們現在有數百萬首歌曲可以隨時收聽。具有諷刺意味的是，這使得發現新音樂變得更加困難，因為有太多的選擇。音樂推薦系統通過自動向聽眾推薦新音樂來幫助處理這種信息過載。像Spotify和Saavn這樣的內容提供商已經開發了高度復雜的音樂推薦引擎。這些模型利用用戶過去的偵聽歷史以及許多其他特性來構建定制的推薦列表。

白皮書?–?https://pdfs.semanticscholar.org/7442/c1ebd6c9ceafa8979f683c5b1584d659b728.pdf

我們可以通過訓練一個回歸/深入學習模型來應對定制聽力偏好的挑戰。這可以用來預測從協作過濾模型中獲得的歌曲的潛在表現形式。這樣，即使沒有可用的使用數據，我們也可以預測協作過濾空間中歌曲的表示。

案例研究–?http://benanne.github.io/2014/08/05/spotify-cnns.html

8. 音樂檢索

音樂檢索是音頻處理中最困難的任務之一，其本質是建立一個基于音頻的搜索引擎。盡管我們可以通過解決音頻指紋之類的子任務來完成這個任務，但是這個任務包含了更多的內容。例如，對于不同類型的音樂檢索，我們還必須解決不同的小任務(音色檢測對于性別識別來說是很好的)。目前，還沒有其他系統能夠達到業界預期的標準。

白皮書–?http://www.nowpublishers.com/article/Details/INR-042

音樂檢索的任務分為較小和更簡單的步驟，包括音調分析(如旋律和和聲)和韻律或節奏(例如，節拍跟蹤)。然后，在此基礎上，提取出用于檢索相似音頻樣本的信息。

案例研究–?https://youtu.be/oGGVvTgHMHw

9.音樂轉錄

音樂轉錄是另一個具有挑戰性的音頻處理任務。它包括注釋音頻和創建一種“片段”，以便在稍后的時間從它產生音樂。從錄音中抄錄音樂所涉及的手工工作可能是巨大的。這取決于音樂的復雜性，我們的聽力技能有多好，以及我們希望我們的轉錄有多詳細。

白皮書?–?http://ieeexplore.ieee.org/abstract/document/7955698

音樂轉錄的方法類似于語音識別的方法，即將音符轉錄成樂器的抒情節錄。

案例研究–?https://youtu.be/9boJ-Ai6QFM

10. 起始檢測

起始檢測是分析音頻/音樂序列的第一步。對于上面提到的大多數任務，執行起始檢測(即檢測音頻事件的開始)是有必要的。從本質上說，起效檢測是研究人員在音頻處理中要解決的第一項任務。

白皮書?–?http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.332.989&rep=rep1&type=pdf

起始檢測通常有以下步驟：

計算譜新穎性函數譜新奇函數中的峰發現從每個峰回溯到前一個局部極小值。回溯對于尋找分割點是很有用的，這樣就可以在片段開始后不久發生。

案例研究–?https://musicinformationretrieval.com/onset_detection.html

文末說明

在本文中，我提到了一些在解決音頻處理問題時可以考慮的任務。我希望你在處理音頻/演講相關項目時能發現這篇文章很有見地。

英文原文：https://www.analyticsvidhya.com/blog/2018/01/10-audio-processing-projects-applications/

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

云服務器 GPU云服務器原創的深度學習深度學習原創技術如何開始深度學習 webrtc 音頻處理使用

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4730.html

原創翻譯 | 深度學習與機器學習 - 您需要知道的基本差異！

摘要：深度學習自動找到對分類重要的特征，而在機器學習，我們必須手工地給出這些特征。數據依賴深度學習和傳統機器學習最重要的區別在于數據量增長下的表現差異。這是深度學習一個特別的部分，也是傳統機器學習主要的步驟。前言機器學習和深度學習現在很火！突然間每個人都在討論它們-不管大家明不明白它們的不同！不管你是否積極緊貼數據分析，你都應該聽說過它們。正好展示給你要關注它們的點，這里...

jsummer 2019-04-25 18:16 評論0 收藏0

發表評論

登陸后可評論

0條評論

notebin

男|高級講師

我要關注我要私信

TA的文章

RackNerd 美國勞工節促銷：美國服務器，高配置，大硬盤（最高達10x1.6TB SSD），猶他

閱讀 3686·2021-09-07 10:19
OneTechCloud：易科雲月付9折季付8折，香港cn2 VPS(不限流量)，美國三網cn2 g

閱讀 3627·2021-09-03 10:42
還在問用什么來做接口測試？萬能Jmeter打造性能測試數據平臺。jmeter 【 yyds】

閱讀 3584·2021-09-03 10:28
扯點：FC - Formatting Context

閱讀 2548·2019-08-29 14:11
CSS3筆記

閱讀 809·2019-08-29 13:54
學習canvas 過程中的幾點總結

閱讀 1594·2019-08-29 12:14
electron跳坑指南 1(electron的安裝)

閱讀 417·2019-08-26 12:12
如何利用JavaScript的Map提升性能

閱讀 3614·2019-08-26 10:45

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

原創翻譯 | 10個音頻處理任務讓你開始使用深度學習應用

相關文章

原創翻譯 | 深度學習與機器學習 - 您需要知道的基本差異！

發表評論

0條評論

notebin

男|高級講師

TA的文章

RackNerd 美國勞工節促銷：美國服務器，高配置，大硬盤（最高達10x1.6TB SSD），猶他

OneTechCloud：易科雲月付9折季付8折，香港cn2 VPS(不限流量)，美國三網cn2 g

還在問用什么來做接口測試？萬能Jmeter打造性能測試數據平臺。jmeter 【 yyds】

扯點：FC - Formatting Context

CSS3筆記

學習canvas 過程中的幾點總結

electron跳坑指南 1(electron的安裝)

如何利用JavaScript的Map提升性能

最新活動