国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

DeepMind發布最佳語音神經網絡生成模型,與人差距縮減50%以上

niceforbear / 2322人閱讀

摘要:正如我們可以看到的那樣,降低了人類表現與機器表現之間的差異,在英語和中文上都將差距縮小了以上。對于中文和英語,谷歌當下的系統被認為是世界上較好的,所以用一個模型對二者進行提高是一個很大的成就。

本文介紹的是WaveNet——一個原始音頻波形深度模型。我們展示了,Wavenet能夠生成模仿人類的語音,聽起來要比現有較好的文本到語音轉化系統更自然,將與人類表現的差距縮減了50%以上。

在我們的展示中,相同的網絡能被用于合成其他的音頻信號,比如,音樂。在這里,我們提供了一些樣本——自動生成的鋼琴曲。

會說話的機器

讓人能與機器對話是人機交互長期以來的一個夢想。近年來,隨著深度神經網絡的應用(比如,谷歌的語音搜索),計算機理解自然語音的能力取得了革命性的進展。但是,用計算機生成語音仍然大量地依賴于所謂的 TTS (文本到語音)拼接技術,在這個過程中,首先要記錄一個說話人的聲音片段,并基于此構建超大型的數據庫,隨后,經過再次結合過程,形成完整的表達。這樣一來,在不紀錄一個完整的新數據庫的情況下,要修飾聲音就會變得很困難(比如,轉化到不同的說話者,或者轉化語音中的情感和語氣)。

這導致了對參數的 TTS 的大量需求,在這里面,所有生成數據所需要的信息都被存儲到模型的參數中,并且,語音中的內容和個性可以通過模型的輸入進行控制。但是,目前為止,參數的TTS聽起來更多的是不自然的,而是合成的,至少對于音節語音,比如英語來說是這樣。現有的參數模型一般是信號處理算法Vocoders得到輸出,生成語音信號。

通過直接對原始聲音信號的聲浪建模,WaveNet改變了這種舊范式,每次對一個樣本進行建模。和生成更加自然的語音一樣,使用原始的聲波意味著WaveNet能對任何音頻建模,其中包括音樂。

研究者一般都會避免對原始音頻進行建模,因為音頻跳轉得太快了:一般情況下,每秒轉變的樣本達到16000個或更多,在許多時間點上,都需要設置重要的結構。建立一個完全自動回歸的模型顯然是一個充滿挑戰的任務,在這個模型中,對每一個樣本的預測都會受到此前樣本的影響(在statistics-speak中,每一個預測的分布都受到此前觀察的限制)。

但是,我們在今年早些時候發布的PixelRNN 和 PixelCNN 模型,證明使用不止一個像素一次性生成復雜的自然圖像是可能的,但是一次生成 一個顏色通道,每張圖像都要求成千上萬個預測。這給了我們靈感,進而把二維的PixelNet 運用到 一維的WaveNet中。?

上面的動畫展示了WaveNet的組織結構。這是一個全卷積的神經網絡,當中的卷積層有多個擴張因素,允許它的接收域在深度上呈指數級的增長,覆蓋數千個時間步長。

在訓練時,輸入序列是從人類說話者記錄的真實聲音波形。訓練結束后,我們可以把網絡作為樣本,產生合成的表達。在取樣的每一個步驟中,值是由網絡計算的概率分布繪制。然后該值被反饋到輸入,用于下一個步驟的預測得以制成。這樣按部就班地建立樣品計算成本高昂,但我們發現,在生成復雜的、逼真的音頻上,這是至關重要的。

對現狀的提升

我們使用谷歌的TTS數據庫來訓練WaveNet,這樣我們就能評估它的表現,下面的表格展示了從1到5的量級上,WaveNet 的質量與谷歌現在較好的TTS系統(參數的和合成的)的對比,還有一個對比是與人類使用MOS。

MOS是一個用于衡量主觀聲音質量測試的標準,以人類為對象的盲測中獲得(對100個測試句子的500個評級)。正如我們可以看到的那樣,WaveNets降低了人類表現與機器表現之間的差異,在英語和中文上都將差距縮小了50%以上。

對于中文和英語,谷歌當下的TTS系統被認為是世界上較好的,所以用一個模型對二者進行提高是一個很大的成就。

以下wavenet 在中文上的表現:

知道說的是什么

為了使用WaveNet 把文本轉變成語音,我們必須告訴它文本是什么。我們通過把文本轉化成一個語言與聲學特征序列(這個序列包含了當下的聲音、字母、詞匯等),以及,把這一序列喂到WaveNet中,我們可以做到讓模型了解要說什么。這意味著,網絡的預測不僅取決于前期的聲音樣本,也取決于我們希望它說的內容。

如果我們在沒有文本序列的情況下訓練這一網絡,它仍然能生成語音,但是這樣的話它需要辨別要說的是什么。正如你可以在下面的例子中聽到的那樣,結果有點像在說胡話,其中真實的單詞被類似發音的聲音打亂。

WaveNets在有些時間還可以生成例如呼吸和嘴部運動這樣的非語言聲音,這也反映了一個原始的音頻模型所擁有的更大的自由度。

如你在這些樣本中所能聽到的一樣,一個單一的WaveNet可以學習很多種聲音的特點,不論是男性還是女性。為了確認WaveNet知道在任意的情景下它知道用什么聲音,我們去控制演講人的身份。有意思的是,我們發布用很多的演講者是訓練這個系統,使得它能夠更好的去給單個演講者建模。這比只用一個演講者去訓練要強。這是一種形式的遷移學習。

同樣的,我們也可以在模型的輸入端給予更多的東西,例如情感或噪音,這樣使得生成的語音可以更多樣化,也更有趣。

生成音樂

既然WaveNets可以用來能任意的音頻信息進行建模,我們就想如果能讓他來生成音樂的話,這樣就更有意思了。和TTS實驗不同,我們沒有給網絡一個輸入序列,告訴它要去播放什么(例如一個譜子)。相反的,我們只是讓它去生成任意它想生成的東西。當我們將它在一個古典鋼琴音樂的數據集上進行訓練時,它聽上去的效果確定還不錯。

WaveNets為TTS、音樂合成以及音頻建模開啟了更多的可能性。我們已經迫不及待地想要去探索更多WaveNets能做的事。

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識

QQ群:81035754

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4402.html

相關文章

  • 從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀

    摘要:文本谷歌神經機器翻譯去年,谷歌宣布上線的新模型,并詳細介紹了所使用的網絡架構循環神經網絡。目前唇讀的準確度已經超過了人類。在該技術的發展過程中,谷歌還給出了新的,它包含了大量的復雜案例。谷歌收集該數據集的目的是教神經網絡畫畫。 1. 文本1.1 谷歌神經機器翻譯去年,谷歌宣布上線 Google Translate 的新模型,并詳細介紹了所使用的網絡架構——循環神經網絡(RNN)。關鍵結果:與...

    kuangcaibao 評論0 收藏0
  • 它將是你的第二大腦——長文講述谷歌深度學習的故事

    摘要:深度學習現在被視為能夠超越那些更加直接的機器學習的關鍵一步。的加入只是谷歌那一季一系列重大聘任之一。當下谷歌醉心于深度學習,顯然是認為這將引發下一代搜索的重大突破。移動計算的出現已經迫使谷歌改變搜索引擎的本質特征。 Geoffrey Hiton說:我需要了解一下你的背景,你有理科學位嗎?Hiton站在位于加利福尼亞山景城谷歌園區辦公室的一塊白板前,2013年他以杰出研究者身份加入這家公司。H...

    jackzou 評論0 收藏0
  • 人工智能時代的降臨

    摘要:周二,白宮發布了一份關于人工智能與經濟的令人寒心的報告。更重要的是,我們必須超越這種狹隘的思考方式受到人工智能威脅的工作崗位。今年,最矚目的人工智能與人類的對決就來自。然而,人工智能在年碾壓人類的一系列勝利僅僅是個開始。 showImg(https://segmentfault.com/img/remote/1460000008189557?w=1280&h=800); 去年以來關于人...

    animabear 評論0 收藏0

發表評論

0條評論

niceforbear

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<