阿里通義音頻生成大模型 FunAudioLLM 開源！

UCloud小助手發布于2024-07-12 16:57 / 496人閱讀

簡介

近年來，人工智能（AI）技術的進步極大地改變了人類與機器的互動方式，特別是在語音處理領域。阿里巴巴通義實驗室最近開源了一個名為FunAudioLLM的語音大模型項目，旨在促進人類與大型語言模型（LLMs）之間的自然語音交互。FunAudioLLM包含兩個核心模型：SenseVoice和CosyVoice，分別負責語音理解和語音生成。

SenseVoice：語音理解模型

SenseVoice是一個功能強大的語音理解模型，支持多種語音處理任務，包括自動語音識別（ASR）、語言識別（LID）、語音情緒識別（SER）和音頻事件檢測（AED）。其主要特點包括：

多語言支持：SenseVoice支持超過50種語言的語音識別。
低延遲：SenseVoice-Small模型具有極低的推理延遲，比Whisper-small快5倍以上，比Whisper-large快15倍以上，適用于實時語音交互應用。
高精度：SenseVoice-Large模型在高精度語音識別方面表現出色，適用于需要高精度識別的應用。
豐富的語音理解功能：包括情緒識別和音頻事件檢測，為復雜的語音交互應用提供支持。

CosyVoice：語音生成模型

CosyVoice是一個功能強大的語音生成模型，可以生成自然流暢的語音，并支持多種語言、音色、說話風格和說話人身份的控制。其主要特點包括：

多語言語音生成：支持中文、英文、日語、粵語和韓語等多種語言的語音生成。
零樣本學習：可以通過少量參考語音進行語音克隆。
跨語言語音克隆：可以將語音克隆到不同的語言中。
情感語音生成：可以生成情感豐富的語音，如快樂、悲傷、憤怒等。
指令遵循：可以通過指令文本控制語音輸出的各個方面，如說話人身份、說話風格和副語言特征。

訓練數據

SenseVoice：使用了約40萬小時的多語言語音數據，并通過開源的音頻事件檢測（AED）和語音情緒識別（SER）模型生成偽標簽，構建了一個包含大量豐富語音識別標簽的數據集。
CosyVoice：使用了多種語言的語音數據集，并通過專門的工具進行語音檢測、信噪比（SNR）估計、說話人分割和分離等操作，以提高數據質量。

實驗結果

FunAudioLLM在多個語音理解和生成任務上取得了優異的性能：

多語言語音識別：SenseVoice在大多數測試集上優于Whisper模型，特別是在低資源語言上表現更佳。
語音情緒識別：在7個流行的情緒識別數據集上表現出色，無需微調即可獲得高準確率。
音頻事件檢測：能夠識別語音中的音頻事件，如音樂、掌聲和笑聲。
語音生成質量：CosyVoice在內容一致性和說話人相似度方面表現出色，生成的語音與原始語音高度一致。

應用場景

FunAudioLLM的SenseVoice和CosyVoice模型可以應用于多個場景，包括：

語音翻譯：將輸入語音翻譯成目標語言，并生成目標語言的語音。
情感語音聊天：識別輸入語音的情緒和音頻事件，并生成與情緒相符的語音。
交互式播客：根據實時世界知識和內容生成播客腳本，并使用CosyVoice合成語音。
有聲讀物：分析文本中的情感和角色，并使用CosyVoice合成具有豐富情感的有聲讀物。

局限性

盡管FunAudioLLM在多個方面表現出色，但仍存在一些局限性：

低資源語言：SenseVoice在低資源語言上的語音識別準確率較低。
流式識別：SenseVoice不支持流式語音識別。
語言支持：CosyVoice支持的語言數量有限。
情感和風格推斷：CosyVoice需要明確的指令才能生成特定情緒和風格的語音。
唱歌：CosyVoice在唱歌方面表現不佳。
端到端訓練：FunAudioLLM的模型不是與LLMs端到端訓練的，這可能會引入誤差傳播。

總的來說，FunAudioLLM在語音理解和生成方面展現了強大的能力，為語音交互應用提供了新的可能性。通過開源，阿里巴巴希望能夠促進社區的參與和進一步發展。

云服務器 GPU算力平臺 webrtc音頻開源大數據模型大數據數據模型大數據模型分析

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/131132.html

能自動化視頻剪輯的開源工具來了！剪輯師、自媒體作者狂喜

項目簡介Funclip 是阿里巴巴通義實驗室開源的一款視頻剪輯工具，專門用于精準、便捷的視頻切片。它能夠自動識別視頻中的中文語音并允許用戶根據語音內容來裁剪視頻。該工具使用了阿里巴巴語音識別模型FunASR Paraformer-Large確保了剪輯的精準性。你可以根據識別結果選擇文本片段或說話人進行視頻裁剪。使得視頻剪輯變得非常方便。Funclip不僅支持中文，未來還將支持英文視頻剪輯，是視頻內...

UCloud小助手 2024-05-16 09:40 評論0 收藏0
直播帶貨大模型，開啟自動賣貨的時代！

Streamer-Sales是一個為直播帶貨主播量身定制的智能工具。它能夠智能分析商品特性，自動創作出引人入勝的解說詞，從而有效增強商品的吸引力和提升銷售業績。它還具備多種交互功能，比如將主播的語音實時轉換為文字，便于與觀眾進行更直接的交流。它還能夠生成富有感情色彩的語音，讓商品介紹更加生動，以及創造虛擬主播的視頻，為觀眾帶來更加直觀和有趣的購物體驗。具體功能1. 主播文案生成：系統能夠基于商品特...

UCloud小助手 2024-06-27 17:54 評論0 收藏0
阿里云AI如何助攻世界杯？視頻集錦背后的技術實踐

摘要：可預見的未來激情賽事已經過半，阿里云視頻技術在本次世界杯中也成功落地，而這并不是結局，這是將視頻應用于體育行業以及更多其他行業的開端。本屆世界杯互聯網直播的順利進行，離不開各大云計算廠商的支持。在這其中，阿里云是當之無愧的C位，除了優酷外，阿里云還支撐了CNTV、CCTV5客戶端，為全網70%的世界杯直播流量保駕護航。對于世界杯這種超大觀看量級、超強影響力的重要體育賽事，阿里云一直...

BothEyes1993 2019-06-21 16:19 評論0 收藏0
從Pix2Code到CycleGAN：2017年深度學習重大研究進展全解讀

摘要：文本谷歌神經機器翻譯去年，谷歌宣布上線的新模型，并詳細介紹了所使用的網絡架構循環神經網絡。目前唇讀的準確度已經超過了人類。在該技術的發展過程中，谷歌還給出了新的，它包含了大量的復雜案例。谷歌收集該數據集的目的是教神經網絡畫畫。 1. 文本1.1 谷歌神經機器翻譯去年，谷歌宣布上線 Google Translate 的新模型，并詳細介紹了所使用的網絡架構——循環神經網絡（RNN）。關鍵結果：與...

kuangcaibao 2019-04-25 18:22 評論0 收藏0