展會信息港展會大全

Meta推出AI音頻模型Audiobox,支持語音及文字同時輸入
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-06 13:32:13   瀏覽:4358次  

導讀:IT之家 12 月 4 日消息,Meta 日前推出了一款 AI 聲音生成模型 Audiobox,能夠同時接收語音及文字輸入,用戶可同時使用語音及文字描述,讓這款模型生成所需的音頻。 據(jù)悉,這款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型,據(jù)稱 Audiobox 能生成各種環(huán)...

IT之家 12 月 4 日消息,Meta 日前推出了一款 AI 聲音生成模型 Audiobox,能夠同時接收語音及文字輸入,用戶可同時使用語音及文字描述,讓這款模型生成所需的音頻。

據(jù)悉,這款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型,據(jù)稱 Audiobox 能生成各種環(huán)境音、自然對話語音,并整合了音頻生成和編輯能力,以便于用戶自由生成自己所需的音頻。

Meta 介紹稱,生成高品質音頻需要有大量音頻庫及深厚的領域知識,但大眾難以獲得這些資源,而該公司推出這個模型旨在降低聲音生成門檻,讓任何人都更容易制作視頻、游戲等應用場景的音效。

IT之家發(fā)現(xiàn),這款 Audiobox 模型基于 Voicebox 的“引導聲音”機制,以便于生成目標音頻,并配合“流量比對(flow-matching)”擴散模型生成方法,以實現(xiàn)“聲音填充(audio infilling)”功能,從而生成多層次的音頻。

Meta 測試生成帶有雷暴聲的下雨音頻,并輸入一系列提示句進行演示,例如“流水聲伴隨鳥鳴”、“以高音調快節(jié)奏說話的年輕女性”等;同時測試了同時輸入人聲及文字提示,以生成帶有情緒(“哀痛而緩慢”)并擁有背景音(身處教堂)的語音。

Meta 聲稱,Audiobox 在音質及“生成內容的準確度” 順利擊敗了 AudioLDM2、VoiceLDM 及 TANGO,超越了現(xiàn)有最佳的音頻生成模型。

目前 Audiobox 已經開放向特定研究人員及學術界試用,以供測試模型品質及安全性,Meta 聲稱,他們計劃“再過幾周將社會全面公開該模型”。

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港