當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > OpenAI在內(nèi)的大廠混戰(zhàn)多年，Suno憑什么贏了文生音樂的比賽

OpenAI在內(nèi)的大廠混戰(zhàn)多年，Suno憑什么贏了文生音樂的比賽
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-09 09:09:29 瀏覽：7893次

導(dǎo)讀：文 / 騰訊科技郝博陽周小燕 Suno V3讓音樂行業(yè)迎來了ChatGPT時刻。它一經(jīng)問世，便引發(fā)音樂行業(yè)震動，其中一個原因是Suno V3占據(jù)C端屬性的天然優(yōu)勢，它令音樂創(chuàng)作變得更簡單。 Suno V3十分親民，用戶可以傻瓜式操作，只要用Suno V3輸入文字，就能獲得一曲...

文 / 科技新聞郝博陽周小燕

Suno V3讓音樂行業(yè)迎來了“ChatGPT時刻”。

它一經(jīng)問世，便引發(fā)音樂行業(yè)“震動”，其中一個原因是Suno V3占據(jù)C端屬性的天然優(yōu)勢，它令音樂創(chuàng)作變得更簡單。

Suno V3十分“親民”，用戶可以“傻瓜式”操作，只要用Suno V3輸入文字，就能獲得一曲完整的、帶人聲的歌曲。我們曾詳細(xì)體驗，Suno V3如何令五音不全的音樂“小白”制作出一首像模像樣的歌曲：“小白”一腳踹進“音樂圈”？年輕人靠Suno“搞錢”還差幾步

你既可以輸入簡單的一句話來生成音樂，比如輸入Prompt：在陽光下，一群18歲的少年歡快地唱著歌，用中文唱

就能獲得一首帶有人聲的歌曲，充滿青春氣息的女聲，熱情地歌唱：

按住畫面移動小窗X

也可以嘗試專業(yè)音樂人的路子，輸入Prompt：

風(fēng)格：現(xiàn)代流行搖滾

調(diào)式：大調(diào)

節(jié)奏（BPM）：95 BPM

結(jié)構(gòu)：傳統(tǒng)Verse-Chorus，帶有創(chuàng)新橋段

旋律：簡單易記，情感豐富

和聲：豐富流暢

鼓組：融合搖滾鼓與電子鼓點

人聲效果：遠(yuǎn)程混響和輕微自動調(diào)節(jié)音

樂器：電吉他、貝斯、鼓，加鍵盤或合成器

目標(biāo)：觸動人心的流行搖滾作品，結(jié)合情感深度和感觸

你可以獲得一首這樣的歌曲：

按住畫面移動小窗X

看上去操作簡單的步驟，實現(xiàn)起來并不容易。因為做一款“Text-to-Music”會面臨更復(fù)雜的技術(shù)挑戰(zhàn)和用戶審美挑戰(zhàn)，這也是為什么相比較于其它與AI結(jié)合的媒介，音樂顯得有點“掉隊”的原因。

在過去幾年里，Midjourney、Sora的出現(xiàn)，令“Text-to-Image”（文生圖）、“Text-to-Video”（文生視頻）都分別抵達(dá)自己的“ChatGPT時刻”，而屬于音樂的ChatGPT時刻卻遲遲未來。其實，大廠們其實一直都在積極探索AI音樂賽道：

2020年4月，Open AI就公布了深度學(xué)習(xí)生成音樂的產(chǎn)品JukeBox，它通過分析大量的音樂數(shù)據(jù)，不僅會生成旋律，還能生成對應(yīng)的歌詞，模仿多種不同的藝術(shù)家和音樂風(fēng)格。

2023年，谷歌開始密集公布關(guān)于其AI生成音樂項目MusicLM的論文和研究。

同一段時期內(nèi)，Meta也不斷公開其關(guān)于AI音樂的項目和研究，主要成果有關(guān)注專業(yè)AI音樂生成的MusicGen、AI生成環(huán)境音的AudioGen，以及EnCodec。

雖然大廠們在持續(xù)探索，但音樂行業(yè)的ChatGPT依舊姍姍來遲，這或許與人類對不同介質(zhì)的敏感度有關(guān)。給你一張AI生成的圖片，未必能挑出它的毛病，但如果給你一段AI生成的音樂，或許很快就能發(fā)現(xiàn)其中的不和諧。

不論是圖像還是視頻，調(diào)動的都是人類的視覺能力，而人們往往對視覺信息有更高的寬容度，相比之下，聽覺系統(tǒng)對音頻的細(xì)微變化卻有著較高的敏感度，音樂的節(jié)奏、旋律、和聲等細(xì)微的變化，都會影響受眾對音樂質(zhì)量的判斷。

盡管Suno V3的出現(xiàn)將AI生成音樂帶到了新的階段，但與文字、圖像、語音這些誕生了OpenAI、Midjourney、11Labs這樣的頭部初創(chuàng)公司賽道相比，音樂依舊慢了半拍，就連視頻這一被業(yè)內(nèi)公認(rèn)最難突破的賽道，也隨著今年年初Sora的出現(xiàn)，迎來了屬于自己的ChatGPT時刻。

“音樂”這個看似復(fù)雜性遠(yuǎn)低于視頻的賽道，卻在Suno的姍姍來遲之下，才跨過了這道坎兒，做一款音樂版ChatGPT，到底面臨哪些難點？

音樂生成發(fā)展史：大廠全入局，跑出來的卻是初創(chuàng)公司

人們用神經(jīng)網(wǎng)絡(luò)探索AI生成音樂的歷程，并不比AI生成文字或AI生成圖片短，而且，AI生成音樂的路子，一開始就走得很“正”。

又是谷歌開天辟地

2014年，ImageNet讓全世界見識到了深度學(xué)習(xí)的能量，2016年，谷歌通過Megenta項目正式將音樂生成領(lǐng)域帶入神經(jīng)網(wǎng)絡(luò)時代。

一開始谷歌還嘗試通過一些傳統(tǒng)的方法諸如RNN、GAN來生成音樂，到了2018年，谷歌就把Transformer架構(gòu)應(yīng)用到了音樂生成上，發(fā)布了Music Transformer，而此時距離Transformer論文發(fā)布僅僅相隔一年。

引入Transformer架構(gòu)之后， AI生成音樂頓時變得近在眼前。過去，基于LSTM（RNN）的音樂生成只能保證音樂在幾秒左右不跑偏，而擅于生成長結(jié)構(gòu)的Transformer，卻可以直接將音樂“不跑偏”的時長拉到2-3分鐘。雖然在結(jié)構(gòu)性上，AI生成的音樂依舊無法媲美人類編曲，會出現(xiàn)較為嚴(yán)重的重復(fù)現(xiàn)象，但音樂的規(guī)律性和連續(xù)性卻可以得到保障。谷歌的成功，在文字之外開啟了音樂生成學(xué)術(shù)層面的“狂飆時刻”。

按住畫面移動小窗X

不久后，另一個Transformer信徒OpenAI也很快跟進，在GPT-2剛剛發(fā)布的2019年，OpenAI就同期發(fā)布了MuseNet，它和GPT-2都使用了Transformer架構(gòu)的音樂生成模型。相對于只能生成MIDI古典鋼琴曲的Music Transformer，雖然MuseNet訓(xùn)練集依然是音色簡單的MIDI合成樂，但它可以使用10種不同的樂器生成長達(dá)4分鐘的音樂作品，并且在音樂風(fēng)格上，可以順暢實現(xiàn)從鄉(xiāng)村音樂到莫扎特，再到披頭士樂隊風(fēng)格的切換。

比起Music Transformer，MuseNet使用了更擅長處理上下文的Sparse Transformer（稀疏Transformer)，這讓音樂的生成更具有連續(xù)性。

MuseNet專門為處理音樂增加了幾個新的嵌入維度，并增加了模型的時間流通性和結(jié)構(gòu)性，這讓其所生成的音樂從“隨機化”轉(zhuǎn)為更具備“結(jié)構(gòu)性”，甚至更有“發(fā)展性”。

https://soundcloud.com/openai_audio/jazz-trio

（黑色為非神經(jīng)網(wǎng)絡(luò)模型，藍(lán)色為神經(jīng)網(wǎng)絡(luò)模型）

在這一階段，由于Transformer本身出色的架構(gòu)，音樂的結(jié)構(gòu)和旋律的一致性得以保存，但因為缺乏對長音樂跨度的掌握，音樂內(nèi)段落的重復(fù)感很強。

OpenAI確立標(biāo)準(zhǔn)，引入人聲

在這個階段，雖然音樂生成已經(jīng)成功，但算力和模型本身的限制，讓訓(xùn)練只能開展在簡單的MIDI音樂基礎(chǔ)上。

比起MuseNet這種用MIDI合成音訓(xùn)練出來的音樂，OpenAI想要還原更真實，更豐富的音樂。

2020年，由OpenAI首席科學(xué)家Illya帶隊發(fā)布的JukeBox，給Transformer架構(gòu)加上了一個更適合音樂的壓縮編碼機制，這奠定了Transformer文生音樂的基本架構(gòu)。

與文字生成不同，多模態(tài)模型在訓(xùn)練中的原始內(nèi)容和信息更多。比如，一首典型的CD品質(zhì)的4分鐘歌曲（44 kHz，16 位）有超過1000萬個時間步，如果全部轉(zhuǎn)換成token，現(xiàn)有的算力根本頂不祝為了能處理更復(fù)雜的原始音樂，需要一個“壓縮”步驟來加快運算和推理。同時這種壓縮還有另外一個好處：模型可以掌握到更多的長程信息，形成對旋律結(jié)構(gòu)的深入理解。

在JukeBox中，OpenAI選擇的壓縮編碼機制是VQ-VAE機制，這是一個可以把原始音樂分成從復(fù)雜到簡單的三層結(jié)構(gòu)：分別為8倍，32倍，128倍。模型通過最上面的抽象層，可以學(xué)到一段音樂里每個“24秒”所呈現(xiàn)出的結(jié)構(gòu)，在最下一層只能學(xué)到每個“1.5秒”之間音樂的關(guān)系。這樣分別訓(xùn)練不同層級的壓縮，結(jié)構(gòu)和細(xì)節(jié)數(shù)據(jù)就全獲得了。

（VQ-VAE的三層模型）

壓縮技術(shù)讓Jukebox能夠更好地理解音樂文本，即長旋律。除此之外，OpenAI還在加了人聲，讓整個歌曲變得完整。

而在這之前根本沒有過將人的歌聲和旋律對位的方法，OpenAI僅僅用了一個簡單的方式，就將人聲的每個單詞和音樂分開作為原素材訓(xùn)練模型，結(jié)果獲得了成功。為了更好地實現(xiàn)對齊，OpenAI還給歌詞加了個更高編碼層，并額外嵌入了歌詞的信息，對應(yīng)藝術(shù)家和風(fēng)格的信息等，讓模型更容易生成符合歌詞邏輯的歌曲。

這和我們現(xiàn)在經(jīng)常聽到的“AI孫燕姿”不同，“AI孫燕姿”其實是一項Converter的技術(shù)，即利用AI去對位的新聲音特性，覆蓋舊歌曲的音色。而Open AI的這項人聲技術(shù)根本不需要理解音樂結(jié)構(gòu)。

從結(jié)果上來看，人聲唱歌這部分的問題，從詞曲對位，發(fā)音和音調(diào)符合角度講，OpenAI基本都解決了。缺乏的就是更好的音色和更準(zhǔn)確、清晰的合成人聲了。

但有趣的是，也許是OpenAI把問題解決得太徹底了。所有除了Rifussion和Suno之外，后面的音樂模型，都沒有再在其基礎(chǔ)模型中加入人聲了。

https://soundcloud.com/openai_audio/count2

在這一階段，OpenAI解決了原始素材和人聲生成的問題，現(xiàn)在他們可以從更廣闊的現(xiàn)實音樂中去獲取訓(xùn)練素材，而不用只守著MIDI庫了。而且通過壓縮，它在一定程度上更好地解決了生成音樂的結(jié)構(gòu)復(fù)雜度問題，只是在此基礎(chǔ)上略微有所泛化。雖然它合成的聲音雖然到了45khz，但還比較粗糙，音色上并不清晰。

Google引入文生音樂，Meta加入戰(zhàn)局

包括Jukebox在內(nèi)，所有2022年之前的音樂模型都是Premater-based，即給定一些條件（如音樂類型，相似音樂家），然后由AI去生成。但2023年，GPT-3引發(fā)的文生文模型的大發(fā)展，讓Prompt引導(dǎo)的文生音樂應(yīng)運而生。最先走向這個模式的，是2022年發(fā)布的Riffusion，后面就是Google在2023年1月發(fā)布的MusicLM。

https://google-research.github.io/seanet/musiclm/examples/audio_samples/long_generation/relaxing-jazz.wav

MusicLM搭建在Google之前發(fā)布的語音模型AudioLM之上，并在上面加上了一個從文到音樂的映射架構(gòu)MuLan，這本身就是個基于有標(biāo)注的音樂去判定無標(biāo)準(zhǔn)音樂相對應(yīng)描述文字的系統(tǒng)。AudioLM本身由兩個部分組成，一個是負(fù)責(zé)理解音樂語義，也就是長程結(jié)構(gòu)和旋律的w2vBERT去生成語義token；另外一個部分是SoundStream，它負(fù)責(zé)生成音色token，去豐滿語義部分的結(jié)構(gòu)。

這聽起來和JukeBox的不同壓縮層如出一轍，但AudioLM并非端到端的模型，而是一個流水線（Pipeline）：Mulan接收語義，w2vBERT映射出旋律，再結(jié)合語義讓SoundStream生成對應(yīng)的音色。

JukeBox生成的音樂雖然結(jié)構(gòu)更好，但音色不靈，經(jīng)常出現(xiàn)奇怪的合成音。對此，Google在做了兩項升級：

一是SoundStream用RVQ這一新技術(shù)取代了OpenAI用的VQ-VAE壓縮機制，RVQ本身只是VQ-VAE的一個變體，在VAE的過程中，音色從被壓縮到被還原中間的損失非常大，RVQ就通過一種包含了多種聲音延展規(guī)律的CodeBook（編碼本）擬合這中間的差值。

同時，為了同時達(dá)成音效和結(jié)構(gòu)的最優(yōu)化，MusicLM干脆就將結(jié)構(gòu)和音色分開處理，它分別用w2v-Bert單獨處理結(jié)構(gòu)，SoundStream單獨處理音色。這導(dǎo)致MusicLM最終生成的音樂確實比JukeBox更加清亮還原，也能保持一定的結(jié)構(gòu)一致性。

2023年6月，Meta也加入了文生音樂的大軍，它推出了AudioCraft系列產(chǎn)品，包括負(fù)責(zé)生成音效的AudioGen，生成音樂的MusicGen以及一個全新的壓縮編碼方式Encodec。

Meta推翻了Google的分階段流水線，在MusicGen里直接用已有的文字和音樂對應(yīng)的編碼器T5作為文字音樂對應(yīng)的基礎(chǔ)，把它加入到整個模型的訓(xùn)練中。由此回歸到了由OpenAI開創(chuàng)的大一統(tǒng)Transformer+壓縮機制，直接端到端，形式簡單。

MusicGen的整體模型和谷歌的SoundStream很相似，也是用一個框架Transformer聯(lián)合RVQ，在這里被Meta稱為Encodec壓縮。比起谷歌，Meta還特意對CodeBook（編碼本）做了升級，用多種Code模式交織輔助生成。加用了更細(xì)致的音頻處理方法(如多分辨率頻譜損失)，因此在壓縮后的音頻質(zhì)量上有更優(yōu)的表現(xiàn)。這使得模型能更好地捕捉原始音頻中豐富的音色、質(zhì)感等細(xì)節(jié)，使重建后的音頻更加自然逼真。

（MusicGen的架構(gòu)和四種常見的Codebook排布）

到了這一階段，音樂生成的主要進展有了更貼近用戶使用習(xí)慣的文本Prompt模式，另外在音色生成上靠著新的壓縮方法有了新突破。通過更大的算力、更好的壓縮機制，生成時間也大為縮短。在Jukebox時期，生成一分鐘的曲目需要9個小時的推理，但在MusicLM時代，這一過程只需要十幾秒。

在訓(xùn)練和模型參數(shù)水平上，MusicGen和MusicLM的訓(xùn)練集都擴展到了20萬-30萬小時，足足有JukeBox的五六倍；模型也有了相較于2020年更大的參數(shù)（MusicGEn的參數(shù)有30億，相比文生文很小，但在音樂領(lǐng)域算比較大的）。

這都使這些模型還原更精確，擴展到的音樂類型更多，泛化也更強。但有個基礎(chǔ)問題還是沒有解決，就是長結(jié)構(gòu)的問題。

這一問題在另一派以Stable Diffusion為基礎(chǔ)的模型中更為突出。

另一派：Stable Difussion生成音樂，長于音色，困于長度

在文生圖領(lǐng)域一直處于統(tǒng)治地位的Stable Difussion（擴散模型），也在音樂生成中走出了一條自己的路。和圖像生成一樣，Diffusion的結(jié)構(gòu)讓音樂生成的音質(zhì)一騎絕塵，但和它在視頻生成領(lǐng)域的表現(xiàn)一致，不管是谷歌在2023年2月發(fā)布的Noise2Music模型，還是在九月Stability發(fā)布的Stalbe Audio，Diffusion模型對結(jié)構(gòu)和上下文的理解簡直一塌糊涂。這一模型雖然能依靠聯(lián)級Diffusion生成30秒以上的音頻，但其結(jié)構(gòu)和和聲對位都過分天馬行空，難以控制，各種突然冒出來的音此起彼伏。

https://google-research.github.io/noise2music/table1/wavegen_8.wav

這其中做的最好的，經(jīng)過多次迭代的Riffision，也只能保證在12秒生成的音樂中保持旋律的一致性和發(fā)展。當(dāng)然，它的音質(zhì)效果完全超越了Transformer基礎(chǔ)的模型，提供了當(dāng)前最接近“成品音樂”的質(zhì)感。

https://riffusion.com/riffs/6fb593c6-f4f6-42ac-9da9-388367401ea1

Suno到底贏在哪里？

從技術(shù)上解決了文生音樂的最后一道大坎

通過梳理文生音樂的發(fā)展史，我們看到在MusicGen這個時間點上，文生音樂的所有基礎(chǔ)能力都集齊了：音色問題解決的差不多了，短旋律擬真度也很高，和聲部分足夠豐富，生成速度也很快。乍聽起來，它們生成的音樂段落和Suno的純器樂沒什么明顯不同。

而Suno也是結(jié)結(jié)實實的站在巨人的肩膀上，在它踏入文生音樂領(lǐng)域之前的基礎(chǔ)模型Bark中，Suno明確列出了這一模型的核心原理基礎(chǔ)：全是Meta和Google的老朋友們。

然而，在這個時間點上，從一開始就困擾著OpenAI的音樂”上下文“長結(jié)構(gòu)問題仍然沒有解決。

在OpenAI在對JukeBox的技術(shù)報告中說到，”雖然生成的歌曲顯示出本地音樂的連貫性，遵循傳統(tǒng)的和弦模式，甚至可以具有令人印象深刻的獨奏，但我們沒有聽到熟悉的較大音樂結(jié)構(gòu)，例如重復(fù)的合唱。“

不論是MusicLM還是MusicGen，其生成的音樂語義結(jié)構(gòu)理解基本都基于30s左右的樣本長度窗口，就算是MusicLM專門用于理解長結(jié)構(gòu)的w2vBERT也一樣。超過這個長度就只能依靠前端作為引子，基于前10s再繼續(xù)生成。這使得這些模型雖然都能生成超過3分鐘的長音樂，但根本不可能理解長過30s的音樂結(jié)構(gòu)。

而我們?nèi)粘Ｂ牭母枨径际侨昼娨陨蠟殚L度單位的，最少也要1分半鐘以上才能有較為完整的結(jié)構(gòu)。在現(xiàn)代流行音樂中，我們一般把一首音樂分為引子、主歌、副歌、橋接部和結(jié)尾，加在引子之后的就是各種主幅歌以ABAB、ABCA之類的排列的結(jié)構(gòu)。只有滿足這樣的結(jié)構(gòu)，我們才能覺得一首曲子有始有終，有發(fā)展有高潮。

過去文生音樂模型完全不可能建構(gòu)出這樣的完整曲式，因為它沒見過。因此，在Suno之前，我們都只能說AI在生成一個片段，就算是它生成的是3分鐘的音樂，也不過是一堆片段，而非整首歌曲。

但Suno 解決了這個問題。它能做到引子+主歌+副歌+結(jié)尾的至少1分半才能完成的完整結(jié)構(gòu)。AI第一次能生成歌曲，而非音樂片段了。

Suno從去年9月開始到今年3月一共迭代了三個版本，從其第一個版本開始（那時這個產(chǎn)品還叫Chrip）就已經(jīng)具有了完整結(jié)構(gòu)，后兩次迭代更新主要是進一步優(yōu)化提升音質(zhì)。

（Suno默認(rèn)的歌詞生成，帶有主歌和副歌結(jié)構(gòu)）

Suno是依靠什么做到前人都沒做到的程度的？這一點由于Suno三代產(chǎn)品都未開源，我們沒法確知其具體方法。但它從6月開始由生成語音的Bark轉(zhuǎn)向生成音樂的Chrip，3個月時間就完成了大廠花了5年都沒完成的突破。說明也許解法并不復(fù)雜。

比如可以預(yù)見的簡單思路是：

1）把訓(xùn)練窗口提高到30s以上，這樣模型見過結(jié)構(gòu)了，就可能理解泛化出結(jié)構(gòu)。

2）再通過對生成進行一定的結(jié)構(gòu)嵌入，或通過instruction要求保持結(jié)構(gòu)。但這一步必須得要在1的前提下才有可能。

當(dāng)然，也許換個更強的模型也能解決這個問題。Stable Difussion 近期剛剛用最流行的Diffusion Transformer（DiT）模型升級了自己的文生音樂模型Stable Audio 2，它的結(jié)構(gòu)屬性就比上代強出不止一點半點。

https://stableaudio.com/1/share/db8f02a4-6be3-4528-9f85-6f32d745bccd

產(chǎn)品全力toC，直沖爆款而來

技術(shù)功不可沒，但Suno優(yōu)秀的產(chǎn)品嗅覺也不能忽視。相比于市面上的競品，它的產(chǎn)品設(shè)計就是全力ToC，各方面都直指爆款：

1、支持人聲，贏得大眾

對于大眾來講，能生成歌曲，而非純音樂才是他們的真需求。這是因為歌詞能傳遞的東西更直接。一句“謝帝我要迪斯尼”的表達(dá)比一首trap beat更容易理解，也更有傳播度。想要ToC火起來，能生成人聲歌唱是必須的。加了人聲歌詞，文生音樂才對大眾而言“可玩”。

但在Suno之前，他的主要競品除了Riffusion的12秒歌詞外，其他的都只能生成純音樂。

從OpenAI在Jukebox的嘗試?yán)锟矗扇寺暩璩]有那么高的技術(shù)門檻。Suno的競品之所以不做，主要是出于兩個理由：

1）對于大廠而言，人聲生成可能能追蹤到訓(xùn)練集，侵權(quán)風(fēng)險高，干脆算了。

2）對于競品產(chǎn)品而言，現(xiàn)階段他們認(rèn)為AI文生音樂還沒到技術(shù)成熟期，toC推不開，不如專注toB，先有收入。

但Suno作為一個初創(chuàng)公司，既沒有大公司的顧忌，又有toC的技術(shù)底氣，加就加了。再加上他們第一個產(chǎn)品Bark本來就是人聲生成，看家本領(lǐng)怎能不用，這就有了它能火的第一個要素。

2、界面傻瓜式生成，但給夠一半用戶玩的空間

因為toB，面向的是專業(yè)團體，所以Aiva，Loudly都干脆還在利用風(fēng)格之類的標(biāo)簽生成音樂，界面也很專業(yè)復(fù)雜，甚至還支持專業(yè)的調(diào)音系統(tǒng)，這對于一般用戶來講都不怎么友好。

（Avia的用戶界面，直接能轉(zhuǎn)到調(diào)音臺）

但Suno本身的界面簡單到爆，一個框輸入prompt就可以，一鍵生成。為了防止你對這種只能輸入偏曲風(fēng)向的prompt感到厭倦，它還設(shè)置了自定義模式，多了可以輸入歌詞的位置。這對于專業(yè)人士來講可能意義有限，但對一般大眾，歌詞才是最大的可玩性。也是靠著這項功能，才會有《連花清瘟》之類的Suno神曲在它上線時刷屏全網(wǎng)。

想要C端自傳播，不能難，還要得能留下讓大家很快能玩出花的空間。

3、作品畫廊，神器搖籃

雖然MusicLM和Refussion、Stable Audio的界面相對比較簡潔，但除了不能有人聲支持和歌詞自定義玩法之外，他們還缺了“作品畫廊”這個引發(fā)自傳播的經(jīng)典產(chǎn)品模塊。

在這里，你可以看到全曲只有Cat（貓）歌詞的曲子，也能看到”人工智能搞掉了我的工作“這樣的一眼就想點，聽了就想轉(zhuǎn)的神曲。這樣的神曲在過去很少，因為音樂制作成本太高，誰會用音樂來整活兒。但現(xiàn)在可以了。Suno揭開的是真的音樂“娛樂”時代。

Suno創(chuàng)始人曾在訪談中表示，每天登錄網(wǎng)站的人中，聽歌的人比真的去生成音樂的人還多。

這既說明了這些“神曲”受歡迎，被轉(zhuǎn)發(fā)的程度之高，也說明了作品畫廊的拉新能力之強。

https://app.suno.ai/song/ee467d00-5813-4a74-9792-c9ae4a09d344

Suno的出現(xiàn)，將如何改變市場和這個時代？

每出現(xiàn)一款類似的產(chǎn)品，都可能會改變一個行業(yè)原有的格局與產(chǎn)業(yè)鏈，Suno V3對不少音樂從業(yè)者而言也是一名“攪局者”。

在2023年，已經(jīng)有了將近50家公司依靠著音樂生成技術(shù)在市場上獲得了生存空間�；谒麄兏髯砸魳飞傻漠a(chǎn)品定位，技術(shù)強項等，每家公司都有了一個相對細(xì)分的市場定位，形成了一種較為復(fù)雜的市場生態(tài)。但Suno V3的出現(xiàn)直接掀了桌。

著名風(fēng)投機構(gòu)a16z根據(jù)目標(biāo)群體，對AI音樂產(chǎn)品做了分類，以Royalty-Free music（免版稅曲目）為分界線，在下面這張圖中：

左半邊代表AI對音樂產(chǎn)業(yè)的改造，讓普通人也可以通過AI工具創(chuàng)造音樂；

右半邊代表AI給專業(yè)的音樂從業(yè)者帶來的工具變化。

（來源：a16z）

對普通人而言，AI音樂主要經(jīng)歷了兩個階段，第一個階段是以Spotify為代表的“實時音樂流媒體”，還有Endel、Brain.fm和Aimi，它們會生成可以無限循環(huán)的音樂播放列表，幫助用戶沉浸在特定的情緒之中。2023年2月，Spotify推出AI DJ，用戶可以使用AI DJ來生成精選音樂，它可以基于用戶聽過的歷史音樂、根據(jù)用戶反饋來不斷更新曲目。

第二個階段是“AI翻唱”，類似的產(chǎn)品有Musicly， Voicify，Covers以及Kits等，用戶可以通過上傳自己或其他人的歌曲片段來轉(zhuǎn)換聲音。根據(jù)a16z報道，自從“Heart On My Sleeve”上線以來，AI翻唱行業(yè)出現(xiàn)了爆炸式增長，標(biāo)有#AICover的視頻在短視頻平臺上的播放超過了100億次。

對于專業(yè)音樂從業(yè)者而言，AI音樂起始于免版稅曲目（又叫做AI Muzak），它幫助早期的個人內(nèi)容創(chuàng)作者和中小企業(yè)實現(xiàn)在音樂制作過程中，達(dá)到質(zhì)量和成本之間的平衡。這類產(chǎn)品有Beatoveb、Soundraw和Boomy等，用戶可以使用這些工具選擇流派、情緒等，然后自動生成曲目。

AI Muzak之后，最令人矚目的便是大模型與音樂的結(jié)合，相比較于前幾個階段的“傻瓜式”操作，在這個板塊，音樂人可以通過工具來發(fā)揮專業(yè)化的技能，每個音樂創(chuàng)造的環(huán)節(jié)都能使用相應(yīng)的工具，比如生成樣本可以使用Soundry AI 、旋律軟件MelodyStudio 、MIDI文件Lemonaide、AudioCipher等，甚至混音工具RoEx.

（來源：a16z）

按照a16z的劃分框架，Suno V3的能力其實跨越了從Consumer到Professional之間幾乎所有生態(tài)，它既可以給C端用戶提供音樂創(chuàng)作便捷，通過插件安裝未來或許也能夠成為專業(yè)人士的創(chuàng)作工具。

那Suno V3和所有這些AI輔助創(chuàng)作工具能給這個時代帶來些什么嗎？

也許是一些過去沉默聲音的浮現(xiàn)。

最近B站突然掀起了一股貓Meme+文字的創(chuàng)作風(fēng)潮。創(chuàng)作者利用一些現(xiàn)成的表達(dá)一些感緒狀態(tài)的貓咪梗圖搭配文字去敘事。

相對于傳統(tǒng)的視頻形式，這種視頻的制作成本極低，又有著足夠豐富的表達(dá)元素和觀看趣味性。因此很多過去不進行內(nèi)容創(chuàng)作的用戶開始嘗試?yán)秘圡eme視頻進行日常生活，親身經(jīng)歷的演繹。

在這種簡單形式的加持之下，很多過去不知道如何表達(dá)的人講出了他們其實非常有價值的故事，也獲得了觀眾的接受，誕生了許多百萬播放的爆款。

更值得注意的是，在貓Memo中，有很多受創(chuàng)傷的，很私人的故事被表達(dá)了出來。這樣的創(chuàng)傷故事在過去單純的文字語境下是非常難以表達(dá)的，但是在萌貓的簇?fù)碇拢蝗椿�，獲得了表達(dá)的權(quán)利。也更容易被大眾所接受。

這就是形式本身的力量。一件件難以言說之事，一樁樁看看尋常的事變得動人，變得讓敘述者覺得值得去表達(dá)。因為他們本來其實沒那么尋常，而是富有力量的。

音樂也是這樣一種可以讓沉默之聲響亮起來的形式。

對于一個普通人而言，他欣賞音樂的品味和制作音樂的能力之間可能有著巨大的差距，這一點Suno創(chuàng)始人Mikey Shulman也非常認(rèn)可，他在接受采訪時直言：“我喜歡音樂，但我是一個有抱負(fù)的平庸的音樂家，我會用非常平庸的方式彈奏吉他”。

從Suno v3開始，人類創(chuàng)作的某些形式限制繼圖像，文字和視頻之后又被打破了。在各個社交媒體上，我們已經(jīng)看到了很多用AI生成的，歌唱自己個人心聲的歌曲。

人類正式進入了AI開創(chuàng)的所有傳統(tǒng)形式都表達(dá)豐盈的時代，我們也可以聽到更多這樣的故事。

相關(guān)熱詞： OpenAI 在內(nèi) 大廠混戰(zhàn) 多年 Suno 什么贏了

上一篇：馬斯克：到明年年底，可能出現(xiàn)“比任何人類都聰明的人工智能”

下一篇：缺乏美國政府補貼，應(yīng)用材料公司或放棄投資40億美元在硅谷建芯片研究中心

AiLab云推薦

OpenAI在內(nèi)的大廠混戰(zhàn)多年，Suno憑什么贏了文生音樂的比賽
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-09 09:09:29 瀏覽：7893次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI在內(nèi)的大廠混戰(zhàn)多年，Suno憑什么贏了文生音樂的比賽 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-09 09:09:29 瀏覽：7893次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI在內(nèi)的大廠混戰(zhàn)多年，Suno憑什么贏了文生音樂的比賽
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-09 09:09:29 瀏覽：7893次