展會信息港展會大全

OpenAI在內(nèi)的大廠混戰(zhàn)多年,Suno憑什么贏了文生音樂的比賽
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-09 09:09:29   瀏覽:7893次  

導(dǎo)讀:文 / 騰訊科技 郝博陽 周小燕 Suno V3讓音樂行業(yè)迎來了ChatGPT時刻。 它一經(jīng)問世,便引發(fā)音樂行業(yè)震動,其中一個原因是Suno V3占據(jù)C端屬性的天然優(yōu)勢,它令音樂創(chuàng)作變得更簡單。 Suno V3十分親民,用戶可以傻瓜式操作,只要用Suno V3輸入文字,就能獲得一曲...

文 / 科技新聞 郝博陽 周小燕

Suno V3讓音樂行業(yè)迎來了“ChatGPT時刻”。

它一經(jīng)問世,便引發(fā)音樂行業(yè)“震動”,其中一個原因是Suno V3占據(jù)C端屬性的天然優(yōu)勢,它令音樂創(chuàng)作變得更簡單。

Suno V3十分“親民”,用戶可以“傻瓜式”操作,只要用Suno V3輸入文字,就能獲得一曲完整的、帶人聲的歌曲。我們曾詳細(xì)體驗,Suno V3如何令五音不全的音樂“小白”制作出一首像模像樣的歌曲:“小白”一腳踹進“音樂圈”?年輕人靠Suno“搞錢”還差幾步

你既可以輸入簡單的一句話來生成音樂,比如輸入Prompt:在陽光下,一群18歲的少年歡快地唱著歌,用中文唱

就能獲得一首帶有人聲的歌曲,充滿青春氣息的女聲,熱情地歌唱:

按住畫面移動小窗X

也可以嘗試專業(yè)音樂人的路子,輸入Prompt:

風(fēng)格:現(xiàn)代流行搖滾

調(diào)式:大調(diào)

節(jié)奏(BPM):95 BPM

結(jié)構(gòu):傳統(tǒng)Verse-Chorus,帶有創(chuàng)新橋段

旋律:簡單易記,情感豐富

和聲:豐富流暢

鼓組:融合搖滾鼓與電子鼓點

人聲效果:遠(yuǎn)程混響和輕微自動調(diào)節(jié)音

樂器:電吉他、貝斯、鼓,加鍵盤或合成器

目標(biāo):觸動人心的流行搖滾作品,結(jié)合情感深度和感觸

你可以獲得一首這樣的歌曲:

按住畫面移動小窗X

看上去操作簡單的步驟,實現(xiàn)起來并不容易。因為做一款“Text-to-Music”會面臨更復(fù)雜的技術(shù)挑戰(zhàn)和用戶審美挑戰(zhàn),這也是為什么相比較于其它與AI結(jié)合的媒介,音樂顯得有點“掉隊”的原因。

在過去幾年里,Midjourney、Sora的出現(xiàn),令“Text-to-Image”(文生圖)、“Text-to-Video”(文生視頻)都分別抵達(dá)自己的“ChatGPT時刻”,而屬于音樂的ChatGPT時刻卻遲遲未來。其實,大廠們其實一直都在積極探索AI音樂賽道:

2020年4月,Open AI就公布了深度學(xué)習(xí)生成音樂的產(chǎn)品JukeBox,它通過分析大量的音樂數(shù)據(jù),不僅會生成旋律,還能生成對應(yīng)的歌詞,模仿多種不同的藝術(shù)家和音樂風(fēng)格。

2023年,谷歌開始密集公布關(guān)于其AI生成音樂項目MusicLM的論文和研究。

同一段時期內(nèi),Meta也不斷公開其關(guān)于AI音樂的項目和研究,主要成果有關(guān)注專業(yè)AI音樂生成的MusicGen、AI生成環(huán)境音的AudioGen,以及EnCodec。

雖然大廠們在持續(xù)探索,但音樂行業(yè)的ChatGPT依舊姍姍來遲,這或許與人類對不同介質(zhì)的敏感度有關(guān)。給你一張AI生成的圖片,未必能挑出它的毛病,但如果給你一段AI生成的音樂,或許很快就能發(fā)現(xiàn)其中的不和諧。

不論是圖像還是視頻,調(diào)動的都是人類的視覺能力,而人們往往對視覺信息有更高的寬容度,相比之下,聽覺系統(tǒng)對音頻的細(xì)微變化卻有著較高的敏感度,音樂的節(jié)奏、旋律、和聲等細(xì)微的變化,都會影響受眾對音樂質(zhì)量的判斷。

盡管Suno V3的出現(xiàn)將AI生成音樂帶到了新的階段,但與文字、圖像、語音這些誕生了OpenAI、Midjourney、11Labs這樣的頭部初創(chuàng)公司賽道相比,音樂依舊慢了半拍,就連視頻這一被業(yè)內(nèi)公認(rèn)最難突破的賽道,也隨著今年年初Sora的出現(xiàn),迎來了屬于自己的ChatGPT時刻。

“音樂”這個看似復(fù)雜性遠(yuǎn)低于視頻的賽道,卻在Suno的姍姍來遲之下,才跨過了這道坎兒,做一款音樂版ChatGPT,到底面臨哪些難點?

音樂生成發(fā)展史:大廠全入局,跑出來的卻是初創(chuàng)公司

人們用神經(jīng)網(wǎng)絡(luò)探索AI生成音樂的歷程,并不比AI生成文字或AI生成圖片短,而且,AI生成音樂的路子,一開始就走得很“正”。

又是谷歌開天辟地

2014年,ImageNet讓全世界見識到了深度學(xué)習(xí)的能量,2016年,谷歌通過Megenta項目正式將音樂生成領(lǐng)域帶入神經(jīng)網(wǎng)絡(luò)時代。

一開始谷歌還嘗試通過一些傳統(tǒng)的方法諸如RNN、GAN來生成音樂,到了2018年,谷歌就把Transformer架構(gòu)應(yīng)用到了音樂生成上,發(fā)布了Music Transformer,而此時距離Transformer論文發(fā)布僅僅相隔一年。

引入Transformer架構(gòu)之后, AI生成音樂頓時變得近在眼前。過去,基于LSTM(RNN)的音樂生成只能保證音樂在幾秒左右不跑偏,而擅于生成長結(jié)構(gòu)的Transformer,卻可以直接將音樂“不跑偏”的時長拉到2-3分鐘。雖然在結(jié)構(gòu)性上,AI生成的音樂依舊無法媲美人類編曲,會出現(xiàn)較為嚴(yán)重的重復(fù)現(xiàn)象,但音樂的規(guī)律性和連續(xù)性卻可以得到保障。谷歌的成功,在文字之外開啟了音樂生成學(xué)術(shù)層面的“狂飆時刻”。

按住畫面移動小窗X

不久后,另一個Transformer信徒OpenAI也很快跟進,在GPT-2剛剛發(fā)布的2019年,OpenAI就同期發(fā)布了MuseNet,它和GPT-2都使用了Transformer架構(gòu)的音樂生成模型。相對于只能生成MIDI古典鋼琴曲的Music Transformer,雖然MuseNet訓(xùn)練集依然是音色簡單的MIDI合成樂,但它可以使用10種不同的樂器生成長達(dá)4分鐘的音樂作品,并且在音樂風(fēng)格上,可以順暢實現(xiàn)從鄉(xiāng)村音樂到莫扎特,再到披頭士樂隊風(fēng)格的切換。

比起Music Transformer,MuseNet使用了更擅長處理上下文的Sparse Transformer(稀疏Transformer),這讓音樂的生成更具有連續(xù)性。

MuseNet專門為處理音樂增加了幾個新的嵌入維度,并增加了模型的時間流通性和結(jié)構(gòu)性,這讓其所生成的音樂從“隨機化”轉(zhuǎn)為更具備“結(jié)構(gòu)性”,甚至更有“發(fā)展性”。

https://soundcloud.com/openai_audio/jazz-trio

(黑色為非神經(jīng)網(wǎng)絡(luò)模型,藍(lán)色為神經(jīng)網(wǎng)絡(luò)模型)

在這一階段,由于Transformer本身出色的架構(gòu),音樂的結(jié)構(gòu)和旋律的一致性得以保存,但因為缺乏對長音樂跨度的掌握,音樂內(nèi)段落的重復(fù)感很強。

OpenAI確立標(biāo)準(zhǔn),引入人聲

在這個階段,雖然音樂生成已經(jīng)成功,但算力和模型本身的限制,讓訓(xùn)練只能開展在簡單的MIDI音樂基礎(chǔ)上。

比起MuseNet這種用MIDI合成音訓(xùn)練出來的音樂,OpenAI想要還原更真實,更豐富的音樂。

2020年,由OpenAI首席科學(xué)家Illya帶隊發(fā)布的JukeBox,給Transformer架構(gòu)加上了一個更適合音樂的壓縮編碼機制,這奠定了Transformer文生音樂的基本架構(gòu)。

與文字生成不同,多模態(tài)模型在訓(xùn)練中的原始內(nèi)容和信息更多。比如,一首典型的CD品質(zhì)的4分鐘歌曲(44 kHz,16 位)有超過1000萬個時間步,如果全部轉(zhuǎn)換成token,現(xiàn)有的算力根本頂不祝為了能處理更復(fù)雜的原始音樂,需要一個“壓縮”步驟來加快運算和推理。同時這種壓縮還有另外一個好處:模型可以掌握到更多的長程信息,形成對旋律結(jié)構(gòu)的深入理解。

在JukeBox中,OpenAI選擇的壓縮編碼機制是VQ-VAE機制,這是一個可以把原始音樂分成從復(fù)雜到簡單的三層結(jié)構(gòu):分別為8倍,32倍,128倍。模型通過最上面的抽象層,可以學(xué)到一段音樂里每個“24秒”所呈現(xiàn)出的結(jié)構(gòu),在最下一層只能學(xué)到每個“1.5秒”之間音樂的關(guān)系。這樣分別訓(xùn)練不同層級的壓縮,結(jié)構(gòu)和細(xì)節(jié)數(shù)據(jù)就全獲得了。

(VQ-VAE的三層模型)

壓縮技術(shù)讓Jukebox能夠更好地理解音樂文本,即長旋律。除此之外,OpenAI還在加了人聲,讓整個歌曲變得完整。

而在這之前根本沒有過將人的歌聲和旋律對位的方法,OpenAI僅僅用了一個簡單的方式,就將人聲的每個單詞和音樂分開作為原素材訓(xùn)練模型,結(jié)果獲得了成功。為了更好地實現(xiàn)對齊,OpenAI還給歌詞加了個更高編碼層,并額外嵌入了歌詞的信息,對應(yīng)藝術(shù)家和風(fēng)格的信息等,讓模型更容易生成符合歌詞邏輯的歌曲。

這和我們現(xiàn)在經(jīng)常聽到的“AI孫燕姿”不同,“AI孫燕姿”其實是一項Converter的技術(shù),即利用AI去對位的新聲音特性,覆蓋舊歌曲的音色。而Open AI的這項人聲技術(shù)根本不需要理解音樂結(jié)構(gòu)。

從結(jié)果上來看,人聲唱歌這部分的問題,從詞曲對位,發(fā)音和音調(diào)符合角度講,OpenAI基本都解決了。缺乏的就是更好的音色和更準(zhǔn)確、清晰的合成人聲了。

但有趣的是,也許是OpenAI把問題解決得太徹底了。所有除了Rifussion和Suno之外,后面的音樂模型,都沒有再在其基礎(chǔ)模型中加入人聲了。

https://soundcloud.com/openai_audio/count2

在這一階段,OpenAI解決了原始素材和人聲生成的問題,現(xiàn)在他們可以從更廣闊的現(xiàn)實音樂中去獲取訓(xùn)練素材,而不用只守著MIDI庫了。而且通過壓縮,它在一定程度上更好地解決了生成音樂的結(jié)構(gòu)復(fù)雜度問題,只是在此基礎(chǔ)上略微有所泛化。雖然它合成的聲音雖然到了45khz,但還比較粗糙,音色上并不清晰。

Google引入文生音樂,Meta加入戰(zhàn)局

包括Jukebox在內(nèi),所有2022年之前的音樂模型都是Premater-based,即給定一些條件(如音樂類型,相似音樂家),然后由AI去生成。但2023年,GPT-3引發(fā)的文生文模型的大發(fā)展,讓Prompt引導(dǎo)的文生音樂應(yīng)運而生。最先走向這個模式的,是2022年發(fā)布的Riffusion,后面就是Google在2023年1月發(fā)布的MusicLM。

https://google-research.github.io/seanet/musiclm/examples/audio_samples/long_generation/relaxing-jazz.wav

MusicLM搭建在Google之前發(fā)布的語音模型AudioLM之上,并在上面加上了一個從文到音樂的映射架構(gòu)MuLan,這本身就是個基于有標(biāo)注的音樂去判定無標(biāo)準(zhǔn)音樂相對應(yīng)描述文字的系統(tǒng)。AudioLM本身由兩個部分組成,一個是負(fù)責(zé)理解音樂語義,也就是長程結(jié)構(gòu)和旋律的w2vBERT去生成語義token;另外一個部分是SoundStream,它負(fù)責(zé)生成音色token,去豐滿語義部分的結(jié)構(gòu)。

這聽起來和JukeBox的不同壓縮層如出一轍,但AudioLM并非端到端的模型,而是一個流水線(Pipeline):Mulan接收語義,w2vBERT映射出旋律,再結(jié)合語義讓SoundStream生成對應(yīng)的音色。

JukeBox生成的音樂雖然結(jié)構(gòu)更好,但音色不靈,經(jīng)常出現(xiàn)奇怪的合成音。對此,Google在做了兩項升級:

一是SoundStream用RVQ這一新技術(shù)取代了OpenAI用的VQ-VAE壓縮機制,RVQ本身只是VQ-VAE的一個變體,在VAE的過程中,音色從被壓縮到被還原中間的損失非常大,RVQ就通過一種包含了多種聲音延展規(guī)律的CodeBook(編碼本)擬合這中間的差值。

同時,為了同時達(dá)成音效和結(jié)構(gòu)的最優(yōu)化,MusicLM干脆就將結(jié)構(gòu)和音色分開處理,它分別用w2v-Bert單獨處理結(jié)構(gòu),SoundStream單獨處理音色。這導(dǎo)致MusicLM最終生成的音樂確實比JukeBox更加清亮還原,也能保持一定的結(jié)構(gòu)一致性。

2023年6月,Meta也加入了文生音樂的大軍,它推出了AudioCraft系列產(chǎn)品,包括負(fù)責(zé)生成音效的AudioGen,生成音樂的MusicGen以及一個全新的壓縮編碼方式Encodec。

Meta推翻了Google的分階段流水線,在MusicGen里直接用已有的文字和音樂對應(yīng)的編碼器T5作為文字音樂對應(yīng)的基礎(chǔ),把它加入到整個模型的訓(xùn)練中。由此回歸到了由OpenAI開創(chuàng)的大一統(tǒng)Transformer+壓縮機制,直接端到端,形式簡單。

MusicGen的整體模型和谷歌的SoundStream很相似,也是用一個框架Transformer聯(lián)合RVQ,在這里被Meta稱為Encodec壓縮。比起谷歌,Meta還特意對CodeBook(編碼本)做了升級,用多種Code模式交織輔助生成。加用了更細(xì)致的音頻處理方法(如多分辨率頻譜損失),因此在壓縮后的音頻質(zhì)量上有更優(yōu)的表現(xiàn)。這使得模型能更好地捕捉原始音頻中豐富的音色、質(zhì)感等細(xì)節(jié),使重建后的音頻更加自然逼真。

(MusicGen的架構(gòu)和四種常見的Codebook排布)

到了這一階段,音樂生成的主要進展有了更貼近用戶使用習(xí)慣的文本Prompt模式,另外在音色生成上靠著新的壓縮方法有了新突破。通過更大的算力、更好的壓縮機制,生成時間也大為縮短。在Jukebox時期,生成一分鐘的曲目需要9個小時的推理,但在MusicLM時代,這一過程只需要十幾秒。

在訓(xùn)練和模型參數(shù)水平上,MusicGen和MusicLM的訓(xùn)練集都擴展到了20萬-30萬小時,足足有JukeBox的五六倍;模型也有了相較于2020年更大的參數(shù)(MusicGEn的參數(shù)有30億,相比文生文很小,但在音樂領(lǐng)域算比較大的)。

這都使這些模型還原更精確,擴展到的音樂類型更多,泛化也更強。但有個基礎(chǔ)問題還是沒有解決,就是長結(jié)構(gòu)的問題。

這一問題在另一派以Stable Diffusion為基礎(chǔ)的模型中更為突出。

另一派:Stable Difussion生成音樂,長于音色,困于長度

在文生圖領(lǐng)域一直處于統(tǒng)治地位的Stable Difussion(擴散模型),也在音樂生成中走出了一條自己的路。和圖像生成一樣,Diffusion的結(jié)構(gòu)讓音樂生成的音質(zhì)一騎絕塵,但和它在視頻生成領(lǐng)域的表現(xiàn)一致,不管是谷歌在2023年2月發(fā)布的Noise2Music模型,還是在九月Stability發(fā)布的Stalbe Audio,Diffusion模型對結(jié)構(gòu)和上下文的理解簡直一塌糊涂。這一模型雖然能依靠聯(lián)級Diffusion生成30秒以上的音頻,但其結(jié)構(gòu)和和聲對位都過分天馬行空,難以控制,各種突然冒出來的音此起彼伏。

https://google-research.github.io/noise2music/table1/wavegen_8.wav

這其中做的最好的,經(jīng)過多次迭代的Riffision,也只能保證在12秒生成的音樂中保持旋律的一致性和發(fā)展。當(dāng)然,它的音質(zhì)效果完全超越了Transformer基礎(chǔ)的模型,提供了當(dāng)前最接近“成品音樂”的質(zhì)感。

https://riffusion.com/riffs/6fb593c6-f4f6-42ac-9da9-388367401ea1

Suno到底贏在哪里?

從技術(shù)上解決了文生音樂的最后一道大坎

通過梳理文生音樂的發(fā)展史,我們看到在MusicGen這個時間點上,文生音樂的所有基礎(chǔ)能力都集齊了:音色問題解決的差不多了,短旋律擬真度也很高,和聲部分足夠豐富,生成速度也很快。乍聽起來,它們生成的音樂段落和Suno的純器樂沒什么明顯不同。

而Suno也是結(jié)結(jié)實實的站在巨人的肩膀上,在它踏入文生音樂領(lǐng)域之前的基礎(chǔ)模型Bark中,Suno明確列出了這一模型的核心原理基礎(chǔ):全是Meta和Google的老朋友們。

然而,在這個時間點上,從一開始就困擾著OpenAI的音樂”上下文“長結(jié)構(gòu)問題仍然沒有解決。

在OpenAI在對JukeBox的技術(shù)報告中說到,”雖然生成的歌曲顯示出本地音樂的連貫性,遵循傳統(tǒng)的和弦模式,甚至可以具有令人印象深刻的獨奏,但我們沒有聽到熟悉的較大音樂結(jié)構(gòu),例如重復(fù)的合唱。“

不論是MusicLM還是MusicGen,其生成的音樂語義結(jié)構(gòu)理解基本都基于30s左右的樣本長度窗口,就算是MusicLM專門用于理解長結(jié)構(gòu)的w2vBERT也一樣。超過這個長度就只能依靠前端作為引子,基于前10s再繼續(xù)生成。這使得這些模型雖然都能生成超過3分鐘的長音樂,但根本不可能理解長過30s的音樂結(jié)構(gòu)。

而我們?nèi)粘B牭母枨径际侨昼娨陨蠟殚L度單位的,最少也要1分半鐘以上才能有較為完整的結(jié)構(gòu)。在現(xiàn)代流行音樂中,我們一般把一首音樂分為引子、主歌、副歌、橋接部和結(jié)尾,加在引子之后的就是各種主幅歌以ABAB、ABCA之類的排列的結(jié)構(gòu)。只有滿足這樣的結(jié)構(gòu),我們才能覺得一首曲子有始有終,有發(fā)展有高潮。

過去文生音樂模型完全不可能建構(gòu)出這樣的完整曲式,因為它沒見過。因此,在Suno之前,我們都只能說AI在生成一個片段,就算是它生成的是3分鐘的音樂,也不過是一堆片段,而非整首歌曲。

但Suno 解決了這個問題。它能做到引子+主歌+副歌+結(jié)尾的至少1分半才能完成的完整結(jié)構(gòu)。AI第一次能生成歌曲,而非音樂片段了。

Suno從去年9月開始到今年3月一共迭代了三個版本,從其第一個版本開始(那時這個產(chǎn)品還叫Chrip)就已經(jīng)具有了完整結(jié)構(gòu),后兩次迭代更新主要是進一步優(yōu)化提升音質(zhì)。

(Suno默認(rèn)的歌詞生成,帶有主歌和副歌結(jié)構(gòu))

Suno是依靠什么做到前人都沒做到的程度的?這一點由于Suno三代產(chǎn)品都未開源,我們沒法確知其具體方法。但它從6月開始由生成語音的Bark轉(zhuǎn)向生成音樂的Chrip,3個月時間就完成了大廠花了5年都沒完成的突破。說明也許解法并不復(fù)雜。

比如可以預(yù)見的簡單思路是:

1)把訓(xùn)練窗口提高到30s以上,這樣模型見過結(jié)構(gòu)了,就可能理解泛化出結(jié)構(gòu)。

2)再通過對生成進行一定的結(jié)構(gòu)嵌入,或通過instruction要求保持結(jié)構(gòu)。但這一步必須得要在1的前提下才有可能。

當(dāng)然,也許換個更強的模型也能解決這個問題。Stable Difussion 近期剛剛用最流行的Diffusion Transformer(DiT)模型升級了自己的文生音樂模型Stable Audio 2,它的結(jié)構(gòu)屬性就比上代強出不止一點半點。

https://stableaudio.com/1/share/db8f02a4-6be3-4528-9f85-6f32d745bccd

產(chǎn)品全力toC,直沖爆款而來

技術(shù)功不可沒,但Suno優(yōu)秀的產(chǎn)品嗅覺也不能忽視。相比于市面上的競品,它的產(chǎn)品設(shè)計就是全力ToC,各方面都直指爆款:

1、支持人聲,贏得大眾

對于大眾來講,能生成歌曲,而非純音樂才是他們的真需求。這是因為歌詞能傳遞的東西更直接。一句“謝帝我要迪斯尼”的表達(dá)比一首trap beat更容易理解,也更有傳播度。想要ToC火起來,能生成人聲歌唱是必須的。加了人聲歌詞,文生音樂才對大眾而言“可玩”。

但在Suno之前,他的主要競品除了Riffusion的12秒歌詞外,其他的都只能生成純音樂。

從OpenAI在Jukebox的嘗試?yán)锟矗扇寺暩璩]有那么高的技術(shù)門檻。Suno的競品之所以不做,主要是出于兩個理由:

1)對于大廠而言,人聲生成可能能追蹤到訓(xùn)練集,侵權(quán)風(fēng)險高,干脆算了。

2)對于競品產(chǎn)品而言,現(xiàn)階段他們認(rèn)為AI文生音樂還沒到技術(shù)成熟期,toC推不開,不如專注toB,先有收入。

但Suno作為一個初創(chuàng)公司,既沒有大公司的顧忌,又有toC的技術(shù)底氣,加就加了。再加上他們第一個產(chǎn)品Bark本來就是人聲生成,看家本領(lǐng)怎能不用,這就有了它能火的第一個要素。

2、界面傻瓜式生成,但給夠一半用戶玩的空間

因為toB,面向的是專業(yè)團體,所以Aiva,Loudly都干脆還在利用風(fēng)格之類的標(biāo)簽生成音樂,界面也很專業(yè)復(fù)雜,甚至還支持專業(yè)的調(diào)音系統(tǒng),這對于一般用戶來講都不怎么友好。

(Avia的用戶界面,直接能轉(zhuǎn)到調(diào)音臺)

但Suno本身的界面簡單到爆,一個框輸入prompt就可以,一鍵生成。為了防止你對這種只能輸入偏曲風(fēng)向的prompt感到厭倦,它還設(shè)置了自定義模式,多了可以輸入歌詞的位置。這對于專業(yè)人士來講可能意義有限,但對一般大眾,歌詞才是最大的可玩性。也是靠著這項功能,才會有《連花清瘟》之類的Suno神曲在它上線時刷屏全網(wǎng)。

想要C端自傳播,不能難,還要得能留下讓大家很快能玩出花的空間。

3、作品畫廊,神器搖籃

雖然MusicLM和Refussion、Stable Audio的 界面相對比較簡潔,但除了不能有人聲支持和歌詞自定義玩法之外,他們還缺了“作品畫廊”這個引發(fā)自傳播的經(jīng)典產(chǎn)品模塊。

在這里,你可以看到全曲只有Cat(貓)歌詞的曲子,也能看到”人工智能搞掉了我的工作“這樣的一眼就想點,聽了就想轉(zhuǎn)的神曲。這樣的神曲在過去很少,因為音樂制作成本太高,誰會用音樂來整活兒。但現(xiàn)在可以了。Suno揭開的是真的音樂“娛樂”時代。

Suno創(chuàng)始人曾在訪談中表示,每天登錄網(wǎng)站的人中,聽歌的人比真的去生成音樂的人還多。

這既說明了這些“神曲”受歡迎,被轉(zhuǎn)發(fā)的程度之高,也說明了作品畫廊的拉新能力之強。

https://app.suno.ai/song/ee467d00-5813-4a74-9792-c9ae4a09d344

Suno的出現(xiàn),將如何改變市場和這個時代?

每出現(xiàn)一款類似的產(chǎn)品,都可能會改變一個行業(yè)原有的格局與產(chǎn)業(yè)鏈,Suno V3對不少音樂從業(yè)者而言也是一名“攪局者”。

在2023年,已經(jīng)有了將近50家公司依靠著音樂生成技術(shù)在市場上獲得了生存空間;谒麄兏髯砸魳飞傻漠a(chǎn)品定位,技術(shù)強項等,每家公司都有了一個相對細(xì)分的市場定位,形成了一種較為復(fù)雜的市場生態(tài)。但Suno V3的出現(xiàn)直接掀了桌。

著名風(fēng)投機構(gòu)a16z根據(jù)目標(biāo)群體,對AI音樂產(chǎn)品做了分類,以Royalty-Free music(免版稅曲目)為分界線,在下面這張圖中:

左半邊代表AI對音樂產(chǎn)業(yè)的改造,讓普通人也可以通過AI工具創(chuàng)造音樂;

右半邊代表AI給專業(yè)的音樂從業(yè)者帶來的工具變化。

(來源:a16z)

對普通人而言,AI音樂主要經(jīng)歷了兩個階段,第一個階段是以Spotify為代表的“實時音樂流媒體”,還有Endel、Brain.fm和Aimi,它們會生成可以無限循環(huán)的音樂播放列表,幫助用戶沉浸在特定的情緒之中。2023年2月,Spotify推出AI DJ,用戶可以使用AI DJ來生成精選音樂,它可以基于用戶聽過的歷史音樂、根據(jù)用戶反饋來不斷更新曲目。

第二個階段是“AI翻唱”,類似的產(chǎn)品有Musicly, Voicify,Covers以及Kits等,用戶可以通過上傳自己或其他人的歌曲片段來轉(zhuǎn)換聲音。根據(jù)a16z報道,自從“Heart On My Sleeve”上線以來,AI翻唱行業(yè)出現(xiàn)了爆炸式增長,標(biāo)有#AICover的視頻在短視頻平臺上的播放超過了100億次。

對于專業(yè)音樂從業(yè)者而言,AI音樂起始于免版稅曲目(又叫做AI Muzak),它幫助早期的個人內(nèi)容創(chuàng)作者和中小企業(yè)實現(xiàn)在音樂制作過程中,達(dá)到質(zhì)量和成本之間的平衡。這類產(chǎn)品有Beatoveb、Soundraw和Boomy等,用戶可以使用這些工具選擇流派、情緒等,然后自動生成曲目。

AI Muzak之后,最令人矚目的便是大模型與音樂的結(jié)合,相比較于前幾個階段的“傻瓜式”操作,在這個板塊,音樂人可以通過工具來發(fā)揮專業(yè)化的技能,每個音樂創(chuàng)造的環(huán)節(jié)都能使用相應(yīng)的工具,比如生成樣本可以使用Soundry AI 、旋律 軟件MelodyStudio 、MIDI文件Lemonaide、AudioCipher等,甚至混音工具RoEx.

(來源:a16z)

按照a16z的劃分框架,Suno V3的能力其實跨越了從Consumer到Professional之間幾乎所有生態(tài),它既可以給C端用戶提供音樂創(chuàng)作便捷,通過插件安裝未來或許也能夠成為專業(yè)人士的創(chuàng)作工具。

那Suno V3和所有這些AI輔助創(chuàng)作工具能給這個時代帶來些什么嗎?

也許是一些過去沉默聲音的浮現(xiàn)。

最近B站突然掀起了一股貓Meme+文字的創(chuàng)作風(fēng)潮。創(chuàng)作者利用一些現(xiàn)成的表達(dá)一些感緒狀態(tài)的貓咪梗圖搭配文字去敘事。

相對于傳統(tǒng)的視頻形式,這種視頻的制作成本極低,又有著足夠豐富的表達(dá)元素和觀看趣味性。因此很多過去不進行內(nèi)容創(chuàng)作的用戶開始嘗試?yán)秘圡eme視頻進行日常生活,親身經(jīng)歷的演繹。

在這種簡單形式的加持之下,很多過去不知道如何表達(dá)的人講出了他們其實非常有價值的故事,也獲得了觀眾的接受,誕生了許多百萬播放的爆款。

更值得注意的是,在貓Memo中,有很多受創(chuàng)傷的,很私人的故事被表達(dá)了出來。這樣的創(chuàng)傷故事在過去單純的文字語境下是非常難以表達(dá)的,但是在萌貓的簇?fù)碇拢蝗椿,獲得了表達(dá)的權(quán)利。也更容易被大眾所接受。

這就是形式本身的力量。一件件難以言說之事,一樁樁看看尋常的事變得動人,變得讓敘述者覺得值得去表達(dá)。因為他們本來其實沒那么尋常,而是富有力量的。

音樂也是這樣一種可以讓沉默之聲響亮起來的形式。

對于一個普通人而言,他欣賞音樂的品味和制作音樂的能力之間可能有著巨大的差距,這一點Suno創(chuàng)始人Mikey Shulman也非常認(rèn)可,他在接受采訪時直言:“我喜歡音樂,但我是一個有抱負(fù)的平庸的音樂家,我會用非常平庸的方式彈奏吉他”。

從Suno v3開始,人類創(chuàng)作的某些形式限制繼圖像,文字和視頻之后又被打破了。在各個社交媒體上,我們已經(jīng)看到了很多用AI生成的,歌唱自己個人心聲的歌曲。

人類正式進入了AI開創(chuàng)的所有傳統(tǒng)形式都表達(dá)豐盈的時代,我們也可以聽到更多這樣的故事。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港