一首歌僅需0.1元，Suno等音樂大模型引發(fā)業(yè)內(nèi)新焦慮｜大模界

每日經(jīng)濟(jì)新聞 2024-04-11 12:49:01

每經(jīng)記者畢媛媛宋美璐每經(jīng)編輯何小桃梁梟

“大模界”是每日經(jīng)濟(jì)新聞推出一檔專注生成式AI與大模型技術(shù)的前沿科技報(bào)道欄目。

在這里，我們將聚焦生成式AI技術(shù)浪潮，展現(xiàn)從文字、圖像、音頻、視頻的大模型如何編織數(shù)字化世界。

在這里，我們將解碼、評(píng)測(cè)國(guó)內(nèi)外各類大模型，探究它們?nèi)绾纬蔀樽兏锔餍懈鳂I(yè)的重要力量。

在這里，我們將關(guān)注AIGC行業(yè)發(fā)展，聯(lián)手行業(yè)領(lǐng)軍人物和頂尖專家，共同揭示最新產(chǎn)品創(chuàng)新和技術(shù)突破，前瞻未來發(fā)展趨勢(shì)。

歡迎關(guān)注“大模界”，您將見證AIGC如何重塑內(nèi)容生態(tài)，如何以前沿之力推動(dòng)社會(huì)進(jìn)步。讓我們共同開啟一場(chǎng)關(guān)于AI新紀(jì)元的無限旅程！

“改變是潛移默化的，可能就在某個(gè)平凡的日子，一首觸動(dòng)心靈的歌曲闖入你的生活，當(dāng)你深入了解其源頭時(shí)，發(fā)現(xiàn)那是AI寫的，那時(shí)候浪潮就悄悄來臨了。”伯雅文娛創(chuàng)始人、唱作人范志昊說道。這位音樂制作行業(yè)的資深人士正致力于探索AI在音樂創(chuàng)作中的輔助作用。“總有人會(huì)做這些事，你永遠(yuǎn)無法阻擋歷史車輪的腳步。”

近來，SunoV3等音樂AI技術(shù)的誕生，如同一股強(qiáng)勁的暗流，沖擊著傳統(tǒng)音樂行業(yè)的壁壘，引發(fā)了眾多音樂從業(yè)者對(duì)未來職業(yè)前景的憂慮，他們同時(shí)也在思考如何在AI時(shí)代中找到自己的位置。

Suno生成的貓的音樂，沒有歌詞，點(diǎn)贊超8000+ 圖片來源：Suno截圖

六間房視頻集團(tuán)創(chuàng)始人、Bit Computing Pte.Ltd.創(chuàng)始人/CEO劉巖如今正在開發(fā)一款音樂大模型，他在接受《每日經(jīng)濟(jì)新聞》記者電話采訪時(shí)表示：“當(dāng)前市面上部分被冠以‘音樂大模型’之名的產(chǎn)品，其實(shí)并未達(dá)到嚴(yán)格意義上大模型的標(biāo)準(zhǔn)。音樂大模型因其更高的技術(shù)門檻、更窄的應(yīng)用場(chǎng)景，或不會(huì)出現(xiàn)大規(guī)模爆發(fā)的情況，但有可能超越國(guó)外成為全球領(lǐng)先。”

一首歌僅需0.1元

自今年3月以來，國(guó)內(nèi)外涌現(xiàn)出大量AI生成式音樂工具，行業(yè)格局在一夜之間發(fā)生了翻天覆地的變化。

此前，OpenAI的MuseNet、谷歌的MusicLM以及Meta的MusicGen等AI音樂項(xiàng)目已經(jīng)引起了業(yè)界廣泛關(guān)注。而如今，一款名為Suno的“音樂版chatgpt”音樂大模型點(diǎn)燃了全球音樂界的熱情。因?yàn)檫@款模型能夠一次性完成歌詞、演唱、編曲、配樂等音樂創(chuàng)作的全過程，因此被譽(yù)為“消滅”了音樂創(chuàng)作門檻。

音樂制作人閆東煒在第一時(shí)間試用了Suno，他興奮地表示：“輸入幾個(gè)關(guān)鍵詞，不到一分鐘就能生成了。”然而，他也指出了Suno的局限性：雖然借助AI可以找音樂靈感，但聽多了感覺出來的基本都是流行歌。未來抖音上的歌可能會(huì)越來越相似，像流水線一樣生產(chǎn)。如果要不斷地坐在電腦前輸入關(guān)鍵詞來生成歌曲，這個(gè)過程可能會(huì)顯得有些無聊。

盡管如此，Suno仍然獲得了不少業(yè)內(nèi)人士的高度評(píng)價(jià)。范志昊評(píng)價(jià)：Suno生成的音樂是有下限的，它的創(chuàng)作至少聽著順耳。

這首Suno生成的貓的音樂，超過1萬+的收聽圖片來源 Suno截圖

范志昊表示，可以借助AI預(yù)測(cè)音樂內(nèi)容，并幫助公司找到合適的歌手。此外，AI還降低了音樂創(chuàng)作的門檻，讓更多人能夠享受到創(chuàng)作的樂趣。“本來聽到好的作品會(huì)有共鳴，但如果變成自己去寫，快樂是不一樣的。這個(gè)市場(chǎng)的潛在需求非常大。”范志昊坦言。

AI音樂引發(fā)熱潮的另一個(gè)重要原因在于使用門檻和價(jià)格的降低。以閆東煒使用過的一款A(yù)I音樂工具為例，基礎(chǔ)版免費(fèi)，PRO版價(jià)格大約是10美元一個(gè)月，能生成500首歌；更高級(jí)的版本只需30美元一個(gè)月，就能生成約2000首歌。這意味著，一首AI歌曲的成本僅需0.1元左右。

范志昊表示：“原先找專業(yè)作曲人創(chuàng)作歌曲的成本很高，即使是友情價(jià)也得是千元以上。但現(xiàn)在有了AI，幾十塊錢就能生成上百條音樂作品，價(jià)格差距非常大。”他還提到，如果機(jī)器不排隊(duì)的話，幾乎可以即刻生成一個(gè)詞曲的demo（樣片）。

AI音樂并非完美無缺。閆東煒認(rèn)為，AI可以創(chuàng)作，但不善于修改。每次修改完都完全不一樣，因此較為復(fù)雜的歌曲客戶還是會(huì)找人工來做。盡管如此，他認(rèn)為AI音樂在技術(shù)上已經(jīng)高過很多網(wǎng)絡(luò)上的口水歌。

范志昊也坦言，國(guó)內(nèi)的AI工具和Suno相比仍有一定差距。雖然音樂AI能夠生成各種風(fēng)格的歌曲，但水平卻參差不齊。其中，pop和爵士風(fēng)格相對(duì)較為出色。pop風(fēng)格之所以讓人驚喜，是因?yàn)槠溆?xùn)練數(shù)據(jù)豐富，結(jié)構(gòu)相對(duì)可復(fù)制；而爵士風(fēng)格則因?yàn)槟軐懗龊蔑L(fēng)格的人本身就比較少，所以顯得尤為亮眼。

AI會(huì)取代音樂人？

據(jù)媒體報(bào)道，當(dāng)?shù)貢r(shí)間4月2日，200多名國(guó)際樂壇知名音樂人聯(lián)署公開信，呼吁AI開發(fā)者、科技公司、平臺(tái)和數(shù)字音樂服務(wù)商停止使用AI侵犯及貶低人類藝術(shù)家的權(quán)利，要求他們承諾不開發(fā)與之相關(guān)的AI音樂生成技術(shù)等，也不能拒絕向藝術(shù)家提供合理報(bào)酬。參與聯(lián)署的藝人共有246名，大多來自歐美樂壇，其中包括比莉·艾利什（Billie Eilish）、凱蒂·佩里（Katy Perry）、妮琪·米娜（Nick Minaj）等。

妮琪·米娜也是環(huán)球音樂旗下音樂人。圖片來源：環(huán)球音樂官網(wǎng)

近年來，AI音樂生成技術(shù)迅速發(fā)展，一系列以“AI歌手”為名的翻唱作品在網(wǎng)絡(luò)上走紅。例如，“AI孫燕姿”翻唱的《發(fā)如雪》、“AI王心凌”翻唱的《套馬桿》等視頻，播放量均超過百萬。隨后，“AI周杰倫”“AI林俊杰”“AI許嵩”等“歌手”也如雨后春筍般涌現(xiàn)。

相關(guān)技術(shù)的普及也引發(fā)了社會(huì)各界的擔(dān)憂。許多行業(yè)人士擔(dān)心，AI的廣泛應(yīng)用可能會(huì)危及他們的生計(jì)和職業(yè)發(fā)展。對(duì)此，閆東煒表示，雖然AI對(duì)音樂創(chuàng)作者的影響有限，但確實(shí)降低了普通人進(jìn)入音樂創(chuàng)作的門檻，這可能會(huì)對(duì)整個(gè)音樂行業(yè)產(chǎn)生一定的沖擊。“流行歌手不會(huì)失業(yè)，粉絲喜歡的是這個(gè)人，他唱得好，有作品更好。”

閆東煒進(jìn)一步解釋說，現(xiàn)在客戶只需將需求發(fā)送給AI，便能快速生成音樂作品，這在一定程度上減少了對(duì)傳統(tǒng)音樂制作公司的需求。然而，他也強(qiáng)調(diào)，AI生成的音樂往往結(jié)構(gòu)單一，對(duì)于專業(yè)領(lǐng)域的需求幫助有限。音樂制作人仍需要根據(jù)客戶需求進(jìn)行后期的修改和調(diào)整，以確保作品的質(zhì)量和獨(dú)特性。

“AI最先替代的就是藝術(shù)家，人工智能可以體驗(yàn)無數(shù)次戀愛、失戀、死亡，因此他會(huì)比人更有情感，AI在其他領(lǐng)域最大的問題是‘幻覺’，可能會(huì)造成誤判，但這種‘幻覺’在藝術(shù)上就可能是突破和創(chuàng)新。”劉巖說。

范志昊表示，AI對(duì)音樂行業(yè)的影響是雙面的。它既可以降低創(chuàng)作門檻，讓更多人能夠嘗試音樂創(chuàng)作；也可能導(dǎo)致一部分人的工作被AI替代，尤其依賴簡(jiǎn)單創(chuàng)作和翻唱的藝人可能失去工作機(jī)會(huì)，例如有些唱demo的歌手已經(jīng)被替代了。

“AI對(duì)音樂人的沖擊并不是直接的競(jìng)爭(zhēng)，而是潛移默化的競(jìng)爭(zhēng)。AI音樂的普及可能會(huì)改變音樂人的職業(yè)發(fā)展方向。”在范志昊看來，未來，音樂人可能更需要注重個(gè)人IP的經(jīng)營(yíng)和發(fā)展，而非僅僅依賴于網(wǎng)絡(luò)歌曲的翻唱和創(chuàng)作。

此外，范志昊還提到了未來音樂產(chǎn)業(yè)的發(fā)展趨勢(shì)。他表示，隨著音樂產(chǎn)量的不斷增加，每年人們能夠聽到的歌曲數(shù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過了他們的消化能力。AI的出現(xiàn)進(jìn)一步加劇了音樂市場(chǎng)的競(jìng)爭(zhēng)，搶占了原有的音樂空間。這導(dǎo)致一些認(rèn)真做曲庫、做內(nèi)容的音樂人可能會(huì)受到影響，他們的作品可能會(huì)因?yàn)锳I的普及而被淹沒在海量的音樂中。

對(duì)于AI音樂對(duì)傳統(tǒng)市場(chǎng)的沖擊問題，劉巖也表達(dá)了自己的看法。他認(rèn)為，AI音樂生成技術(shù)能夠在短時(shí)間內(nèi)產(chǎn)生大量歌曲，以目前能力和需求看，一年后，市場(chǎng)上90%的歌曲可能都是AI生成的了，傳統(tǒng)意義上的“新歌”可能連1%的比例都占不到了，僅從數(shù)據(jù)上看，行業(yè)的格局一定會(huì)被打破。

“黑盒”是小公司跟大廠競(jìng)爭(zhēng)的壁壘

音樂大模型的發(fā)展正處于一個(gè)關(guān)鍵時(shí)期。繼Suno之后，國(guó)內(nèi)的科技公司也不甘落后，昆侖萬維推出了“天工SkyMusic”，發(fā)布的9首由“天工SkyMusic”生成的音樂作品，展示了從說唱到古風(fēng)等多種風(fēng)格的音樂創(chuàng)作能力，這些作品的時(shí)長(zhǎng)從10秒到51秒不等。

一年前，劉巖和他的團(tuán)隊(duì)就敲下音樂大模型開發(fā)的第一行代碼，決心布局該行業(yè)。在他看來，音樂大模型相較于文字和視頻大模型，面臨著更高的技術(shù)門檻。“音樂和視頻一樣是一種長(zhǎng)時(shí)序的技術(shù)形式，如果說視頻可以分成每一秒鐘24幀圖像的話，音樂則每一秒鐘包含上萬個(gè)采樣點(diǎn)，且每個(gè)采樣點(diǎn)之間的相關(guān)性強(qiáng)，這使得音樂成為最復(fù)雜的模態(tài)之一。”

劉巖進(jìn)一步闡述道，當(dāng)前市面上部分被冠以“音樂大模型”之名的產(chǎn)品，其實(shí)并未達(dá)到嚴(yán)格意義上大模型的標(biāo)準(zhǔn)。一些作品的生成依賴于音樂結(jié)構(gòu)和規(guī)則的技術(shù)，或是通過將音樂轉(zhuǎn)化為MIDI等符號(hào)語言再進(jìn)入模型來實(shí)現(xiàn)，這種方式雖然能夠產(chǎn)生近人類水平的音樂，但不能觸及音樂的本質(zhì)——對(duì)音樂情感、內(nèi)涵及整體結(jié)構(gòu)的理解與創(chuàng)造性表達(dá)，永遠(yuǎn)不會(huì)超越現(xiàn)有音樂的水平。

“真正意義上的音樂大模型應(yīng)當(dāng)具備端到端的學(xué)習(xí)能力，訓(xùn)練數(shù)據(jù)直接來源于日常聆聽的完整音樂作品而非翻譯后的MIDI，并能夠從構(gòu)思歌詞、設(shè)計(jì)旋律、編排伴奏直至模擬人聲演繹等全過程進(jìn)行一體化的創(chuàng)作。遺憾的是，當(dāng)前大多數(shù)模型僅在音樂創(chuàng)作的旋律和伴奏等某一個(gè)環(huán)節(jié)上取得進(jìn)展，尚未實(shí)現(xiàn)全方位的音樂生成。”劉巖說。

目前用戶無法透視模型的內(nèi)部邏輯，只能看到其外在表現(xiàn)。劉巖認(rèn)為，AI這一天然的“黑盒”效應(yīng)，讓音樂大模型出現(xiàn)了不少魚目混珠的情況。然而，“黑盒”效應(yīng)也為中小企業(yè)和創(chuàng)業(yè)團(tuán)隊(duì)帶來了獨(dú)特的發(fā)展機(jī)遇。

Suno上生成了大量各類音樂圖片來源 Suno截圖

范志昊早在半年前就開始集結(jié)團(tuán)隊(duì)，專注于研究音樂AIGC輔助生態(tài)。他認(rèn)為，“黑盒”是小公司跟大廠競(jìng)爭(zhēng)的唯一的壁壘，因?yàn)榛ヂ?lián)網(wǎng)產(chǎn)品的運(yùn)作邏輯可以輕易被剖析和模仿，而AI則不然，這就要求開發(fā)者投入更多的心血與專注。在他看來，這不是大廠有錢就可以做好的。“除非他一下子砸很多錢進(jìn)去，但這又不是一個(gè)潛力特別大的市場(chǎng)。”

與語言大模型廣泛應(yīng)用于多元場(chǎng)景不同，音樂大模型從誕生之初便瞄準(zhǔn)了特定的應(yīng)用場(chǎng)景——降低音樂創(chuàng)作門檻，使以往專業(yè)音樂人才方能完成的工作，如今普通人借助大模型只需通過自然語言描述就能得到高質(zhì)量的歌曲作品。

這一點(diǎn)使音樂大模型在特定領(lǐng)域具有一定的市場(chǎng)潛力。劉巖認(rèn)為：“語言大模型我們很難超越，但音樂大模型我們可以把它做成全世界最好的模型。”

記者|畢媛媛宋美璐

編輯|何小桃梁梟蓋源源

校對(duì)|段煉

｜每日經(jīng)濟(jì)新聞 nbdnews 原創(chuàng)文章｜