(資料圖片)
谷歌用 280000 小時(shí)的音樂(lè)數(shù)據(jù)集訓(xùn)練出了 MusicLM,卻不愿冒著法律風(fēng)險(xiǎn)發(fā)布它。谷歌繼續(xù)向音樂(lè)領(lǐng)域發(fā)起挑戰(zhàn)!近日, 谷歌發(fā)布的 MusicLM 模型簡(jiǎn)直是生成音樂(lè)界的小能手,會(huì)的樂(lè)曲五花八門,你能想到的,它都會(huì)滿足。 MusicLM 不是第一個(gè)生成歌曲的 AI 系統(tǒng)。其他更早的嘗試包括 Riffusion,這是一種通過(guò)可視化來(lái)創(chuàng)作音樂(lè)的 AI,以及 Dance Diffusion,谷歌自己也發(fā)布過(guò) AudioML,OpenAI 則推出過(guò) Jukebox。 雖然生成音樂(lè)的 AI 系統(tǒng)早已被開發(fā)出來(lái),但由于技術(shù)限制和訓(xùn)練數(shù)據(jù)有限,還沒(méi)有人能夠創(chuàng)作出曲子特別復(fù)雜或保真度特別高的歌曲。不過(guò),MusicLM 可能是第一個(gè)做到的。 為什么這么說(shuō),我們先聽聽效果如何? 曲風(fēng)隨便選,你要做的就是動(dòng)動(dòng)手指輸入文本就可以。比如讓 MusicLM 來(lái)段街機(jī)游戲配樂(lè),我們就可以輸入文本「街機(jī)游戲的主配樂(lè),音樂(lè)給人的感受節(jié)奏快且樂(lè)觀,帶有朗朗上口的電吉他即興重復(fù)段,但又伴隨著意想不到的聲音,如鐃鈸撞擊聲或鼓聲」: 還想讓 MusicLM 來(lái)段電子舞曲,也沒(méi)問(wèn)題,輸入字幕「雷鬼和電子舞曲的融合,帶有空曠的、超凡脫俗的聲音,引發(fā)迷失在太空中的體驗(yàn),音樂(lè)的設(shè)計(jì)旨在喚起一種驚奇和敬畏的感覺(jué),同時(shí)又適合跳舞」: 工作累了,想聽聽放松的音樂(lè),MusicLM 也能安排: 你可能認(rèn)為上述生成的音樂(lè)時(shí)長(zhǎng)太短了,不用擔(dān)心,MusicLM 生成長(zhǎng)音樂(lè)的質(zhì)量也很出色。來(lái)段輕松的爵士樂(lè),時(shí)長(zhǎng)足足 5 分鐘: MusicLM 還有故事模式,你可以要求 MusicLM 在不同的時(shí)間段生成不同的音樂(lè)風(fēng)格。例如爵士樂(lè)(0:00-0:15)、流行樂(lè)(0:15-0:30)、搖滾樂(lè)(0:30-0:45)、死亡金屬樂(lè)(0:45-1:00)、說(shuō)唱(1: 00-1:15)、弦樂(lè)四重奏與小提琴(1:15-1:30)、史詩(shī)電影配樂(lè)與鼓(1:30-1:45)、蘇格蘭民歌與傳統(tǒng)樂(lè)器(1:45-2:00): MusicLM 也可以通過(guò)圖片和標(biāo)題的組合來(lái)指導(dǎo),生成相應(yīng)風(fēng)格的音樂(lè)。例如拿破侖翻越阿爾卑斯山配樂(lè): MusicLM 根據(jù)圖片和文本描述生成的音樂(lè)如下: 除此以外,MusicLM 還能生成由特定類型的樂(lè)器「演奏」的特定流派的音頻。甚至可以設(shè)置「AI 音樂(lè)家」的經(jīng)驗(yàn)水平,系統(tǒng)可以根據(jù)地點(diǎn)、時(shí)代或要求創(chuàng)作音樂(lè)(例如體育鍛煉時(shí)的勵(lì)志音樂(lè))。 有人對(duì)這一研究給予極高的評(píng)價(jià):這比大火的 ChatGPT 還重要,谷歌幾乎解決了音樂(lè)生成問(wèn)題。 MusicLM 肯定不是完美無(wú)缺的 —— 事實(shí)上,遠(yuǎn)非如此。一些樣本有質(zhì)量問(wèn)題,不可避免地對(duì)訓(xùn)練過(guò)程產(chǎn)生副作用。雖然 MusicLM 在技術(shù)上可以生成人聲,包括合唱的和聲,但它們還有很多地方需要改進(jìn)。大多數(shù)「歌詞」可能是蹩腳的英語(yǔ)或純粹的胡言亂語(yǔ),然后由合成的聲音演唱,聽起來(lái)像是幾個(gè)藝術(shù)家的「混合物」。 論文地址:https://arxiv.org/pdf/2301.11325.pdf 論文主頁(yè):https://google-research.github.io/seanet/musiclm/examples/ 方法層面,谷歌采用三個(gè)模型來(lái)提取音頻表示,這些模型將用于條件自回歸音樂(lè)生成,如圖 1 所示。SoundStream 模型用來(lái)處理 24 kHz 單聲音頻,從而得到 50 Hz 的嵌入;具有 600M 參數(shù)的 w2v-BERT 模型用于建模中間層;MuLan 模型用于提取目標(biāo)音頻序列的表示。 然后將上述得到的離散音頻表示與 AudioLM 相結(jié)合,從而實(shí)現(xiàn)基于文本的音樂(lè)生成。為了達(dá)到這一效果,谷歌提出了一個(gè)分層的序列 - 序列建模任務(wù),其中每個(gè)階段都由單獨(dú)的解碼器 Transformer 自回歸建模。所提出的方法如圖 2 所示。 谷歌在 FMA(Free Music Archive)數(shù)據(jù)集上訓(xùn)練 SoundStream 和 w2v-BERT 模型,而語(yǔ)義和聲學(xué)建模階段的 tokenizer 以及自回歸模型是在 500 萬(wàn)音頻剪輯的數(shù)據(jù)集上訓(xùn)練的,在 24kHz 下 總計(jì) 280000 小時(shí)的音樂(lè)。 實(shí)驗(yàn)部分,谷歌將 MusicLM 與文本生成音樂(lè)的基線方法 Mubert 、 Riffusion 進(jìn)行比較。結(jié)果顯示在 FAD_VGG 指標(biāo)上,MusicLM 所捕獲的音頻質(zhì)量比 Mubert 和 Riffusion 得分更高。在 FAD_Trill 上,MusicLM 的得分與 Mubert 相似 (0.44 vs。 0.45),優(yōu)于 Riffusion (0.76)。 圖 3 是對(duì)提示長(zhǎng)度分析的結(jié)果: 飽受爭(zhēng)議的生成式 AI與此同時(shí),谷歌的研究人員也注意到了像 MusicLM 這樣的系統(tǒng)所帶來(lái)的許多道德挑戰(zhàn),包括將訓(xùn)練數(shù)據(jù)中受版權(quán)保護(hù)的材料納入生成的歌曲中的傾向。在一次實(shí)驗(yàn)中,他們發(fā)現(xiàn)該系統(tǒng)生成的音樂(lè)中約有 1% 是直接復(fù)制自其訓(xùn)練的歌曲,這個(gè)問(wèn)題足以讓 研究人員不愿意以目前的狀態(tài)發(fā)布 MusicLM。 「我們承認(rèn)與該用例相關(guān)的盜用創(chuàng)意內(nèi)容潛在風(fēng)險(xiǎn),」作者們?cè)谡撐闹袑懙?。「我們?qiáng)調(diào)的是,在解決這些與音樂(lè)生成相關(guān)的風(fēng)險(xiǎn)方面,未來(lái)需要更多的工作?!? 假設(shè)有一天 MusicLM 或類似的系統(tǒng)可用,似乎仍將不可避免地會(huì)出現(xiàn)重大法律問(wèn)題,即使這些系統(tǒng)被定位為輔助藝術(shù)家而不是取代他們的工具。這類的爭(zhēng)議此前已經(jīng)發(fā)生過(guò):2020 年,Jay-Z 的唱片公司對(duì) YouTube 頻道 Vocal Synthesis 提出版權(quán)警告,理由是它使用 AI 創(chuàng)作了 Jay-Z 翻唱 Billy Joel 的《We Didn"t Start the Fire》等歌曲。盡管在刪除視頻后,YouTube 發(fā)現(xiàn)刪除請(qǐng)求「不完整」且恢復(fù)了它們,但 Deepfake 式的音樂(lè)仍然處于模糊的法律基礎(chǔ)之上。 Eric Sunray 撰寫的一份白皮書認(rèn)為,像 MusicLM 這樣的 AI 音樂(lè)生成器通過(guò)「從訓(xùn)練攝取的作品中創(chuàng)建連貫音頻」侵犯了音樂(lè)版權(quán),從而侵犯了美國(guó)版權(quán)法的復(fù)制權(quán)。隨著 OpenAI 音樂(lè)生成神經(jīng)網(wǎng)絡(luò) Jukebox 的發(fā)布,批評(píng)者也開始質(zhì)疑在受版權(quán)保護(hù)的音樂(lè)材料上訓(xùn)練 AI 模型是否構(gòu)成合理使用。圍繞圖像、代碼和文本生成 AI 系統(tǒng)中使用的訓(xùn)練數(shù)據(jù)也引起了類似的擔(dān)憂,這些數(shù)據(jù)通常是在創(chuàng)作者不知情的情況下從網(wǎng)絡(luò)上收集的。 從用戶的角度來(lái)看,Andy Baio 推測(cè)由 AI 系統(tǒng)生成的音樂(lè)將被視為衍生作品,在這種情況下,只有原創(chuàng)元素會(huì)受到版權(quán)保護(hù)。當(dāng)然,暫不清楚在這種音樂(lè)中什么可以被視為「原創(chuàng)」,將這種音樂(lè)用于商業(yè)用途就像是進(jìn)入未知水域。如果將生成的音樂(lè)用于受合理使用保護(hù)的目的,比如模仿和評(píng)論,那就更簡(jiǎn)單了,但預(yù)計(jì)法院將不得不根據(jù)具體情況做出判斷。 近期法院審理的幾起訴訟可能會(huì)對(duì)生成音樂(lè)的 AI 產(chǎn)生影響,比如微軟、GitHub 和 OpenAI 目前在一場(chǎng)集體訴訟中被起訴,指控其 Copilot 違反版權(quán)法。還有一項(xiàng)涉及藝術(shù)家的權(quán)利,這些藝術(shù)家的作品在他們不知情或未同意的情況下被用于訓(xùn)練 AI 系統(tǒng)。流行的 AI 藝術(shù)工具幕后的兩家公司 Midjourney 和 Stability AI 正被指控通過(guò)在網(wǎng)絡(luò)抓取的圖像上訓(xùn)練他們的工具,侵犯了數(shù)百萬(wàn)藝術(shù)家的權(quán)利。就在上周,庫(kù)存圖片供應(yīng)商 Getty Images 將 Stability AI 告上法庭,據(jù)報(bào)道,該公司未經(jīng)許可使用其網(wǎng)站上的數(shù)百萬(wàn)張圖片來(lái)訓(xùn)練 Stable Diffusion。 問(wèn)題主要在于,生成式 AI 偏好從用于訓(xùn)練它的數(shù)據(jù)中復(fù)制圖像、文本等,包括受版權(quán)保護(hù)的內(nèi)容。在最近的一個(gè)例子中,CNET 用來(lái)編寫文章的 AI 工具被發(fā)現(xiàn)抄襲了人類撰寫的文章,這些文章可能在其訓(xùn)練數(shù)據(jù)集中被清除了。與此同時(shí),2022 年 12 月發(fā)表的一項(xiàng)學(xué)術(shù)研究發(fā)現(xiàn),像 DALL-E-2 和 Stable Diffusion 這樣的圖像生成 AI 模型,能夠且確實(shí)從它們的訓(xùn)練數(shù)據(jù)中復(fù)制了圖像的各個(gè)方面。 因此,一些圖片托管平臺(tái)已經(jīng)禁止了 AI 生成的內(nèi)容,因?yàn)閾?dān)心會(huì)遭到法律訴訟。幾位法律專家警告說(shuō),如果公司無(wú)意中將這些工具生成的受版權(quán)保護(hù)的內(nèi)容整合到他們銷售的任何產(chǎn)品中,那么生成式 AI 工具可能會(huì)使公司面臨風(fēng)險(xiǎn)。 伴隨著關(guān)注與爭(zhēng)議,或許在不遠(yuǎn)的未來(lái),這些問(wèn)題都將有清晰的答案。 參考鏈接:https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/https://techcrunch.com/2023/01/27/the-current-legal-cases-against-generative-ai-are-just-the-beginning/
?THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com