(資料圖片)
機器之心報道 編輯:蛋醬、陳萍谷歌用 280000 小時的音樂數(shù)據(jù)集訓(xùn)練出了 MusicLM,卻不愿冒著法律風(fēng)險發(fā)布它。谷歌繼續(xù)向音樂領(lǐng)域發(fā)起挑戰(zhàn)!近日, 谷歌發(fā)布的 MusicLM 模型簡直是生成音樂界的小能手,會的樂曲五花八門,你能想到的,它都會滿足。 MusicLM 不是第一個生成歌曲的 AI 系統(tǒng)。其他更早的嘗試包括 Riffusion,這是一種通過可視化來創(chuàng)作音樂的 AI,以及 Dance Diffusion,谷歌自己也發(fā)布過 AudioML,OpenAI 則推出過 Jukebox。 雖然生成音樂的 AI 系統(tǒng)早已被開發(fā)出來,但由于技術(shù)限制和訓(xùn)練數(shù)據(jù)有限,還沒有人能夠創(chuàng)作出曲子特別復(fù)雜或保真度特別高的歌曲。不過,MusicLM 可能是第一個做到的。 為什么這么說,我們先聽聽效果如何? 曲風(fēng)隨便選,你要做的就是動動手指輸入文本就可以。比如讓 MusicLM 來段街機游戲配樂,我們就可以輸入文本「街機游戲的主配樂,音樂給人的感受節(jié)奏快且樂觀,帶有朗朗上口的電吉他即興重復(fù)段,但又伴隨著意想不到的聲音,如鐃鈸撞擊聲或鼓聲」: 還想讓 MusicLM 來段電子舞曲,也沒問題,輸入字幕「雷鬼和電子舞曲的融合,帶有空曠的、超凡脫俗的聲音,引發(fā)迷失在太空中的體驗,音樂的設(shè)計旨在喚起一種驚奇和敬畏的感覺,同時又適合跳舞」: 工作累了,想聽聽放松的音樂,MusicLM 也能安排: 你可能認為上述生成的音樂時長太短了,不用擔(dān)心,MusicLM 生成長音樂的質(zhì)量也很出色。來段輕松的爵士樂,時長足足 5 分鐘: MusicLM 還有故事模式,你可以要求 MusicLM 在不同的時間段生成不同的音樂風(fēng)格。例如爵士樂(0:00-0:15)、流行樂(0:15-0:30)、搖滾樂(0:30-0:45)、死亡金屬樂(0:45-1:00)、說唱(1: 00-1:15)、弦樂四重奏與小提琴(1:15-1:30)、史詩電影配樂與鼓(1:30-1:45)、蘇格蘭民歌與傳統(tǒng)樂器(1:45-2:00): MusicLM 也可以通過圖片和標(biāo)題的組合來指導(dǎo),生成相應(yīng)風(fēng)格的音樂。例如拿破侖翻越阿爾卑斯山配樂: MusicLM 根據(jù)圖片和文本描述生成的音樂如下: 除此以外,MusicLM 還能生成由特定類型的樂器「演奏」的特定流派的音頻。甚至可以設(shè)置「AI 音樂家」的經(jīng)驗水平,系統(tǒng)可以根據(jù)地點、時代或要求創(chuàng)作音樂(例如體育鍛煉時的勵志音樂)。 有人對這一研究給予極高的評價:這比大火的 ChatGPT 還重要,谷歌幾乎解決了音樂生成問題。 MusicLM 肯定不是完美無缺的 —— 事實上,遠非如此。一些樣本有質(zhì)量問題,不可避免地對訓(xùn)練過程產(chǎn)生副作用。雖然 MusicLM 在技術(shù)上可以生成人聲,包括合唱的和聲,但它們還有很多地方需要改進。大多數(shù)「歌詞」可能是蹩腳的英語或純粹的胡言亂語,然后由合成的聲音演唱,聽起來像是幾個藝術(shù)家的「混合物」。 論文地址:https://arxiv.org/pdf/2301.11325.pdf 論文主頁:https://google-research.github.io/seanet/musiclm/examples/ 方法層面,谷歌采用三個模型來提取音頻表示,這些模型將用于條件自回歸音樂生成,如圖 1 所示。SoundStream 模型用來處理 24 kHz 單聲音頻,從而得到 50 Hz 的嵌入;具有 600M 參數(shù)的 w2v-BERT 模型用于建模中間層;MuLan 模型用于提取目標(biāo)音頻序列的表示。 然后將上述得到的離散音頻表示與 AudioLM 相結(jié)合,從而實現(xiàn)基于文本的音樂生成。為了達到這一效果,谷歌提出了一個分層的序列 - 序列建模任務(wù),其中每個階段都由單獨的解碼器 Transformer 自回歸建模。所提出的方法如圖 2 所示。 谷歌在 FMA(Free Music Archive)數(shù)據(jù)集上訓(xùn)練 SoundStream 和 w2v-BERT 模型,而語義和聲學(xué)建模階段的 tokenizer 以及自回歸模型是在 500 萬音頻剪輯的數(shù)據(jù)集上訓(xùn)練的,在 24kHz 下 總計 280000 小時的音樂。 實驗部分,谷歌將 MusicLM 與文本生成音樂的基線方法 Mubert 、 Riffusion 進行比較。結(jié)果顯示在 FAD_VGG 指標(biāo)上,MusicLM 所捕獲的音頻質(zhì)量比 Mubert 和 Riffusion 得分更高。在 FAD_Trill 上,MusicLM 的得分與 Mubert 相似 (0.44 vs。 0.45),優(yōu)于 Riffusion (0.76)。 圖 3 是對提示長度分析的結(jié)果: 飽受爭議的生成式 AI與此同時,谷歌的研究人員也注意到了像 MusicLM 這樣的系統(tǒng)所帶來的許多道德挑戰(zhàn),包括將訓(xùn)練數(shù)據(jù)中受版權(quán)保護的材料納入生成的歌曲中的傾向。在一次實驗中,他們發(fā)現(xiàn)該系統(tǒng)生成的音樂中約有 1% 是直接復(fù)制自其訓(xùn)練的歌曲,這個問題足以讓 研究人員不愿意以目前的狀態(tài)發(fā)布 MusicLM。 「我們承認與該用例相關(guān)的盜用創(chuàng)意內(nèi)容潛在風(fēng)險,」作者們在論文中寫道。「我們強調(diào)的是,在解決這些與音樂生成相關(guān)的風(fēng)險方面,未來需要更多的工作?!? 假設(shè)有一天 MusicLM 或類似的系統(tǒng)可用,似乎仍將不可避免地會出現(xiàn)重大法律問題,即使這些系統(tǒng)被定位為輔助藝術(shù)家而不是取代他們的工具。這類的爭議此前已經(jīng)發(fā)生過:2020 年,Jay-Z 的唱片公司對 YouTube 頻道 Vocal Synthesis 提出版權(quán)警告,理由是它使用 AI 創(chuàng)作了 Jay-Z 翻唱 Billy Joel 的《We Didn"t Start the Fire》等歌曲。盡管在刪除視頻后,YouTube 發(fā)現(xiàn)刪除請求「不完整」且恢復(fù)了它們,但 Deepfake 式的音樂仍然處于模糊的法律基礎(chǔ)之上。 Eric Sunray 撰寫的一份白皮書認為,像 MusicLM 這樣的 AI 音樂生成器通過「從訓(xùn)練攝取的作品中創(chuàng)建連貫音頻」侵犯了音樂版權(quán),從而侵犯了美國版權(quán)法的復(fù)制權(quán)。隨著 OpenAI 音樂生成神經(jīng)網(wǎng)絡(luò) Jukebox 的發(fā)布,批評者也開始質(zhì)疑在受版權(quán)保護的音樂材料上訓(xùn)練 AI 模型是否構(gòu)成合理使用。圍繞圖像、代碼和文本生成 AI 系統(tǒng)中使用的訓(xùn)練數(shù)據(jù)也引起了類似的擔(dān)憂,這些數(shù)據(jù)通常是在創(chuàng)作者不知情的情況下從網(wǎng)絡(luò)上收集的。 從用戶的角度來看,Andy Baio 推測由 AI 系統(tǒng)生成的音樂將被視為衍生作品,在這種情況下,只有原創(chuàng)元素會受到版權(quán)保護。當(dāng)然,暫不清楚在這種音樂中什么可以被視為「原創(chuàng)」,將這種音樂用于商業(yè)用途就像是進入未知水域。如果將生成的音樂用于受合理使用保護的目的,比如模仿和評論,那就更簡單了,但預(yù)計法院將不得不根據(jù)具體情況做出判斷。 近期法院審理的幾起訴訟可能會對生成音樂的 AI 產(chǎn)生影響,比如微軟、GitHub 和 OpenAI 目前在一場集體訴訟中被起訴,指控其 Copilot 違反版權(quán)法。還有一項涉及藝術(shù)家的權(quán)利,這些藝術(shù)家的作品在他們不知情或未同意的情況下被用于訓(xùn)練 AI 系統(tǒng)。流行的 AI 藝術(shù)工具幕后的兩家公司 Midjourney 和 Stability AI 正被指控通過在網(wǎng)絡(luò)抓取的圖像上訓(xùn)練他們的工具,侵犯了數(shù)百萬藝術(shù)家的權(quán)利。就在上周,庫存圖片供應(yīng)商 Getty Images 將 Stability AI 告上法庭,據(jù)報道,該公司未經(jīng)許可使用其網(wǎng)站上的數(shù)百萬張圖片來訓(xùn)練 Stable Diffusion。 問題主要在于,生成式 AI 偏好從用于訓(xùn)練它的數(shù)據(jù)中復(fù)制圖像、文本等,包括受版權(quán)保護的內(nèi)容。在最近的一個例子中,CNET 用來編寫文章的 AI 工具被發(fā)現(xiàn)抄襲了人類撰寫的文章,這些文章可能在其訓(xùn)練數(shù)據(jù)集中被清除了。與此同時,2022 年 12 月發(fā)表的一項學(xué)術(shù)研究發(fā)現(xiàn),像 DALL-E-2 和 Stable Diffusion 這樣的圖像生成 AI 模型,能夠且確實從它們的訓(xùn)練數(shù)據(jù)中復(fù)制了圖像的各個方面。 因此,一些圖片托管平臺已經(jīng)禁止了 AI 生成的內(nèi)容,因為擔(dān)心會遭到法律訴訟。幾位法律專家警告說,如果公司無意中將這些工具生成的受版權(quán)保護的內(nèi)容整合到他們銷售的任何產(chǎn)品中,那么生成式 AI 工具可能會使公司面臨風(fēng)險。 伴隨著關(guān)注與爭議,或許在不遠的未來,這些問題都將有清晰的答案。 參考鏈接:https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/https://techcrunch.com/2023/01/27/the-current-legal-cases-against-generative-ai-are-just-the-beginning/
?THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com