在我們被 AI 孫燕姿轟炸了好一陣子之後,蘋果近日推出了一項挺重要、但似乎還沒有那麼多人關注的新功能:輔助使用中的「Personal Voice」,宣稱僅需錄製使用者15分鐘音訊,即可讓他們創造與自己聲音相似的語音。雖然功能是針對說話能力可能被逐漸侵蝕的疾病之人,目前也僅支援英語,但另一方面也代表了 AI 語音的進入門檻來到新低,只需要一台手機,便可在短時間訓練模型並輸出。
迷因創作者、詐騙集團、音樂製作人⋯⋯大家準備好了嗎?
探討更深層的問題,諸如 AI 準備如何摧毀或重建產業,或是法律層面之前,先來看看這是怎麼做的。主流是一款名為 SO-VITS-SVC 的開源軟體,利用深度學習將「餵」給它的聲音檔案建立模型,再以此轉化那些你想模仿的音檔,音樂製作上,如果有用過例如 Drumagog 這類換鼓軟體,其實是頗為相似的概念。
先利用 iZotope RX、免費的 Ultimate Vocal Remover,又或是之前提過可線上處理的 LALAL.AI,先將想建立模型的人聲從音樂中分離出,轉成 44.1kHz 的採樣頻率,再分別剪成5~15秒的小片段,由於 SO-VITS-SVC 是在本地電腦上運行,加上一個不能太糟的 GPU 工作一陣子之後,你就能得到一個能讓它唱出任何旋律的「角色」。
這類 AI 模型「像不像」的關鍵除了演算法之外,最重要關鍵來源是否乾淨清晰,能合法地獲得原始單軌大概是最佳解,取樣的多樣性例如較為寬廣的音域也會很有幫助。
▲ UVR5 很好用,且免費。
Discord 也行?
覺得上述方式太麻煩的話,更簡單的是像 Uberduck 或 Voicemod 這類服務,大抵上都是透過月費訂閱的方式,可以享有文字轉成語音、製作聲音模型這類的功能,有的甚至有已經建好的名人模型,例如可以用 Snoop Dogg 的聲音說個「我很嗨」之類。
另一個有趣的是名為 AI World 的 Discord 伺服器,你可以把它想成聲音版本的 Midjourney,透過與伺服器中的機器人運作完成你希望製作的 AI 語音。
一旦得到需要的語音軌道之後,接下來就跟日常的音樂製作一樣,丟進你的 DAW,將整個音樂做良好的平衡,利用一些混音技巧讓表情更為生動等等。老實說近日海量的 AI 歌曲,製作精良的還是相對少數,如果少了文字以及畫面引導,你是否還是認為這真是某個歌手,唱著不屬於他的作品?
▲ 你可以在 AI World 裡頭交流 model,並且看到現在已有許多非英語系的內容。
會出事嗎? 還是接下來會出什麼事
製作了(AI)Drake 與 The Weekend 合唱歌曲〈Heart on My Sleeve〉的 @ghostwriter977,算是這波 AI 歌曲的高潮先鋒,但他的 TikTok 幾乎已清空,各串流平台也下架了(下架前播放量超百萬次)。握有大量版權的唱片公司對媒體平台的影響力仍相當巨大,但也有像 Grimes 這樣在早先宣布:以分潤50%的方式歡迎大家使用她的聲音。
藝人將自己當成 API,大部分時候,大家都可以自由接上只要別忘了版稅,似乎是個不錯的想法,只是實際層面如何執行,又或是 Google 可不管你上架的小程式有多醜,但作為藝術創作者能忍受的範圍通常不太大。一如所有新科技帶來的混沌,接下來我們終究會找到出口。
▲ 陳珊妮製作陳珊妮的 AI 模型,可能是某種長生不老的概念(?)
撰文:Jungle
重返青春熱血的社團時光,5月23日樂手巢雜誌 Vol.17 正式出刊:
https://ysolife.com/yso-mag-vol-17/