【2022,風暴里的AIGC元年】2022年12月16日,Science雜志發布了2022年度科學十大突破。年度熱詞——AIGC赫然旁肢洞在列。沿著我們熟悉的PGC、UGC等概念,AIGC指的是利用人工智能技術生成內容,即內容生產者從真人變成了AI。過去的一年里,火遍全網的AI繪畫,震驚世人的ChatGPT,我們普通人都可以體驗的各種明星級產品的問世,使得AIGC強勢破圈。其實早在年初,就有行家預測:2022年是AIGC元年(當時我們用得更多的另一個詞是“生成式AI”)。今年3、4月份的時候,也有前同事想拉我入伙,向我介紹他的“虛擬數字講解員”的商用項目,并向我描述生成式AI解放生產力之種種藍圖。但無奈于技術關卡和實現資源等難題,最終只得作罷。在困擾我們的種種技術難題當中,數字人所搭載的合成AI語音一直是我的阿喀琉斯之踵。出于我的職業慣性,我希望數字人能有自然流暢的、接近真人的嗓音,這在信息傳播過程中才更富有親和力和說服力,但現有的合成AI語音完全無法滿足我的需求。在這一波AIGC浪潮里,雖然我已下船旁觀,但我依然一直關注著前沿技術的發展。在2022年的最后一個月,作為首位簽約TME的超寫實虛擬偶像鹿曉希LUCY橫空出世,并接連發布了三首不同曲風的原創單曲。 當前瀏覽器不支持播放音樂或語音,請在微信或其他瀏覽器中播放 目的地 音樂: 鹿曉希LUCY - 目的地 我該怎樣去形容最初聽到LUCY時的驚喜呢?我一度反復地確認:這里頭,真的不是藏著個“中之人”嗎?(注:中之人,指藏在虛擬主播身后、為VTuber提供聲音來源的真人工作者)這明明是如假包換的真人歌手嘛!這怎么還會是AI?。?#8204;今天,我便和大家聊聊,在2022這一“AIGC元年”里,推出的又一顆璀璨新星:首位擁有“唱片級智能歌聲”的虛擬偶像——鹿曉希LUCY。【虛擬歌姬的前世今生】AI歌手其實并不是什么新鮮事。2004年,YAMAHA便正式推出了電子歌聲合成軟件,輸入音調和歌詞,就可以合成類似人類聲音的歌聲,這就是大名鼎鼎的VOCALOID,國內俗稱的“V家”。合成語音的原理聽起來很簡單:通過采集大量的人類聲音樣本,以神經網絡合成技術,制作成音源庫。玩家通過設定參數調用里頭的聲音,AI這就唱起歌來。在此基礎上,誕生了我們熟悉的初音未來、洛天依、星塵等虛擬歌手,這都是來自于VOCALOID的技術。但,這些虛擬歌手,只要一開嗓,我們就知道——這是假人啊。盡管VOCALOID自初代發布以來,一直都在更新迭代,但依然有明顯的“電音感”和“機械感”。人聲是所有音源里最最難模擬的東西。我們可以輕易地在midi里模擬出三角鋼琴的自然共鳴,也可以模擬出木吉他弦在指尖摩擦的聲音,但人的肉嗓卻是這個星球上最精密、最神奇的發音體,哪怕你把“開口度”、“明亮度”、“性別度”等參數列了個十幾項,也僅僅是模擬人類唱歌的基礎框架而已。所以,V家的應用范圍大都僅限于二次元——反正我和三次元井水不犯河水。若干年前,我在擔任女團制作人的時候,向某些二次元作者收歌,他們倒也會用VOCALOID去作為Demo歌手做范唱。收到這些Demo的時候,我的內心OS是:求求你找個妹子唱吧,V家,老板們聽不懂的啦……過去數年,隨著AI技術整體的提升,虛擬歌姬也有了長足的發展。以小冰為代表的x studio憑借微軟的金漆招牌一時風頭無量,但依然逃不開其電音質感;異軍突起的ace studio倒是有越來越多的朋友使用,雖然還是能一耳朵便聽得出這是AI歌手(音色氣息還是缺了變化),但你若是一個作曲者/編曲人,這已經是一個相當得力的能幫你唱demo的歌手朋友了。但在鹿曉希LUCY的面前,這些技術都顯得像是上個世代的運枯產物。用各位都能聽得懂的比方,LUCY就像是唯一領跑的次世代主機,把PS4 / XBOX 360等統統拋在后頭?!韭箷韵UCY是怎樣煉成的】我相信,每一位聽到LUCY的朋友都會驚訝于其革命性的聲音表現力。LUCY是饑肆真正屬于次世代的AI歌手。在現已發布的三首單曲當中,LUCY的聲音表現自然、流暢,沒有半點“機器嗓”的不適。《疊加態少女》里,在這首爽朗的Teen-Pop里,LUCY展現自己的年輕無敵,用充滿了彈性和跳躍感的音色去營造19歲少女的勇敢無畏;《1234你》里,LUCY又化身為一個多愁善感的小女生,R&B對于虛擬歌姬來說總是不易拿捏,因為其音程和氣息之間的控制實在是過于復雜,但LUCY的表現依然無可指摘(是一個練習時長至少兩年以上的聲樂學生的標準了);第三首單曲《目的地》則是帶著輕搖滾/urban/City Pop的時尚曲風,這是迄今為止LUCY所發布的單曲中我最喜歡的一首,她的銳利度、沖撞感讓我一瞬間感到:這個姑娘,就在我眼前。 當前瀏覽器不支持播放音樂或語音,請在微信或其他瀏覽器中播放 疊加態少女 音樂: 鹿曉希LUCY - 疊加態少女 要讓LUCY“活”起來,其所要做的第一件事,是思考這個問題:鹿曉希LUCY的聲音究竟是怎樣的?。關于這位19歲少女,我們對她的嗓音有這樣一個大致的輪廓:她留著齊肩的短發,挑染代表了自由和飄逸;她一定不是一個娃娃音,LUCY有自己的一套,帶有一定的中性色彩;她的外冷內熱,乍一看是酷酷的女孩,但又保持著可愛;她甚至還帶有一點兒“少年感”,這讓她可以展現出灑脫、勇敢的一面。在這樣的人物畫像的指導下,通過 TME天琴實驗室LyraSinger引擎,以海量歌手樣本數據的人工智能學習下,指向了屬于LUCY的聲音。為了滿足LUCY“唱片級”的聲音定位,開發團隊特邀行業知名制作人文穎秋擔任AI聲學藝術監制,基于藝人的定位,提取采樣庫中多種音色亮點進行配比捏合。相比于其他人工合成語音,LUCY要求以唱片級制作流程規范樣本聲音標準,及專業歌手錄唱標準調試和設定每一個聲音細節的處理方式。最終通過精細控制各音色建模單元的比例,并吸取每種源音色的優點并有機融合,在多種比例中不斷捏和,甚至對每一句歌詞演繹情感及氣息的不斷打磨,最終生成獨一無二的LUCY聲紋。這也使得我們現在聽到LUCY的聲音是充滿個性之表達能力的。 當前瀏覽器不支持播放音樂或語音,請在微信或其他瀏覽器中播放 1234你 音樂: 鹿曉希LUCY - 1234你 “捏嗓”只是LUCY的第一步。第二步是LUCY的演唱技巧。你是如何理解“技巧”這件事的?我聽過很多琴童的家長這樣問老師:老師,我們家娃,彈琴總覺得沒感情,咋整?這時候,老師大都會白家長一眼,然后說:感情?感情是什么?感情就是觸鍵!強弱變化!句子之間的線條!這些全都是技巧!把這些技巧練會了,才有所謂“感情”好吧!對于歌手來說,同樣如此。只有強大的技巧(唱功)才能支撐不同的表達。而LUCY顯然是我見到過技巧最全面的AI歌手。這來源于兩點。其一是LUCY的學習樣本庫本就是“唱片級”的。在音色樣本庫采集時,LUCY用的就是上百位專業級歌手的素材。這樣的采集學習方式在國內非常少有。大部分開發者基于成本考慮,僅是模擬某位或某幾位歌手之演唱。博取百家之長的好處不言自明,在此過程中可最大程度讓AI學習到更廣泛的演唱技巧,包括氣聲、混聲、弱聲、轉音等多種表達,以便應對歌曲中不同場景、情緒的需要。同時也因為樣本覆蓋足夠多,在AI的音域表現方面,從女中到女高多重音區之樣本模型能提供更多可學習的范例,使得LUCY在高音區的真假音能有靈巧和高密度的回彈(這點我們稍后馬上會講到)。另一個重要的原因是LUCY在開發時所采用的史無前例的智能演唱垂類全新標注標準。數據標注是人工智能的基礎。簡單地說,數據標注相當于給“投喂”AI準備“飼料”。舉個例子:當你在一段聲音中標注“這是氣聲”,重復1000次不同的片段,AI在第1001次的時候便“學會了”氣聲的正確用法。數據標注是構建AI 歌手的基礎力量,通過海量的已標注數據,AI才能逐漸學會怎么唱歌。如果標注能夠越細致,那自然最后聲音的呈現也能越豐滿。這一次,LUCY的數據標注數量級是國內技術的佼佼者,其標注樣本精細到毫秒級,事無巨細地把氣聲、真假音轉換等多個演唱技巧維度統統標注好,以此最大程度上還原每一個人聲演唱技巧。如此雙管齊下,使得LUCY在音樂技法模型的能力,在廣度和深度方面,都代表了次世代之水準。下面,我們不妨來細聽下現已發行的三首單曲,直面感受LUCY音樂領域的強大“天賦”:《疊加態少女》:作為一首主打青春主張的Teen Pop,LUCY在這首歌其實只需要做好一件事:把她的朝氣、勇往直前呈現出來就好了。說著簡單,但如果沒有足夠聲音強弱表現,這就真的是機器人唱法了。開頭第一句,“伴著日落行駛向快樂”,其中“樂”字一上來就巧妙地秀了一把真假聲無縫轉換;“沒有終點的終點更酷”,如果“酷”字把它給唱實了,這就遜斃了,此處的弱音也處理的異常平滑。進入副歌后,是一個強弱交替的重音強調唱法,每一個重拍處都要求著重強調,并在非重音下加入混聲和氣聲,這是一個很高段位的演唱技巧,也是我們之前所說的“高音區的真假音快速回彈”能力,LUCY完成的同樣精準自然。而整首歌最高音處唱到C5,基于超強引擎的全音域生成能力,依然在混聲的時候合成除了高保真的聲音表現,這實在是令人驚訝。 《疊加態少女》高音片段 《1234你》:這首浪漫的R&B抒情曲,考驗著的是發聲的細節,慢歌里特別一不小心就容易露餡。主歌時,LUCY有一些故意pitch有瑕疵的地方,“不小心塞滿抽屜的秘密”,你仔細聽,其實不是100%準的,但這種呼吸感恰恰又是真人歌手情緒最容易流露之處。在歌曲里的大量轉音部分,如“哪怕生活其實不太識趣”之“趣”,一個字里連轉了五個音,LUCY的聲音也不像是同類型產品那種明顯的“劃線感”。以及可以留意這首歌的氣口,尤其是副歌部分,LUCY每一個輕微的換氣動作,這種自然的呼氣吸氣,來源于LUCY毫秒級的呼吸采樣學習,你說誰能識別出來,這是AI?

因作品本身的樂隊感很強,LUCY唱起歌來走路有風。此處可特別留意的是LUCY因為在這首歌里用了更多的真聲演唱,降低了氣聲的使用比例,而發音也顯得更為短促有力。AI不僅在參數上進行了調整,更直接導致了LUCY有另一種唱腔和情緒的表達。“唱商”,這是真人歌手才具有的本領,在過往所有的AI歌手中我都沒有見到過。LUCY可謂獨一家,是一個擁有音樂審美和判斷的超強AI歌姬。

如上所述,鹿曉希LUCY是當前國內獨一檔的AI歌手存在,無愧于“唱片級發燒AI歌手”的定位。當然,LUCY目前所展現出來的領先技術也是建立在同行業無數探索者經年累月的技術積累,而當前虛擬人/數字人的領域中,競爭者層出不窮,技術也將不停地迭代。LUCY會在多長的時間里保持業內天花板的領先地位、并在此期間能夠干成怎樣突破性的創舉(無論是商業應用或是其他異業合作),都值得我們持續觀察?!綥UCY能為我們帶來什么?】以假亂真——一言以蔽之,這是鹿曉希LUCY當前呈現的狀態。于是,我們能看到鹿曉希一系列高調的動作,諸如以首位“超寫實虛擬偶像”的身份簽約騰訊音樂,并收獲了一眾三次元歌手們的出道賀詞,這實在是太寫實了。如今的鹿曉希LUCY還是一個被保護的、“封閉狀態”下的虛擬歌姬,更接近傳統唱片公司/經紀公司打造下的超級新人。如出道之時便官宣與ELLE family展開深度合作,赫斯特中國為LUCY所量身打造的系列時尚大片,以系列時尚單品加身,展現其青春魅力:  

接下來,LUCY也還將作為表演嘉賓在“可口可樂粉絲節- 新年歡聚夜”及“KFC天臺跨年派對”上展露頭角。作為虛擬偶像而存在的LUCY確實能夠獲得市場的青睞,除了強調年輕時尚的快銷(包括軟飲、彩妝、服裝)外,許多大牌也愿意加入其中,可見LUCY身上的科技感、未來感仍是品牌彰顯態度及市場趨勢追逐的熱點。

但于我而言,我更關注LUCY依然是她身為目前唯一的可以“以假亂真”虛擬歌姬之業務能力。如果,我是說如果,在不遠的將來,若LUCY成為了一個開源的AIGC音樂人,當所有人都可以對其嗓音進行使用,創作屬于自己的歌曲的時候,LUCY會不會成為這個星球上最紅的歌手?

請別覺得我在說夢話。大家可回憶初音未來剛誕生的時候——初音作為V家的一員,其目的也是為了解決制作人/編曲人找不到歌手的問題。因為這樣一個沒有氣息/音高/風格限制,顛倒人類人聲認知的“容器”,創作者開始了彼此的狂歡,其中甚至誕生了米津玄師這樣寫歌從不按常理出牌的鬼才。而當能夠制作動畫的MMD(MikuMikuDance)出現后,初音不再只是一個平面形象,而是可以跟著音樂舞蹈的3D動畫,這讓初音不僅成為音樂創作者、更是多媒體創作者的共同紐帶。隨著彈幕視頻網站等新興媒介的推波助瀾,初音未來更是成為了全球共創的平臺。因此,“初音未來之父”伊藤博之才會說:“數字作品是越被使用,其價值越高”,而創作者們在做的事,是“為沒有生命的事物注入靈魂”。

對于鹿曉希LUCY來說,這位次世代的超寫實虛擬歌姬,她有著超越前輩的多變音色、全面技巧,造就了她完美的擬人表現。所以,她會重新定義AI歌手嗎?她會成為人人都愛用的虛擬歌姬嗎?她會讓創作者們連成一片嗎?

The future is already here.