今天推薦一個(gè)黑科技開源項(xiàng)目,只需要你 5 秒鐘的聲音對(duì)話,就能克隆出你的聲音,而且能夠?qū)崟r(shí)的生成你任意語音。

是不是很頂?

我覺個(gè)例子,如果我這里有 300 條你說話的語音,我把你的語音數(shù)據(jù)用這個(gè)開源項(xiàng)目去訓(xùn)練,訓(xùn)練完成后,我就可以使用這個(gè)訓(xùn)練好的模型生成任何你說的語音了。

你會(huì)聽到一個(gè)聲音和你一模一樣的人說你沒說過的話,那種感覺真的細(xì)思極恐。

這個(gè)黑科技就是:Real-Time--,現(xiàn)在已經(jīng)開源, 24K 的 Star,最重要的是,這個(gè)項(xiàng)目提供了 GUI 界面,交互傻瓜式操作,語音采集、訓(xùn)練、生成都可以交互完成,很方便。

地址:

環(huán)境配置

首先你需要 3.6 的環(huán)境、安裝 (要求版本 > = 1.0.1)。 是深度學(xué)習(xí)框架,你可以通過這個(gè)站點(diǎn)來安裝這個(gè)庫。

緊接著需要安裝 :

地址 #get-。除此之外,你還需要安裝其他的依賴包。將項(xiàng)目下載下來,在包含 .tx 目錄下運(yùn)行命令 pip -r .txt 就行了。

下載預(yù)訓(xùn)練的模型

把開源作者訓(xùn)練好的模型下載下來,我們不用自己訓(xùn)練,直接拿來用就行了:,

下載完畢要放到如下的文件夾里面。

encoder\saved_models\pretrained.pt
synthesizer\saved_models\pretrained\pretrained.pt
vocoder\saved_models\pretrained\pretrained.pt
Details about model training and audio samples can be found here: https://blue-fish.github.io/experiments/RTVC-7.html

啟動(dòng)

當(dāng)你配完了環(huán)境,就可以嘗試使用這個(gè)黑科技了。運(yùn)行命令 .py 就能啟動(dòng)這個(gè)黑科技啦!

下面是比較詳細(xì)的使用教程,遇到問題可以查看幫助:

最后結(jié)尾說一下,我用這個(gè)模型試了一下,因?yàn)檫@個(gè)模型是老外開源的,所以訓(xùn)練的數(shù)據(jù)是英語的語音,我試了一下說中文,簡直就是不會(huì)說中文的老外講中文一個(gè)味道,現(xiàn)在我懷疑世界的真實(shí)性了。

開源地址: