本文來(lái)自微信公眾號(hào):中國(guó)工程院院刊(ID:CAE-),作者: ,本文選自中國(guó)工程院院刊《》2020年第7期,原文標(biāo)題:《前沿?zé)狳c(diǎn)丨人工智能增強(qiáng)型媒體:我們還能相信新聞嗎?》,頭圖來(lái)自:電影《華盛頓郵報(bào)》

導(dǎo)語(yǔ)

在當(dāng)今的數(shù)字世界,隨著計(jì)算機(jī)、互聯(lián)網(wǎng)以及智能手機(jī)、社交媒體的出現(xiàn),用來(lái)處理照片和其他媒體的工具越來(lái)越多,人工智能可以用更復(fù)雜程序進(jìn)一步改變數(shù)字媒體。出于各種目的,人們可以使用這些程序近乎完美地篡改和處理各種視頻、照片、音頻和文本。這種人工智能增強(qiáng)型媒體(新聞),我們還能相信嗎?

中國(guó)工程院院刊《》刊發(fā)《人工智能增強(qiáng)型媒體——我們還能相信新聞嗎?》一文指出,在數(shù)字媒體領(lǐng)域,針對(duì)人工智能帶來(lái)的變化和挑戰(zhàn),如視頻“深度造假”“口型同步”等現(xiàn)象,促使計(jì)算機(jī)科學(xué)家和工程師不斷開(kāi)發(fā)人工智能算法(取證軟件)來(lái)檢測(cè)視頻和音頻是否被修改。文章指出,盡管出現(xiàn)了一些人工智能的負(fù)面應(yīng)用,但是也有許多正面的應(yīng)用,如改善有言語(yǔ)障礙的人的視頻或音頻記錄等,推動(dòng)運(yùn)用人工智能技術(shù)來(lái)生成可靠的文本和語(yǔ)音,促進(jìn)科學(xué)技術(shù)的進(jìn)步。

雖然消息、信件甚至照片的內(nèi)容和意圖都有可能被篡改,但是人們通常不會(huì)認(rèn)為它們被篡改了,因?yàn)檫@并不是件容易的事情。但在當(dāng)今的數(shù)字世界中,情況已不再如此。隨著計(jì)算機(jī)、互聯(lián)網(wǎng)以及近年來(lái)智能手機(jī)和社交媒體的出現(xiàn),用來(lái)處理照片和其他媒體的工具也迅速出現(xiàn)。現(xiàn)在,人工智能(AI)正在用更復(fù)雜的程序進(jìn)一步改變數(shù)字媒體,出于各種目的,人們可以使用這些程序近乎完美地處理各種視頻、照片、音頻和文本。

紐約州立大學(xué)奧爾巴尼分校計(jì)算機(jī)科學(xué)教授兼計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)實(shí)驗(yàn)室主任 Lyu說(shuō):“處理照片的歷史與攝影本身一樣古老。最近的變化則是其與AI結(jié)合,從而擴(kuò)大照片處理的操作范圍。過(guò)去,處理照片需要大量的時(shí)間、精力以及特殊的培訓(xùn)和設(shè)備。”Lyu說(shuō),有了功能強(qiáng)大的計(jì)算機(jī)和足夠的知識(shí)來(lái)運(yùn)行算法,現(xiàn)在就可以在更大的范圍內(nèi)處理視頻。

計(jì)算機(jī)工程師也在努力完善用于“自然語(yǔ)言處理”的AI系統(tǒng),該系統(tǒng)可以生成與人類語(yǔ)言非常接近的文本和語(yǔ)音。

例如,在2019年年初,位于舊金山的研究實(shí)驗(yàn)室宣布他們已經(jīng)開(kāi)發(fā)出一種最先進(jìn)的文本生成器,叫做GPT-2,該生成器可以根據(jù)少量提示,用英語(yǔ)寫出連貫的句子,甚至寫出短篇小說(shuō)和詩(shī)歌。研究人員最初不愿發(fā)布該軟件的完整模型,因?yàn)樗麄儞?dān)心該軟件因效果太好,而被惡意利用,如被用于生成“假新聞”。但是在看到“沒(méi)有強(qiáng)有力的濫用證據(jù)”之后,他們?cè)?019年11月放松了限制。但是,在這種媒體和其他媒體中,老話“眼見(jiàn)為實(shí)”似乎已成為了假新聞。

等用來(lái)修改照片的軟件已經(jīng)存在了一段時(shí)間(圖1),現(xiàn)在,人們也可以輕松地操縱視頻了。最常見(jiàn)的處理方法是深度造假(),指將一個(gè)人(目標(biāo))的臉與另一個(gè)人(供體)的臉交換。

深度造假的另一種類型是“口型同步”,指通過(guò)修改源視頻,使得講話者嘴部的動(dòng)作與另一個(gè)音頻保持一致。如果處理得好,輸出的視頻將會(huì)非常逼真,看起來(lái)講話者說(shuō)出了一些實(shí)際上他們從未說(shuō)過(guò)的話。此類欺騙性視頻可以并且曾經(jīng)被用來(lái)操縱公眾輿論,實(shí)施欺詐以及抹黑他人。

ai寫通知_通知怎么這寫_通知寫作訓(xùn)練

圖1 使用 軟件,用16張不同的照片創(chuàng)建了這個(gè)奇特但逼真的風(fēng)景。由AI算法驅(qū)動(dòng)的軟件現(xiàn)在提供了工具,讓人們可以更輕松地創(chuàng)建逼真但被處理過(guò)和(或)模擬生成的視頻、文本和語(yǔ)音。圖片來(lái)源: (CC BY-SA 3.0)

在實(shí)踐中,要生成深度造假視頻,需要將數(shù)據(jù)(大量圖片或者文本)輸入到一種叫做生成對(duì)抗網(wǎng)絡(luò)(GAN)的機(jī)器學(xué)習(xí)工具中。最簡(jiǎn)單的生成對(duì)抗網(wǎng)絡(luò)包含兩個(gè)神經(jīng)網(wǎng)絡(luò),用來(lái)開(kāi)發(fā)和改進(jìn)模型將輸入數(shù)據(jù)轉(zhuǎn)化成新圖片和新視頻的能力。早期算法使用海量數(shù)據(jù)集進(jìn)行訓(xùn)練,這些數(shù)據(jù)來(lái)自政客和名人等容易獲得的圖像。雖然這一過(guò)程曾經(jīng)需要程序員進(jìn)行某種程度上的監(jiān)督,但最新的程序幾乎是完全自動(dòng)化的。

“不需要大量的訓(xùn)練數(shù)據(jù),短短10 s的視頻就足夠了。”亞利桑那州立大學(xué)(位于坦佩市)計(jì)算機(jī)科學(xué)與工程學(xué)教授 說(shuō),他也是人類感知AI的專家。但是使用較長(zhǎng)的視頻訓(xùn)練模型并使用具有至少1000個(gè)高質(zhì)量幀的源視頻,將得到質(zhì)量更好的輸出視頻。對(duì)于視頻中的每一幀,算法都能夠繪制出人頭上的“標(biāo)記”,以及人的頭部姿勢(shì)、視線,以及更詳細(xì)的特征,包括眉毛、眨眼、眼瞼、上下嘴唇、臉頰、下巴和酒窩。

輸出視頻中,人的運(yùn)動(dòng)看起來(lái)像人類視覺(jué)所期望的那樣流暢。但是,如果處理不當(dāng),輸出視頻可能會(huì)有破綻,這些內(nèi)容可能會(huì)使敏銳的觀看者懷疑視頻被修改過(guò)。“有時(shí)候會(huì)出現(xiàn)奇怪的現(xiàn)象,例如,面部特征的拉伸或扭曲與正常面部特征不完全匹配。”弗萊徹·瓊斯計(jì)算學(xué)者、美國(guó)加利福尼亞州克萊蒙特市斯克里普斯學(xué)院媒體研究專業(yè)的訪問(wèn)教授Doug 說(shuō)。例如,如果訓(xùn)練數(shù)據(jù)的分辨率不足,則輸出視頻可能具有模糊的區(qū)域,在嘴中出現(xiàn)白色條紋,而不是單個(gè)的牙齒,或者面部毛發(fā)沒(méi)有按照應(yīng)有的方式運(yùn)動(dòng)。說(shuō),使用包含各種面部表情和吐字的數(shù)據(jù)訓(xùn)練后,算法的效果會(huì)更好。

處理技術(shù)的進(jìn)步促使了計(jì)算機(jī)科學(xué)家和工程師開(kāi)發(fā) AI算法(取證軟件)來(lái)檢測(cè)視頻和音頻是否被修改。“取證工具可以檢測(cè)合成的媒體,并判斷它是由機(jī)器還是由人生成的。但是,如果不對(duì)這些工具保密,那么總是可以制作出繞過(guò)工具的媒體。”加利福尼亞大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)博士 說(shuō),他的研究方向包括音頻和視頻的深度造假。

處理和檢測(cè)之間的拉鋸戰(zhàn)類似于病毒和防病毒軟件的計(jì)算機(jī)安全軍備競(jìng)賽,其中,補(bǔ)丁程序阻止了黑客,而黑客又找到了繞過(guò)補(bǔ)丁程序的方法。專家發(fā)現(xiàn)了一個(gè)缺陷,使他們能夠檢測(cè)出被修改過(guò)的媒體,隨后媒體的生成者調(diào)整算法,生成更逼真的假媒體。例如,第一代的深度造假軟件會(huì)生成不定期眨眼的臉,導(dǎo)致造假很容易被檢測(cè)出來(lái),而下一代深度造假軟件便修復(fù)了這一問(wèn)題。說(shuō),另一個(gè)例子是,一個(gè)包含時(shí)任美國(guó)總統(tǒng)巴拉克·奧巴馬的視頻被人為修改,使其看起來(lái)像是他說(shuō)了一些實(shí)際上沒(méi)說(shuō)過(guò)的話,但視頻中他的眉毛運(yùn)動(dòng)與嘴唇運(yùn)動(dòng)不符。但在后來(lái)的深度造假視頻中,奧巴馬的眉毛如預(yù)期般正常地動(dòng)了起來(lái)。由于可以訓(xùn)練AI來(lái)檢測(cè)和修復(fù)此類差異,因此最新一代的深度造假軟件幾乎沒(méi)有破綻。

出現(xiàn)了許多AI的負(fù)面應(yīng)用,但是也有許多正面的應(yīng)用,它們推動(dòng)了技術(shù)的進(jìn)步。例如,改善有言語(yǔ)障礙的人的視頻或音頻記錄,為電影添加更逼真的外語(yǔ)配音,甚至在電影中重現(xiàn)已故演員飾演的角色。例如,在《星球大戰(zhàn)外傳:俠盜一號(hào)》中,重現(xiàn)了已故演員卡麗·費(fèi)雪飾演的萊婭公主。結(jié)合了該項(xiàng)技術(shù)的虛擬現(xiàn)實(shí)游戲或其他娛樂(lè)活動(dòng)看起來(lái)很有發(fā)展前景。

正如上面提到的,計(jì)算機(jī)科學(xué)家也在使用 AI來(lái)生成可靠的文本和語(yǔ)音。像修改視頻一樣,這種技術(shù)也使用了GAN來(lái)生成逼真的句子。例如,谷歌翻譯現(xiàn)在就使用了這種AI算法。這些算法足夠復(fù)雜精妙,可以以特定人物的風(fēng)格生成文本,如生成看似出自已故作家簡(jiǎn)·奧斯汀之手的新故事。程序員也在社交媒體等平臺(tái)上創(chuàng)造了聊天機(jī)器人,該聊天機(jī)器人具有足夠的閱讀和真實(shí)聽(tīng)覺(jué),可以像真人一樣與潛在客戶互動(dòng)。亞馬遜的和蘋果的Siri可能是使用最廣泛的 AI通信的商業(yè)應(yīng)用,它們基于云的語(yǔ)音服務(wù)被設(shè)定為模仿與客戶的真實(shí)對(duì)話。雖然和Siri不是真人,但它們的確能夠給出問(wèn)題的真實(shí)答案。

說(shuō),迄今為止,程序員在生成逼真的視頻和圖像方面取得了更大的進(jìn)步。他說(shuō),如果當(dāng)前的趨勢(shì)繼續(xù)發(fā)展下去,可能很快就可以構(gòu)建AI算法,來(lái)創(chuàng)造全新且可信的語(yǔ)音,并自動(dòng)將其與模擬音頻和視頻融合。這種前景及其在詐騙中的潛在用途,促使研究人員開(kāi)發(fā)自動(dòng)檢測(cè)深度造假視頻的代碼,并呼吁社交媒體網(wǎng)站將此類媒體標(biāo)識(shí)為被篡改過(guò)的媒體。2020年12月,與、亞馬遜和包括Lyu在內(nèi)的學(xué)術(shù)界計(jì)算機(jī)科學(xué)家合作發(fā)起了深度造假檢測(cè)挑戰(zhàn)賽,號(hào)召研究人員提交自己的自動(dòng)檢測(cè)工具,并有機(jī)會(huì)贏得100萬(wàn)美元的獎(jiǎng)金。美國(guó)國(guó)防高級(jí)研究計(jì)劃局的工程師也在研究自動(dòng)檢測(cè)視頻或照片是否被篡改的工具。