圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非


圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非

原文來自Medium,作者Thomas Smith

原文鏈接:https://medium.com/swlh/this-is-not-a-person-but-she-is-a-threat-6d6f2d4083f4


請看下圖的女士:她看起來很友好,你可能會在職場社交平臺LinkedIn(領英)加她為好友,或者僱她來幫你運營社交媒體;如果你在孩子的體育課上遇到她,你會主動和她打招呼,進行些尷尬的寒暄;如果你在交友軟件Tinder上看到她的檔案,你可能會右滑選擇喜歡。

圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非

​所有的這些可能性只存在一個問題——這位女士根本不存在。上面的圖像是用一種叫做生成式對抗網絡(Generative Adversarial Networks,下稱GAN)的新型機器學習技術生成的,這項技術發明於2014年,其科技潛力和流行度都呈現了爆炸式的增長。

圖靈獎獲得者楊立昆(Yann Lecun)稱之為“20年以來機器學習中最酷的想法”。它被應用於視頻遊戲、天文學和藝術領域,席捲了媒體和法律界。


揭秘GAN

GAN的工作原理是,讓兩個深度學習神經網絡在一場迷你混戰中進行較量。第一個網絡是生成式網絡,通常也是一個卷積神經網絡(Convolutional Neural Network,下稱CNN),我們利用樣本圖像集對其進行訓練。和所有CNN一樣,它會學習訓練圖像集的屬性和模式,並能夠重新生成類似的圖像。

第二個網絡是判別式網絡。人們也利用原始數據對其進行訓練,並用它來評估特定圖像是否遵循原始數據集的統計分佈。更簡單地說,當給定一個新圖像時,這一網絡會努力猜測該圖像是否屬於原始圖像集。

有趣的地方在於:GAN並沒有讓兩個網絡默默地獨自工作,而是讓它們相互鬥爭。生成式網絡的目標是創造足夠好的虛假圖像來愚弄判別式網絡,而判別式網絡的目標是避免上當受騙——準確猜測哪些圖像是假的,哪些確實屬於原始數據。

生成式網絡會持續創造新的圖像,然後判別式網絡會評估所生成的圖像。然後它們會檢查工作,看看每一場較量中誰是贏家。這兩個網絡在數千輪的較量中大致打成平手,它們都會利用反向傳播算法(back propagation)從自己的錯誤和成功中吸取教訓。生成式網絡會越來越擅長於生成逼真的虛假圖像,而判別式網絡則越來越擅長於識別虛假圖像。

隨著時間的推移,這兩個網絡通過相互競爭而不斷提升。這項技術利用了並行計算(parallel computing)領域的最新進展來快速訓練網絡——視覺計算技術公司NVIDIA和其他圖形處理器(Graphics Processing Unit,GPU)公司是該技術的早期應用者。

圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非

​圖注:GPU的進步,正如這個NVIDIA顯卡,使GAN成為可能。

到訓練結束時,生成式網絡已經非常擅長創建逼真的虛假圖像。在亦敵亦友的判別式網絡的幫助下,生成式網絡得到了很大提升,現在它能生成的虛假圖像已經逼真到可以騙過人類

這有點像棒球運動員會在正式比賽前用一根加重的球棒進行練習,也有點像大學生會利用比預期考試難度更大的習題進行練習。通過與一個狡黠的、並且在每次較量中都會愈加強大的對手一起訓練,生成式網絡也在競賽中不斷提升自己的水平。當一個強硬的對手已被迷惑,再轉而愚弄一個普通的人類時,任務就相對容易了。


GAN帶來了麻煩

不出所料,能夠製造出令人信服的虛假人類圖像的人工智能(Artificial Intelligence,下稱AI)系統正在引起相當大的轟動,而且遠遠超出了深度學習(Deep Learning,是機器學習領域中一個新的研究方向,它被引入機器學習使其更接近於人工智能)的範疇。

在新聞媒體領域,GAN是對報道可信度的重大威脅,人們很自然地將其與換臉軟件Deep Fakes聯繫了起來,該軟件可以利用神經網絡模擬一個真實的人,並且生成視頻或照片,而其中的人所做的事和所說的話從未真正發生過。

當然,人們早已可以利用圖片編輯軟件Photoshop將名人或政客的形象編輯到一個他們從未真實參加過的活動中,或者展示他們與一個他們從未真正見過的人握手的景象。

但要製作一個逼真的視頻要困難得多,讓他們看上去像在發表種族主義言論,或說一些會激怒他們自己政黨的話,且往往需要在GAN的幫助下實現。

對新聞媒體來說,這是一種事關生存的威脅。新聞內容的可信度是絕對關鍵的(虛假新聞除外)。但是,要如何確定一位告密者的隱藏攝像片段到底是一個真實的視頻,還是隻是一個由GAN精心製作的、為了破壞對手聲譽的虛假視頻呢?

還有更黑暗、更棘手的問題。依靠GAN創作的色情作品已經出現在了互聯網上,且通常是用真實名人的臉來製作的

這個問題很可能蔓延開來。名人是一個能夠輕易上手的目標,因為網上已經有很多名人的照片,並且公眾對他們私人生活的興趣已經很高,這使得獲取GAN的訓練數據變得相對容易,而且發佈虛假的視頻或照片也非常有利可圖。

隨著技術的進步和所需訓練集規模的縮小,黑客可能得以製造出幾乎所有人的限制級虛假視頻片段,並將其用於敲詐勒索。


虛假圖像屬於誰?

先不說這些事關生存威脅和令人毛骨悚然的風險,即使是出於正當理由而建立的GAN也導致了一些棘手的法律問題。其中一個核心問題是,誰真正擁有GAN所創造圖像的所有權?

美國版權法非常明確地指出,受版權保護的作品必須有人類作者。挑戰這一基本前提的案例,多以各種形式的失敗告終,且這些失敗往往是轟動性的:從自動相機拍攝的監控錄像的所有權案件,到臭名昭著的猴子自拍案件。後者案件中,善待動物組織(People for the Ethical Treatment of Animals,PETA)宣稱,冠獼猴擁有它用自然攝影師的相機所拍攝的照片的所有權利。

圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非

​圖注:像這張監控攝像頭圖像這樣,由機器生成的圖像的版權是複雜的。

如果一個作品需要一個人類作者來獲得版權保護,那麼會有人類擁有GAN製作的圖像的所有權利嗎?畢竟,它們並不是被一個手持相機的人拍下的,而是兩個電腦程序相互較量所得的結果。這是一個很難回答的問題,但謝天謝地,還有其他領域的先例,我將隨後講到。

除了所有權問題,人們對GAN的使用會有限制嗎?你可以用它來模擬任何你想模擬的人嗎?


人類的反擊

面對GAN的威脅,許多組織和立法者已經開始反擊。代表演員和演藝人員利益的美國演員工會(Screen Actors’ Guild,下稱SAG)正在積極遊說監管機構,防止製作公司用GAN協助製作的全息圖代替真人演員。

這十分合理——如果你能創造出一個實際上是假的但看上去很真實的布拉德·皮特(Brad Pitt),讓他按你的吩咐去做,為什麼還要僱傭真正的演員呢

GAN生成的演員不需要休息,不會忘記臺詞,也不太可能要求獲得高達7位數的工資。不過,說到過世的演員,事情就變得更復雜了。SAG希望永遠鎖定生成虛擬名人的權利,但這又違背了美國憲法第一修正案的內容(國會不得制定法律剝奪言論自由或出版自由)。

美國的好幾個州也已經加入了這場鬥爭。2019年10月3日,加利福尼亞州通過AB-602法案,禁止在選舉前60天內使用GAN製造政客們的虛假色情作品或視頻片段。紐約正在考慮立法,通過形象權來處理GAN帶來的問題。


GAN帶來的益處

對GAN實行一定程度的監管是絕對必要的。在合成色情作品或其他損害他人利益的情況中,立法者介入並取締不良行為當然是有意義的。

不過,對GAN的過度監管也存在風險。如果使用得當,生成式對抗網絡可能是一種非常強大的技術,可以帶來很多強大的益處。

以最初建立GAN的原因為例:這項技術開發的最初目的不是為了生成令人信服的虛假人物,而是為了生成用於培訓其他深度學習系統的大型數據集

一般來說,在機器學習中,很難找到好的數據,尤其是在新的網絡和技術下,數據科學家需要大量的圖像來訓練一個新的視覺AI系統——有時需要一百萬張或更多的圖像。購買所有這些圖像的成本高得嚇人,對獨立的科學家和研究小組來說尤其如此。

圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非

​圖注:即使是購買基礎訓練圖像的版權,比如這張在真實場景中的真人的圖片,也是很昂貴的。

人們正是為了解決這個問題而建立了GAN。例如,一位正在開發新的面部識別系統的研究科學家不需要去購買數百萬張人臉圖像。相反,他們可以訓練GAN,然後根據需要,用它生成儘可能多的虛假人臉圖像,並在這些圖像上訓練他們的新系統。

GAN仍然主要用於這個目的,但這項技術並不是一個完美的解決方案——IBM的一位同事將這一過程描述為類似於影印一份複印件,而不是影印原始文檔,但同樣會產生失真和質量損失——然而它仍然是數據科學家的一個重要工具。

在真實訓練數據有限的情況下,GAN也至關重要。例如,有人建議,可以將GAN作為解決非白人男性人臉訓練圖像短缺問題的方案,從而增加深度學習系統的多樣性。你可以在——ThisPersonDoesNotExist.com——這個網址創造你自己的虛假人物進行實驗。

除了機器學習之外,GAN還有各種各樣的實際應用。在全景圖片庫和時尚領域,GAN可以獨立生成可信的肖像,無需聘請模特或租用場地。這使得攝影師或設計師(尤其是剛起步的人)更容易實現一個概念或展示一件新衣服,且無需高額的前期投資。

在其他領域,GAN被用於任何存在視覺模式的地方。他們可以在天文學領域模擬暗物質;利用2D照片生成物體的3D模型;為電子遊戲創建虛擬房間和空間;展示一個人衰老之後的可能形象;甚至為癌症研究中生成新分子或蛋白質提供思路。


GAN的未來

在未來,GAN將變得更加強大。目前在視覺領域,GAN大多侷限於生成相對受限的、高度模式化的圖像,這些圖像中有大量的訓練數據可供提取。

人臉就是一個完美的例子——人與人的臉各有不同,但有也許多相同的基本屬性。世界上有60多億的真實人口,所以GAN的學習材料十分豐富(假設它的創建者有足夠的資源購買大型數據集)。

不過,隨著技術的進步,這些障礙將變得不那麼顯著。人們普遍認為,在未來三到五年內,GAN將發展到可以重新生成全新場景的地步,而不僅僅是臉部特寫。

例如,一個設計師可以說,“我想要一個女人走下樓梯、扶著欄杆、抬頭向後看的照片”,GAN便能夠創造出這樣的精確場景,且其細節的真實度堪比照片。

已經有案例開始探索這種未來了。

一個名為StackGAN的網絡已經可以對單個對象執行此操作,它能根據一隻鳥的外觀的文本描述生成虛假圖片。而另一個GAN已經可以根據汽車、人等等的粗略示意圖,生成一個相當好的(可能甚至是完美的)街道場景。

圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非

圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非

​圖注:這個GAN可以從一組粗略的視覺指令中生成半真實的街景。

顯然,隨著這些技術的進步,它們可以取代攝影、電影製作、室內設計或任何其他依賴視覺媒體的領域

這些行業的人們應該選擇立即尋找新工作,還是應該選擇冒著被一個GAN取代的風險?所有的視覺藝術都會被機器所取代嗎?


回到未來

在我們完全驚慌失措之前,我們得趕緊停下想一想,其實在一個領域已經具備類似GAN的屬性及最終產品。

在這個領域裡,有人對他們所見過的數百萬人、地方或物體的記憶進行研究,他們進行大量訓練,有時要面對嚴厲或狡猾的批評者。在某些情況下,它們還需要理解對所需場景或概念的文本描述,然後利用一些工具創造一個全新的圖像。

這一圖像可以在一個全新的環境中展現一個已知的人,或者可以在一個實際上不存在的場景中展現一個想象出來的人。

這一領域就叫做“插畫”。

插畫家、動畫師和計算機生成影像(computer-generated imagery,下稱CGI)藝術家每天都和GAN做著同樣的事情——他們的全部工作就是想象新的場景、人物和地點,並將它們生動地呈現在網頁或熒幕上。

在許多情況下,他們的創作都是極其逼真的——特別是在如今,人們往往無法將CGI作品與真實的場景或演員區分開來。

如果將GAN視作一種插畫工具,而非一個全新的威脅,它就不那麼可怕了。當然,它們使生成插畫的過程更容易,而且使成果更逼真(取決於具體插圖畫家或動畫師的技能)。歸根到底,GAN並不是在做什麼全新的工作;他們只是將深度學習應用到一個古老的藝術概念上——這個概念可以追溯到第一個在洞穴牆上畫水牛的人類。

將GAN視為一種插畫工具也解決了許多相關法律問題。法院一貫裁定,CGI創作的作品有資格獲得版權保護,因為它們是通過人類操作者的創意決策而產生的。

而且,CGI工具也並不總是起決定性作用——它們要麼從人類那裡獲取指令,在關鍵幀(keyframe)之間墨守成規地“填充”動畫;要麼生成新的序列,無需設計者直接建模。

沒有人會爭辯說,因為一個動畫師利用圖形視頻處理軟件After Effects填充了關鍵幀之間的一些動作,或者在線框圖(wireframe)中添加了紋理和燈光,她就不應該享有她電影的版權保護。一件作品中,真正重要的是她的創意選擇,以及這些選擇是如何創作出最終產品的。

GAN的情況也是相似的:它們可以想象新的場景,但如果要產生有效輸出,GAN仍然需要人類來指導它們具體生成什麼。即使是隨機生成人臉,GAN仍然需要人類的輸入和指令來決定哪些人臉是可信的,哪些是適合某個特定的創造性項目的,等等。

提供這個指令本身就是一項創意操作,因此其理應能夠產生版權。在許多情況下,GAN產生的結果並不完美,它們仍然需要人類的幫助才能產生有用的成果。

以本文開頭的照片為例:這位女士乍一看很逼真,但請你仔細看一看,她的耳朵怎麼了?

那是耳環嗎?還是一點髒東西?基礎的圖像看起來是不錯,但它受益於(稍微)熟練的人類操作員的善後和調整。所有這些調整和選擇都是創意行為,能將GAN的原始輸出轉化為可用和令人信服的說明性材料。


GAN何去何從?

生成式對抗網絡提出了一些社會需要繼續思考和探索的重大問題。對於這些技術的濫用——用於換臉和露骨內容——令人不安,這正是監管機構應該儘早解決的問題。

不過,與此同時,社會方面也應該謹慎,不要在監管這些新技術方面干涉過多,從而扼殺對它們的積極應用。

雖然GAN的作品可能會讓人害怕——甚至是令人毛骨悚然——但GAN也有可能徹底改變許多視覺藝術,使時尚和攝影更豐富,幫助藥物研發,以及解決各種迄今尚未想象到的問題。現有的插畫領域為我們著手解決有關GAN及其影響的問題提供了一個法律和倫理框架。

虛假人像照片可能很可怕,但它們不會消失。作為一個社會,我們需要承認它們的威脅,但也要擁抱它們帶來的益處。在照片上的笑臉中,已經們背後的GAN中,也存在著一種機遇,這項技術可能會為那些設想照片真實存在的人們帶來長久的的利益。

圖中不是個真的人,但她真的是個威脅:機器生成圖片是與非


分享到:


相關文章: