12.03 給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

郭一璞 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

看圖,永遠比看字省事。

比如說,相比看文字版小說,看小說改編的漫畫更簡單輕鬆。

那麼,如何把一段故事自動變成漫畫呢?

AI已經可以做到了。給它一段故事,它就可以用圖片把故事講出來,稍加修改,就變成了一套連環畫。

像這樣的一段故事:

很久以前, 有個小男孩在森林裡迷路了, 他走了好久, 都走餓了, 他很想吃媽媽做的餅, 可這時候小男孩回不去呀, 於是他就在地上畫了一個大大的餅, 還在餅上點 上芝麻。


小男孩看著看著, 好像自己已經吃上了大餅, 於是他覺得自己不是很餓了, 重新站起來沿著一條小路走.。


很快, 小男孩的爸媽就找到了他, 他們一起回到家, 吃上了真正香噴噴的餅。

AI可以把它變成這樣的漫畫:

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

而且,這種漫畫形式還可以在電影工業中充當故事板,輔助電影人們進行藝術創作。

找到能講故事的圖

那麼這個過程是怎樣實現的呢?

首先要說明一點,這些圖片並不是AI憑空畫的,而是採取了一種更簡單省事的方法:

從現成的圖庫裡找出一些構圖相似的,拿來改一改

這裡的圖庫,叫做GraphMovie數據集,數據來源是一些影評網站。

但是數據集裡的圖很多,怎麼才能用AI自動的找出最符合你故事的圖片呢?

這裡用到了一個模型,叫做情景感知密集匹配模型(Contextual-Aware Dense Matching model,CADM)

它長這樣:

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

根據故事的內容,CADM找到了這樣的一些圖像:

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

另外,還有一個模型叫做No Context,它是此前“看字找圖”這個領域中表現最好的AI。

No Context也找了一些圖像出來:

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

不過,圖還是有點少,人家好歹也是個完整的故事,你總不能拿這麼幾張圖就講完,這樣故事沒有細節,讀者的體驗也不好。

現在,請出第三個模型:貪婪解碼算法,它負責根據故事裡的細節,再找找能用上的圖。

讓它出馬來補一補之後,故事立馬就完整了:

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

把圖片的畫風統一

不過,就這樣的效果,你會看得糊里糊塗,好像並不能傳達出前面文本里的故事。

問題出在哪兒呢?

第一個問題是,圖片裡有許多背景、環境等相關元素,跟故事主線毫無關係,看到它還會影響你對故事的理解。

需要把這些冗餘元素刪掉,這裡用到了何愷明的成名作Mask R-CNN,進行區域分割,刪掉圖片中和故事不相關的部分。

現在,這些圖片長這樣:

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

第二個問題,這些圖片的畫風實在是差異太大了,把這樣的漫畫拿出去,會被讀者打的。

所以,需要把圖片的樣式統一起來,這裡用到了一個工具CartoonGAN,從字面意思就可以理解,這是一個讓圖片變成卡通風格的GAN(生成對抗網絡)。

在卡通GAN處理之後,這組圖片變成了這樣:

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

似乎好了一些,但是還有一個大bug:這些人長得不一樣呀!你說他們是同一個故事的主角,打死我也不信。

於是,第三個問題來了,怎麼才能讓這些人都長成一個樣?

這裡,研究者們直接找了一個軟件,叫做Autodesk Maya,是一個在電影裡處理3D圖像的軟件,靠它製作出3D的場景、人物和道具,用半手動的方式把9張圖片裡的人全變成一個樣。

不過論文作者表示,未來這個製作3D圖像的過程有望全自動生成。

這一頓操作,是真的猛如虎,9張八竿子打不著邊的圖,現在畫風一致、故事流暢,甚至還補充了背景和美化。

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

在電影工業中有大用途

其實,這樣生成的“漫畫”並不是最終結果。

它其實是用來拍電影的。

拍電影的準備過程中,需要一個Demo叫做“故事板(storyboard)”。

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

藉助故事板,電影人在創作的過程中就可以先改Demo,定下來之後再完成成品,把撕逼的過程放在前面,防止做完之後甲方爸爸再提修改意見,導致工作量急劇提升。

因此,像這篇論文裡這樣,自動生成故事板,就可以節約電影人的許多時間,提高創作者們的生產效率。

人大博士出品

這篇論文的作者團隊非常龐大,一共9位作者,分別來自中國人民大學、微軟和北京電影學院。

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

一作陳師哲目前在人大讀到了博士五年級,也是曾在微軟小冰團隊實習,還曾經赴CMU和阿德萊德大學訪學。

她也是一位學術達人,僅僅今年一年,包括這篇論文在內就已經發了三篇頂會一作。

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

另外,微軟小冰團隊首席科學家宋睿華也參與到了這項研究中。

給AI一段故事,就能變成漫畫,技術來自人大微軟和北影

宋睿華博士畢業於清華大學,長期研究短文本對話與生成、信息檢索與提取等領域,曾擔任SIGIR、SIGKDD、CIKM、WWW、WSDM等會議的程序主席或高級程序主席。

傳送門

Neural Storyboard Artist: Visualizing Stories with Coherent Image Sequences
作者:Shizhe Chen, Bei Liu, Jianlong Fu, Ruihua Song, Qin Jin, Pingping Lin, Xiaoyu Qi, Chunting Wang, Jin Zhou
https://arxiv.org/abs/1911.10460v1

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: