全球首個“AI合成主播”在中國發布!

最近有一條新聞很熱門,在今年的烏鎮互聯網大會上,搜狗與新華社聯合推出了全球首個「AI合成主播」。

BBC、CNN 等全球權威媒體紛紛報道,在 Youtube 上也有視頻新聞,標題叫 《China reveals world’s first AI anchor》(全球第一個AI主播在中國亮相),視頻下面有很多討論。

全球首個“AI合成主播”在中國發布!

摘取兩個權威媒體的評價。

CNET的報道是:「搜狗技術支撐,新華社亮相了新主播,不細看不知道不是真人。」

Theverge 的評價是:「AI開始進入官方新聞播報這樣的場景,說明技術已不是早期階段了。」

值得自豪的是,在 AI 技術上佔據領先優勢的互聯網巨頭,基本集中在中國和美國。

要說最廣為人知的 AI 主播,那就是在 Youtube 上有兩百多萬粉絲的愛醬 Kizuna AI。但仔細對比下愛醬和搜狗 AI 合成主播,兩者的技術差距還是挺大的,搜狗的技術要比愛醬的團隊強很多。

全球首個“AI合成主播”在中國發布!

愛醬是一個卡通形象的虛擬主播,她的視頻是靠真人動作捕捉+ 真人CV 配音來完成的。愛醬的每一條視頻,都是由幕後工作人員做好動作,請聲優錄好音頻,再用技術合成。每條視頻都需要投入時間和人力。

而搜狗 AI 合成主播,背後是一套可批量複製的方案。

不同於愛醬的卡通形式,搜狗AI合成主播背後的技術,是利用技術在屏幕上還原真人。具體點說,採集完真人主播的表情、聲音等數據後,只需要輸入新聞的文本,屏幕上就能實時播報新聞。和真人主播相比,搜狗 AI 合成主播能二十四小時不休止的工作,播報新聞更有時效性。

有人會說, AI 合成主播是不是很讓人出戏?從實際觀感來說,搜狗AI 合成主播和真人主播的相似度很高,觀眾可以接受。

下圖左邊是真人主播,右邊是 AI 合成主播,兩者在音色、語調、表情、唇形上都一致。

全球首個“AI合成主播”在中國發布!

為什麼要讓 AI 主播的唇形和麵部表情和真人吻合?這要說到著名的「恐怖谷理論」——用技術模擬人類,人類自然就會對其非常反感。只有當技術成熟到能以假亂真,才能成功跨越恐怖谷效應。

關於恐怖谷效應,典型的失敗案例是《爵跡》電影,成功案例是電影《速度與激情7》。

和《爵跡》相比,AI 合成主播因為擬合度足夠高,所以成功跨越了恐怖谷效應,達到了非常逼真的程度。

訊飛也弄了個 AI 主播,聲稱比搜狗更早一點,但我找來視頻看了下訊飛的技術,僅僅是讓攝像頭捕捉真人臉部特徵,隨著真人的神情動作,在屏幕上還原出一段 3D 虛擬形象的動畫而已。說到底,還是需要真人主播在幕後工作,這樣的技術方案沒啥應用價值。

相比之下,搜狗的 AI 合成主播,實現難度和應用價值都高很多。

先說技術難度。舉個例子,表情合成涉及到計算機視覺技術。查閱資料發現,搜狗在這個領域投入了很多,才做到如今的水平。前不久的 MegaFace 人臉識別競賽,搜狗圖像技術團隊 Face Identification(人臉識別)任務中,以 99.939% 的識別準確率斬獲大賽第一名。

再說應用前景。搜狗 AI 合成主播的意義不侷限於播報新聞,有了這套技術,只需要使用少量的用戶音視頻數據,就能快速定製逼真的分身模型,成本低,並且可定製化服務。

當技術上做到足夠逼真,而成本又很低廉時,這種基於 AI 的多模態合成技術,可以服務於很多民用領域。比如說客服,現在大量的智能語音客服,背後其實都是 AI。AI 語音客服的不足是隻聞其聲,不見其人。如果有了搜狗的這套技術,也許視頻客服會興起——品牌簽約明星成為其客服形象,技術讀取其聲音、表情、唇形特徵,實時合成出 AI 客服和用戶視頻溝通。想象一下,林志玲或者吳彥祖耐心回覆問題的場景,還是挺酷炫的哈哈。

隨著 AI 技術的不斷髮展,在各領域充當虛擬助手的角色,會逐漸把人類從重複性的工作中解放出來。到那時,人類主要負責監控 AI 助手,為其提供數據原型,提升它的工作效率。正如以往的工業革命一樣,隨著技術發展和生產力的提升,人類會有更多的時間用於創造富有價值的事情和享受生活。


分享到:


相關文章: