真人主播危機?虛擬主播成市場新晉“網紅”

真人主播危機?虛擬主播成市場新晉“網紅”

在今年天貓雙十一預售日,李佳琦再次刷新了直播記錄,39款商品秒光,4個多小時累積突破3000萬圍觀。長達4小時的超負荷直播,也讓很多企業想到“虛擬主播”代替真人主播這一新的發展機遇。

2018年,搜狗和新華社聯合推出的全球首個AI合成主播的誕生,掀開了“AI+虛擬主播”的神秘面紗,一時間,嗅到“科技紅利”的市場各方開始蜂擁而上。2019央視網絡春晚推出AI虛擬主持人團隊,今年兩會期間,新華社推出AI虛擬主播“新小萌”,人民日報推出AI虛擬主播“小晴”。回看這兩年市場熱潮,總讓人有一種錯覺,彷彿回到了當初世界首個虛擬主持人誕生時。不過,相比當初“曇花一現”的虛擬主播,這次新增的“AI”元素,或許會為市場帶來更多的機會。

虛擬主持的誕生

真人主播危機?虛擬主播成市場新晉“網紅”

自工業革命起,以機器代替手工勞動就成了人類努力的方向。隨後,第一臺計算機的發明,讓機器開始升級為“人工智能”。步入互聯網時代後,“人工智能”更是加快了替代手工勞動的步伐,並從基礎的體力勞動層面漸漸轉向創意、創作層面。在這一時代,更是誕生了諸如曠視科技、商湯科技、依圖科技、雲從科技、極鏈科技這樣的優質初創人工智能企業。

早在2001年,英國PA New Media公司曾推出世界上第一個虛擬主持人阿娜諾娃,一個只有頭部的動畫,可根據新聞腳本快速製作視頻,並可24小時持續播報。此後,日本推出了寺井有紀,中國推出了小龍,美國推出了薇薇安,韓國推出了露西雅,市場上虛擬主播的地位一片欣欣向榮。但阿娜諾娃沒多久就退出了舞臺,曾經吹捧過她的媒體紛紛關閉舊欄目,開設新欄目,換上真人主持,好像阿娜諾娃從未出現過一樣。

直至今日,再回看當年的這波虛擬主持人熱潮,仍有幾點值得反思:

1.技術的成熟是產品出現的關鍵,但產品的成熟度如何,是由市場評判的。市場之所以會追捧虛擬主持人,根本目的是為了節省製作成本,提升製作效率。但早期的虛擬主持人,從整個製作過程來看,成本其實遠超聘請一位專業真人主持。

2.虛擬主持人具有行業特殊性,對語音、表情、肢體等都有很高的要求。相比其他行業,主持人最基本的要求就是口才。也就是說,虛擬主持人要達到與真人主持一樣的口才,語音識別和自然語言處理的準確率都要求極高。顯然在這方面,早期虛擬主持人還沒有這種技術。其次,要讓虛擬人物播報呈現出自然狀態,就必須解決口型匹配、表情匹配,乃至肢體動作匹配等問題。最後,在製作播報視頻時,一定要快、穩、準。新聞行業是一個極為注重時效性的行業,如果製作一個視頻就需要花費幾天乃至幾周的時間,那虛擬主持人取代真人主持顯然是偽命題。

3.虛擬主持人是否一定要像真人,這是在做產品之前必須明確好的方向。早期的虛擬主持人都格外在意“像真人”,似乎這是一條鐵律。這很大程度上,源自在當時環境下,主持人大多與新聞播報捆綁,像真人才更有可信度。但從長遠發展來看,“像真人”真的是必須的嗎?

合成技術原理

其實所謂的“像真人”,不外乎是運用“AI合成”技術。“虛擬主播”通過提取真人主播新聞播報視頻中的聲音、唇形、表情動作等特徵,運用語音、唇形、表情合成以及深度學習等技術聯合建模訓練而成。

該項技術要能夠將所輸入的中英文文本自動生成相應內容的視頻,並確保視頻中音頻和表情、唇動保持自然一致,展現與真人主播無異的信息傳達效果。但在此之前,出現在大眾媒體上的虛擬主播,多半隻有聲音,或者匹配一個量身定製的虛擬形象,比如微軟小冰在東方衛視擔任天氣預報員就是如此。

要實現這樣的效果,兩大要求缺一不可。其一是高逼真度。要能夠自動生成語音、表情、唇動等信息完全一致的自然視頻,並已達到商用級別。其二是低成本的個性化定製。小數據的學習模型,使用少量用戶真實音視頻數據,快速遷移生成虛擬的分身模型,快速定製出高逼真度的分身模型。最後,使用時輸入一段文本,即可生成與真人無異的同步音視頻。

除此之外,語音合成引擎和圖像生成引擎也是重要的兩點。在語音合成引擎中,基於用戶少量音頻數據,使用語音合成技術,快速學習用戶音色、韻律、情感等多維度特徵,建立輸入文本與輸出音頻信息的關聯。

圖像生成引擎,則是使用人臉識別、三維人臉重建、表情建模等技術對人臉表情動作進行特徵學習和建模,建立輸入文本、輸出音頻與輸出視覺信息的關聯映射,生成輸出分身視頻。

最後,兩大引擎協作打磨,最終才能實現“AI合成主播”,能夠逼真模擬人類說話的聲音、嘴唇動作和表情,並將三者自然匹配,做到惟妙惟肖,讓機器以更逼真自然的形象呈現在用戶面前。

小結:

和真人主播相比,“虛擬主播”能夠不知疲倦地工作24小時,同時還掌握多國語言,大大提升效率、降低成本。甚至寫好文字稿,“ 虛擬主播”就能即可播送了,還不會出現口誤或NG,更是讓個性化內容生成的門檻大為降低。娛樂、醫療健康、教育、法律等多個領域和場景,無一不適用。未來,這項技術或許在虛擬教師、虛擬醫生,虛擬客服等需要人類參與的內容表達場景,都能發揮出其價值。


分享到:


相關文章: