百度研究院的AI“剪輯師”上崗了

百度研究院的AI“剪輯師”上崗了

圖片來源@Unsplash

近日,百度研究院推出了一個“黑科技”平臺VidPress,可以用AI一鍵完成短視頻剪輯。這是百度研究院孵化的業內首個支撐通用型、能夠大規模生產的智能視頻合成平臺。

據悉,用戶僅需一鍵輸入新聞的圖文內容鏈接,其餘工作可由VidPress平臺自動完成。自動化完成的步驟包括智能化的聚合視頻素材、生成解說詞、進行語音合成和音視頻對齊等工序。包括渲染導出在內,整套製作流程能夠在9分鐘以內完成,從發現熱點到最終生成視頻完成自動化。

該技術已經在百度旗下短視頻平臺好看視頻上獲得大量應用。根據好看視頻使用數據, 目前生成一個清晰度為720p、時長2分鐘左右的視頻,所需時長的中位數為2.5分鐘。平臺每天可以生產500到1000條視頻。

百度研究院的AI“剪辑师”上岗了

百度研究院數據顯示,VidPress所生成的視頻播放完成率比好看視頻的大盤高出15%,其中一些熱門視頻已經有了85萬的播放量。

AI“剪刀手”如何誕生?

在具體的操作上,第一個環節是素材的收集整理。用戶輸入圖文內容後, 例如輸入某條新聞事件的鏈接,平臺將基於NLP模型進行語義理解, 並通過主體模型聚合相關新聞素材,以及從同一主題相關新聞裡抽取更多的素材及其語義表徵,以此保證素材內容相關且豐富。

第二個環節,是語音生成解說詞,以及進行素材的深度挖掘與整理。

一方面,平臺基於多種語言模型對原文進行處理,自動生成一篇字數符合要求且適合視頻呈現的解說詞,並通過百度文字轉音頻服務(TTS)合成解說詞語音。

與此同時, 平臺會根據對原文的理解, 通過自有視頻庫和百度全網搜索,對最新最適合呈現的內容進行聚合。利用人臉識別、物體識別、視頻內容理解等計算機視覺服務技術進行解析,完成視頻素材的剪切組合。

上述兩個步驟完成後,平臺將基於解說詞的音軌時間軸和所聚合的媒體片段,進入音視頻對齊剪輯過程。

此處應用的時間軸對齊算法,能夠選取出文本中的興趣點, 再將媒體片段與興趣點進行相關度打分,將優質媒體片段優先放入時間軸,希望以此引發用戶的興趣。在時間軸生成完畢後,數據將轉交給渲染器生成完整視頻,整合過程耗時可以保證在9分鐘以內。

“一鍵式“操作行不行?

對於AI剪視頻功能,鈦媒體也在第一時間進行了體驗。

如圖,用戶需要輸入文章鏈接,鏈接目前僅支持百家號文章,建議是娛樂類內容。用戶可以自行選擇發音類型和視頻時長。

百度研究院的AI“剪辑师”上岗了

圖文生成視頻界面

鈦媒體以《誰來保衛我們的白衣天使?》一文為例進行了體驗。以下為百度AI生成的視頻新聞:

如視頻所示,視頻解說詞由AI自動生成,雖然內容上有些不連貫,但基本選取了文章中的關鍵內容,能夠看出文章的大體脈絡。

在使用體驗上,該產品更多針對的是新媒體小白用戶,可以實現“傻瓜式”操作,相對比較友好。新聞體裁上,該產品更適合快訊型視頻新聞,可以一定程度上減少人力和時間成本。

但另一方面,由於強調AI全自動剪輯,全部視頻內容均由AI自動組合,用戶無法對內容進行修改和編輯,因此也存在很大的侷限性。如果在視頻生成前,VidPress可以給用戶權限進行修改和編輯,那在剪輯產品中可能會更有競爭力。

除此以外,素材的版權問題也存在隱憂。該平臺抓取的素材來源於百度自有視頻庫和百度搜索引擎,而搜索引擎裡的內容百度並非都有版權。特別是在用戶提供的鏈接內容信息量不夠時,AI就會更依賴外部抓取,其中不僅有素材,還有成品。

在鈦媒體體驗過程中,也出現了AI自動抓取到一些視頻自媒體原創作品的情況。顯然,想要做全自動化的AI視頻剪輯,版權問題也不可小覷。

當前,VidPress仍然是個基礎版。百度方面表示,AI新聞視頻還存在很多可能性。例如,可以針對不同垂直分類或投放渠道進行定製合成,又或者是針對用戶特點進行視頻定製等等。

(本文首發鈦媒體,作者/蘆依,編輯/宇航,鈦媒體編輯Yitao對本文亦有貢獻)


分享到:


相關文章: