擁抱短視頻,可能是最近自媒體圈中最為流行的關鍵詞。
單是微信視頻號的灰度測試,就讓媒體圈重度地震,原本隱藏在文字背後的“中年大叔”們勇敢出鏡,試圖抓住新生的機會窗口。和媒體朋友們日常聊天的話題,也不自覺地拐向了短視頻,有人購置了專業的影像設備,有人連忙招聘熟悉視頻剪輯的助理……
於是當百度研究院推出AI合成短視頻平臺VidPress的消息傳出後,媒體圈裡再次炸開了鍋,排著隊通過百度創作大腦進行測試申請,爭先將自己剛剛寫就的深度文轉化為有聲有色的短視頻。畢竟VidPress的“果子”不可謂不誘人,只要輸入一個圖文內容的鏈接,就能自動生成相應的視頻內容,極大地節約了成本和心力。
一番嚐鮮後,有人給了VidPress高分評價,也有人對效果的不滿意而詬病。鑑於兩種或贊或罵的態度,這裡分享一下個人對VidPress的思考,到底是理想又一次敗給了現實,還是一開始就期許過高?
01 智能化內容生產的原理
VidPress詮釋的視頻生產方式,足以用“智能”一詞來形容。
用戶輸入圖文內容的鏈接後,VidPress將在9分鐘的時間內完成視頻素材的聚合、解說詞生成、語音合成、音視頻對齊和渲染導出等一連串的“騷操作”,平均每天可以生產500到1000條視頻,妥妥秒殺了整條街的“剪刀手”。
這樣的內容生產方式誇張嗎?不妨先來看看“黑魔法”背後的技術原理。
整個內容生產過程可以分為三個環節:
第一個環節是音頻內容的生成,平臺基於多種語言模型對圖文內容的文字部分進行處理,然後自動生成一篇字數符合要求且適合視頻呈現的解說詞,再通過文字轉音頻服務(TTS)合成解說詞語音;
同步進行的環節是視頻內容的生成,平臺會對圖文內容進行語義理解,根據文章內容自動搜索相關素材,再通過計算機視覺技術對素材進行分析和理解,然後精選出合適的素材進行智能剪輯合成;
最後一個環節是音視頻的對齊,這就涉及到百度的第二代時間軸對齊算法,選取文本中的興趣點,再將視頻片段與興趣點的相關度進行打分,優質的視頻片段將優先放入時間軸,最終進行渲染輸出。
對於熟悉百度技術體系或產品體系的朋友來說,恐怕不會驚訝VidPress的存在邏輯。單是百度大腦已經對外開放的技能中,諸如自然語言理解、語音合成、計算機視覺相關的技能就佔了不小的比重。聚焦到產品上,小度智能音箱的語音問答、動態播報、人臉識別等等,都不難在VidPress找到相似的技術。
只是短視頻內容的生產從來都不是純粹的技術工作,素材、創意、選題等都影響著最後的視頻質量。VidPress的價值在於利用算法和模型降低了素材蒐集、整理、匹配、剪輯的時間成本,與當下大多數落地應用的人工智能產品相似,尚未實現取代人工甚至完勝人工的智能化程度。
也就是說,現階段的VidPress還只是輔助人工合成視頻,降低了短視頻剪輯的門檻和成本,本質上是為內容生產提供了新的思路。
02 視頻合成中的制約因素
有些遺憾的是,不少媒體朋友看到新聞後對VidPress進行了測試,然後出現了一些負面的過度解讀。
為什麼會出現視頻合成效果不盡如意的現象?還是要回到視頻內容生成的環節。就技術層面來說,素材的智能識別、匹配、剪輯等過程已經沒有太大的技術瓶頸,問題恰恰出在了內容素材的廣度上。
畢竟現階段的人工智能遠未達到自主生產視頻內容的程度,VidPress也需要對網上的內容進行搜索匹配,扮演了內容“搬運工”的角色。對應的一幕就是:在科技、娛樂、軍事等內容素材豐富的領域,VidPress的表現不乏可圈可點之處,也不難看到一些精彩的視頻案例;在一些新聞素材比較少的冷門領域,合成視頻的效果也就打了折扣。
舉兩個通俗易懂的例子。
倘若你上傳的是娛樂圈和某明星相關的內容,不難在網上搜羅出豐富的素材,畢竟可以找到海量的電影、電視劇、綜藝等資源,VidPress可以在人臉識別算法、時間軸對齊算法的基礎上,對素材內容進行精準識別、匹配、合成,內容豐富度和流暢度上恐怕不輸於專業的視頻剪輯團隊。
如果圖文內容屬於情感、公益、社會相關的冷門內容,話題本身就比較寬泛,其中還有較大比重的敏感內容,可以使用的內容素材也就相對有限,導致平臺可以聚合的內容素材數量偏低,即便技術和算法進一步優化,也難逃“巧婦難為無米之炊”的困境。
歸根結底,內容素材的豐富度才是VidPress場景應用時的制約因素。
同時需要思考的恰恰是我們對內容生產的態度,VidPress的基本價值在於工具,提供了一種有別於傳統人工的視頻合成思路,降低了視頻內容生產的難度值。可對於媒體人來說,仍然需要躬身打磨內容輸出有價值的觀點,繼而利用VidPress實現價值的最大化,畢竟視頻只是傳播的載體,優質內容永遠是話語權的關鍵。
或許對VidPress也是一種啟示,經過了前期的試錯後,還需要對產品的定位進行調整,比如在定製化與垂直品類上增加力度,在適用場景上進行選擇,儘可能避開小眾內容在素材上的限制,打造通用的解決方案。
03 未來可能的產品方向
站在百度的立場上,在短視頻的風口期推出AI合成短視頻平臺,恐怕不是為了秀技術吸引眼球。
從圖文到短視頻再到直播,內容的傳播方式越來越多元化,但在傳播載體不斷進化的時候,內容的生產方式似乎有些陳舊。從博客時代到公眾號時代,從長視頻時代到短視頻時代,內容的表達越來越個性化,可內容生產一直是“笨拙”的人工。
內容傳播載體的進化製造了一個又一個風口,當內容創作方式同步進化時,卻可能改變一個時代,所能創造的想象空間同樣不可小覷。截止到目前,VidPress還處於小批量免費試用的階段,與百度內部人士進行溝通後發現,等待VidPress可能會有工具和平臺兩種產品方向。
從工具的方向來看,VidPress大概率會以SaaS服務的形態存在,可以在百度智能雲上部署運營,也可以進行私有化部署。前一種可以服務大部分內容創作者,提供視頻快速剪輯合成的線上工具,並且可以與內容版權方進行跨界合作,為創作者提供一站式的視頻內容生產服務;後一種則是將能力賦予專業化的內容團隊,以人工智能的技術優勢幫助創作團隊提升效率、降低成本。
從平臺的方向上看,VidPress將在現有工具屬性的基礎上,與百家號、好看視頻、百度聯盟等內容生態打通,形成視頻內容生產、分發、變現的完整產業鏈。只是生態化佈局的前提是解決內容版權的侷限,當前VidPress還僅是邀請測試,並不涉及商業用途,正式開放後就需要百度提供免費的版權視頻庫,與一些第三方視頻版權庫合作,並設計出一套按需付費的商業模式。
當然,上述的種種可能只是猜測,最終的產品演化方向還要靠百度的產品經理們給出回答。但這樣的產品出現,對媒體的影響要遠大於某個內容平臺的崛起,我們不僅要思考下一波流量在哪裡,還需要深入思索自身的核心競爭力在哪裡,如何與人工智能進行分工協同,在未來的內容生態中準確找到自身的定位。
幾乎可以篤定,傳統純消耗腦力和時間的內容生產終將被被顛覆,卻也是VidPress的第二代或者第三代產品的使命,現階段還有些“稚嫩”。
04 寫在最後
相較於被下一個風口拋棄的焦慮,不妨多花點時間思考內容消費的內在邏輯:當一個熱點出現時,需要多維度的觀察的報道,需要讓受眾客觀的瞭解事件的始末,也就需要多種不同的聲音。輸出有價值的信息,可以說是內容創作最基本的競爭力,剩下的無非是基於成本、效率和用戶口味的權衡。
VidPress試圖呈現的正是降低“發聲”的門檻,推動互聯網內容的多樣性。只是現階段還要先延遲一些期待,靜待VidPress後續的能力輸出。
閱讀更多 Alter聊科技 的文章