新版靈犬上線,今日頭條結合技術和人工合力反低俗

 7月30日,今日頭條宣佈正式推出新版靈犬反低俗助手(以下簡稱“靈犬”),同時支持圖片和文本識別。新版靈犬上線後,今日頭條將結合技術審核和人工審核共同打擊低俗低質內容。

字節跳動人工智能實驗室總監王長虎介紹,不同於文本識別,圖片識別的技術難度較大。一些技術難以搞定的問題,現階段還有賴於人工判斷。比如技術暫時難以制定標準的案例:世界名畫中常常出現裸體女子,如果完全交由機器判斷,機器通過識別畫中人物的皮膚裸露面積,就會認為這幅畫是 低俗的;而某些拍攝芭蕾舞的圖片,以機器的視角來看,其實類似於裙底偷拍。

  此外也有一些因為使用場景、人群不同而導致標準變動的案例:內衣和內衣模特出現在購物平臺上,會被默認為正常,但如果頻繁出現在新聞資訊平臺上,就可能被認為有低俗嫌疑;正常的熱舞內容,提供給成年人看,符合常規標準,但如果開啟了青少年模式,這些內容就不應該出現。

  王長虎說,針對低俗判斷問題的複雜性和不同判斷方式的侷限性,一方面需要不斷進化技術模型,一方面需要有效結合技術和人工判斷兩種方式。

  當前“靈犬”建設了比較完善的模型迭代系統。通過“數據收集—數據標註—數據清洗—模型訓練—模型評估—badcase分析”這一套完整的流程,持續做優化。

  據瞭解,此前一年時間內,“靈犬”已陸續完成兩次迭代。2018年3月28日,今日頭條首次上線“靈犬”,支持檢測文字和文章鏈接。2018年5月16日,“靈犬”完成服務能力升級,增加反 短文本模型和反謾罵模型,將準確率從73%提升至82%。2019年2月20日,“靈犬2.0”正式上線,除了反 低俗,加入反暴力謾罵和反標題黨模型,覆蓋了主要的低俗低質內容類型,整體識別準確率接近85%。

  此次是靈犬的第三次迭代。在文本識別領域,新版“靈犬”同時應用了“Bert”和半監督技術,訓練數據集包含920萬個樣本,準確率提升至91%。在圖片識別領域,“靈犬”採用深度學習作為解決方案,在數據、模型、計算力等方面均做了針對性優化。


分享到:


相關文章: