新版灵犬上线,今日头条结合技术和人工合力反低俗

 7月30日,今日头条宣布正式推出新版灵犬反低俗助手(以下简称“灵犬”),同时支持图片和文本识别。新版灵犬上线后,今日头条将结合技术审核和人工审核共同打击低俗低质内容。

字节跳动人工智能实验室总监王长虎介绍,不同于文本识别,图片识别的技术难度较大。一些技术难以搞定的问题,现阶段还有赖于人工判断。比如技术暂时难以制定标准的案例:世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是 低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。

  此外也有一些因为使用场景、人群不同而导致标准变动的案例:内衣和内衣模特出现在购物平台上,会被默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;正常的热舞内容,提供给成年人看,符合常规标准,但如果开启了青少年模式,这些内容就不应该出现。

  王长虎说,针对低俗判断问题的复杂性和不同判断方式的局限性,一方面需要不断进化技术模型,一方面需要有效结合技术和人工判断两种方式。

  当前“灵犬”建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程,持续做优化。

  据了解,此前一年时间内,“灵犬”已陆续完成两次迭代。2018年3月28日,今日头条首次上线“灵犬”,支持检测文字和文章链接。2018年5月16日,“灵犬”完成服务能力升级,增加反 短文本模型和反谩骂模型,将准确率从73%提升至82%。2019年2月20日,“灵犬2.0”正式上线,除了反 低俗,加入反暴力谩骂和反标题党模型,覆盖了主要的低俗低质内容类型,整体识别准确率接近85%。

  此次是灵犬的第三次迭代。在文本识别领域,新版“灵犬”同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。


分享到:


相關文章: