05.24 百度在AI时代的数据解决方案

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。

人工智能行业现状

1、人工智能进入公众视野

百度在AI时代的数据解决方案

人工智能的强大能力已被证明

2、人工智能大事记

事件一:AlphaGo3:0战胜柯洁,DeepMind 创始人宣布 AlphaGo“退役”围棋界再无敌手之后,Algphgo的下 一个目标是“征服”哪里?

事件二:百度All in AI,发布了 DuerOS 和 开源自动驾驶系统Apollo,All in AI表明了决心,也为百度贴上 了一个新标签——“人工智能公司”。

事件三:国务院印发新一代人工智能发展规划中国将人工智能上升为国家战略《规划》提出了六方面的重点任务和 一系列保障措施,国家层面为AI奠定 好的基调。

事件四:NVIDIA发布地表最强 GPU:PCI-E Tesla V100,只需要几张V100的算力就能够与当前的各国精心打造的超级计算机的算力相当。

事件五:类人机器人Sophia亮相《早安英国》人工安卓智能机器人Sophia与她的发明人 David Hanson博士共同做客《早安英国》 节目,接受主持人的现场大拷问。

3、人工智能发展历程

百度在AI时代的数据解决方案

4、人工智能爆发的三大因素

算法是核心,计算、数据是基础。

百度在AI时代的数据解决方案

数据之于人工智能

1、海量、精准、高质量的数据是人工智能的根本

数据是一切人工智能技术和应用实现的基础保障和前提!

百度在AI时代的数据解决方案

技术层级

百度在AI时代的数据解决方案

数据种类

2、数据样本与算法模型

百度在AI时代的数据解决方案

人工智能需要通过大量的数据样本来“训练”自己,才能不断提升输出结果的质量。

3、有时候,数据真的可以秒杀算法

有时候谁能够取胜,并不取决于谁拥有更好的算法模型,而是看谁掌握着

更多、更好的数据资源。

百度在AI时代的数据解决方案

百度在AI时代的数据解决方案

4、快人一步抢占先机,数据竞赛“质&量”取胜

百度在AI时代的数据解决方案

人工智能基础数据面临的难题

1、项目“冷”启动的数据困扰

百度在AI时代的数据解决方案

2、获取和加工数据,AI基础数据的两大难题

百度在AI时代的数据解决方案

  • 如何采集:原属数据类型繁杂, 没有统一的采集标准,同一批 数据会出现多轮采集;
  • 谁来采集:线上数据可借助机 器采集,线下数据需要纯人工 采集,时间、经济成本大;
  • 如何加工:行业缺乏统一标准, 方法不一致,重复人力投入;
  • 谁来加工:机器难以完全胜任,人工处理花费大量人力、物力;
  • 质量如何保障:人工抽检,覆 盖面有限,准确率有瓶颈。

1、链条化AI数据加工厂,为AI发展保驾护航

百度在AI时代的数据解决方案

2、沉淀数据处理方法,建立数据处理规则

数据清洗:

  • 不完整数据
  • 错误数据
  • 冗余数据
  • 数据标签化
  • 垂类数据

数据评估:

  • 相关性评估
  • 时效性评估
  • 竞品评估
  • 互联网,社交网络舆情
  • 电子商务评论

数据内容获取:

  • 关键词提取
  • 网页内容提取
  • 图片内容提取(OCR 识别,人脸识别,物 体识别等)

特殊信息处理:

  • 地图信息制作
  • 语音转写
  • 其他数据标注

3、固化数据处理工具——通用图片检测

通用图片检测类型涵盖商品、动物、植物、菜品、服装搭配、黄反、暴恐、 建筑、素材等多种垂类。

  • 多图 vs. 单图;
  • 图+参考文字/参考图/搜索页面/参考链接/预识别结果/特定内部参考页面;
  • 多题 vs. 单题;
  • 题目类型:单选/多选/多级菜单选择/填写
百度在AI时代的数据解决方案

百度在AI时代的数据解决方案

百度在AI时代的数据解决方案

4、标注工具——目标框选类

框选类能力涵盖: 普通矩形、分类矩形、普通多边形、分类多边形、区域填色、多级属性多边形、Parsing、点+线+区域复合检测。

百度在AI时代的数据解决方案

5、标注工具——内容评估

用户行为画像:对“兴趣偏好“属性进行策略优化,通过第三方人工标注,通过用户人工贡献评价, 评估策略优化后的标签准确率。

百度在AI时代的数据解决方案

百度在AI时代的数据解决方案

要素提取:依据客户要求对文字内容或槽位进行提取并定位具体属性。

百度在AI时代的数据解决方案

6、标注工具——图片&语音转写

  • 进行多种语言OCR文字转写
  • 进行多种口音的语音文字转写
百度在AI时代的数据解决方案

百度在AI时代的数据解决方案

百度在AI时代的数据解决方案

百度在AI时代的数据解决方案

7、多级质量管控,突破准确率瓶颈

百度在AI时代的数据解决方案

8、根据数据需求类型,覆盖更多实际应用场景

经过多年的数据积累,目前百度的人工智能数据仓库已经覆盖了超过5个大类,50多个小类别的实际人工智能模型数据集。

百度在AI时代的数据解决方案

典型人工智能应用场景

1、计算机视觉数据解决方案

百度在AI时代的数据解决方案

数据采集:根据实际计算机识别模型的要求,采集相应的图片、视频内容。

数据加工:将采集内容加工处理:标注关键点定位、提取特征信息打标签。

模型训练:将原始数据和特征标签数据提交到学习平台进行训练,提高识别精度。

识别反馈:进行多次的迭代训练,最终计算机给予相应的识别反馈信息。

2、计算机视觉应用下的数据方案

1)泰国车辆号牌数据

泰国车牌图像采集:

  • 采集泰国车辆正面号牌图像数据
  • 通过专业单反相机拍摄
  • 真实泰国车牌超过2万张

车辆号牌框选标注:

  • 十字坐标对车牌进行定位框选
  • 十字坐标对车牌字符进行框选
  • 对车牌字符按照泰文进行标注
百度在AI时代的数据解决方案

2)特殊场景人脸图像数据

特殊要求人脸图像采集:

  • 采集指定条件下的人脸图像照 片
  • 通过手机自带相机拍摄
  • 正常、暗光、微光多条件拍摄
  • 口罩、墨镜、帽子多遮挡条件 拍摄

人脸图像标注:

  • 人脸检测标注:人脸位置框选
  • 人脸关键点标注:人脸5点-72 点标注
百度在AI时代的数据解决方案

3、语音识别数据解决方案

百度在AI时代的数据解决方案

语音识别:唤醒词、中英文语料、 方言语音识别;

语义理解:多轮对话:上下文可随时打断,加入语境分析功能;

自然语言生成:机器翻译、实时同声传译;

语音合成:中文语音合成、中英文混合语音合成;

汉语方言语音数据采集:

  • 采集指定地区的汉语方言数据;
  • 通过手机自带麦克录制;
  • 四川话/上海话/湖南话等8种方言;
  • 安静/吵闹环境录制;

语音数据转写标注:

  • 中文方言、普通话;
  • 转写准确率98%;
百度在AI时代的数据解决方案

百度在AI时代的数据解决方案

百度在AI时代的数据解决方案


分享到:


相關文章: