03.03 卷积神经网络真的完美无瑕吗?

喬-左傾90°


卷积神经网络(Convolutional Neural Networks, ConvNets or CNNs)是一种在图像识别与分类领域被证明特别有效的神经网络。随着近几年不断的发展与创新,卷积神经网络已经扩展出更多的功能。再次,简单列举几个方面:

1)分类任务classification

卷积神经网络最善长的就是完成分类任务,比如一张图片上是猫、还是狗、是飞机还是汽车。


2)检索任务(Retrieval)

我们在用淘宝购物的时候,其实就已经在使用这个功能了,比如说我们想买一条裙子,既可以在搜索栏搜关键字,也可以直接输入想要的款式,淘宝就会根据你提供的图片,检索出相似的款式推荐给你


3)检测任务(Detection)

检测任务要完成两个事情,一是检测图中的物体,也就是要用方框圈出图片中的多物体;二是要给出框出的物体的名称。检测任务包含了分类和回归两个过程。


4)分割任务(Segmentation)

图像语义分割的意思就是机器自动分割并识别出图像中的内容,比如在近年的自动驾驶技术中,就需要用到这种技术。利用车载摄像头探查到图像,传给后台计算机,使其自动将图像分割归类,以避让行人和车辆等障碍。

5)其他识别任务

此外,还有像认脸识别,现在苹果手机不是也推出了刷脸功能,支付宝也在开发刷脸支付,也就是说卷机神经网络能进行特征的提取。


类似的工作还有人体姿态检测,或者叫做关键点定位,这个功能可以用在视频文件的分类任务上。


6)图像与自然语言结合

近几年卷机神经网络也开始和循环神经网络RNN、LSTM等网络结果,输入一张图片,计算机就能用自然语言的形式告诉你图片都描述了什么。这一功能在跨媒体搜索领域中发挥作用,用文字搜图片,用图片搜文字等。


7)风格转移

最后,再介绍一个比较有意思的工作,风格转移就是将图像A的风格转换到图像B中去,得到新的图像,即包含了B的内容同时也有A的风格。



北航秦曾昌


当然不是,有很多问题。首先包括卷积神经网络在内的深度学习技术缺少严谨的数学理论支撑,导致深度技术主要依靠做实验来改进模型,存在盲目性;其次,卷积网在处理图像时容易被一些人眼观察不到的细微干扰影响,导致人眼观察几乎相同的图片,神经网络却会得到截然不同的分类结果。这个缺点导致卷积网可能会在特定条件下崩溃,缺乏稳定性,在cvpr2017论文集,以及深度学习鼻祖hinton近期论文capsule net中有相关论述。


分享到:


相關文章: