深度解析人工智能——机器学习、神经网络、深度学习

这是一个名词满天飞的时代。人工智能、机器学习、神经网络、深度学习等等词汇,先是在科技圈、慢慢的扩展到普罗大众的生活圈,铺天盖地的出现。

深度解析人工智能——机器学习、神经网络、深度学习

但相当多的人,甚至一些科技圈内非该领域的人士,面对这些词汇时,也是一头雾水,为了更好的理解,我们将逐一进行讨论。

Q1:铺天盖地的人工智能?到底啥是人工智能?

A:现阶段产品端能见到所谓的人工智能,绝大部分指的是机器与人之间拟人的交流方式,主要就是“听得见、听得懂,看得见、看得懂”,再进一步,就是好像还能“记点事儿”。其中“听得见”和“看得见”是硬件解决的,换句话说就是话筒和摄像头的事儿,所以智能主要体现在“听得懂”(语音识别+语义理解)和“看得懂”(图像识别)。大家经常看到的“机器学习”、“神经网络”、“深度学习”,都是解决这类问题的一些具体的算法。P.S.那篇很火的知乎问答《如何看待谷歌人工智能 AI 击败欧洲围棋冠军?》就提到了“神经网络”。

Q2:能解释一下刚刚提到的机器学习、神经网络、深度学习的名词吗?

A:按照便于大家理解但是并不严谨的方式来说,“机器学习”就是统计,在大量数据中统计出来一些具体的参数;“神经网络”简单说就是“分级优化”;“深度学习”是机器学习的一个分支,经常和神经网络一起出现,可以简单的理解为分级优化中每一级的内容都是

从数据中统计出来。这些名词我们放在具体的例子中就比较好理解了。

Q3:给我们讲讲语音识别?

A:我们先从语音交互的第一步,“语音识别”开始。(如图所示)声音从源头发出(声源),被话筒接收,转化成电信号。这个电信号放大来看,是一些连续的波形信号。我们把这个连续的信号截成一小段一小段的,每一小段通过一种方法转换成一小串数字,这样才能进行后面的处理。

深度解析人工智能——机器学习、神经网络、深度学习

转换的方法是这里面最重要的一步了。这套规则,可以是依据经验人为制定的,也可以是通过大量数据的统计,辅助制定和优化的。后面这种方法就是我们所谓的深度学习,我们放到图像识别里面讲,更好理解一些。

转换了以后就是一个与标准库比对的过程了。比如说,现在这个音,转换完以后是(前半音)XXX XXX XXX XXX +(后半音)YYY YYY YYY YYY,然后标准库里面A的发音对应特征值是XXY YYX XXX XXX+YYY YXX YYS YYZ,B的发音对应特征值是XXY YYY YYY YYY+YYX YYX XXX YYY,那我们就知道这个音与A更接近(75%),不太可能是B(17%)。

更高级一点,还可以根据先后顺序的关系进行匹配,比如按人类的语言习惯,A之后接B的概率更高,接K的概率很低,把这个概率算进去,准确率能进一步提升。

Q4:这个标准库怎么来?

A:比如说,你找100个人读1000次A,然后让机器把这每一个都转换成特征值,总的一起取个平均值,就出来A的标准库了。这个标准库是基于大量数据统计出来的结果(取平均值也是一种统计方法),这个过程就像是机器自己听了很多遍学会了一样,所以称为“机器学习”。除了读音,各种组合的前后关系,也都是统计出来的。

标准库的建立要尽量的复合实际场景,这样才能找出更符合使用场景的统计规律,从而达到更精准的识别。高大上的产品,比如说科大讯飞,多年的积累使得其可是支持多种方言,比如说出门问问,能支持几十个场景。说白了,这个是一个劳动量密集的体力活。大公司,钱多人多,可以做大而全;小公司,有限资金有限工作量,在有限场景下,用户感知不出来任何区别。

Q5:语音识别和语义理解是什么关系?

A:可以这么理解,所谓语音识别,是把音翻译成字和句;语义理解,则是针对句子,给予反馈。语义理解可以分为两种类型,一种是命令/数据索取式的,有明确答案的;一种是聊天式的,开放性答案的。

第一种,比如问:北京今天空气质量如何?答:空气指数356。这个回答与问题的对应关系,称之为“规则”。问同一个问题有比较多种问法,为了扩大每一个规则的适用范围,需要做一些语言结构的拆分重构,主谓宾定状补,灵活调整。

比如顺序的调换:北京今天空气质量如何?VS 今天北京空气质量如何?

比如替换同近义词:北京今天空气质量如何?VS 北京今天天气质量如何?

更进一步的,可以增加上下文理解。比如记住上一句话的内容,替换一个下一句话的词汇。

1层对话像这样:

问:今天深圳空气质量如何?答:空气指数135

问:湖南呢?答:空气指数356

更高级的还可以有2层对话:

问:帮我在深圳订一个今晚的酒店。答:好,在帮您预订

问:空气质量如何?答:空气指数135

问:湖南呢?答:空气指数356

Q6:那聊天式的呢?

A:这种问题的答案通常是开放式的,比如说,问“你在干嘛呢?”。

这种回答可以是事先人为设定好的规则,常见于一般的寒暄,用户会发现重复问机器人同样的问题,每次答案可能不同,比如“我在陪你聊天啊”、“不告诉你”、“你猜”等等,但问的次数多了就开始有重复了。

这种回答也可以是从巨大的真人对话库中进行搜索得来的,返回出现概率最大的回答。比如说,可以搜索同义的问题,如“你干啥呢?”,“你弄啥咧?”,然后发现排名最多的回答是“闲着”、“你猜”、“不告诉你”,那机器就会返回这些回答。

一般情况下,这两种方式在具体的产品中都会使用。具体到小冰,主要是使用的后者,对话库来源主要是在网络上爬取的(直接调用MSN信息可能会涉及隐私问题)。考虑到返回结果较随机,对其的二次理解较为困难,这类聊天机器人通常都是不含上下文理解的。

Q7:结合前面讲的语音识别一起总结一下?

A:语音识别,就是一个

积攒数据,进行统计的过程,一个劳动密集型的活儿。语义理解,不管是命令式的,还是聊天式的,除非可获取优质聊天记录资源(世界上有这样数据资源的公司就那么几家,当然我也见过有人花钱买人过来陪机器人聊天的),不然就是人工制定

规则的事儿,又是一个劳动密集型的活儿。工作量越大,机器人就显得越聪明。从公司维度来说,有限场景下,小公司深耕细作,有机会比大公司更好;大公司则能背靠资源,在更多场景下有所覆盖。

再用最精炼的话总结一下——多少人工,多少智能;就算聊天,也不智能。一般的壁垒就是工作量!语音是收集素材的工作量;语义是制定规则的工作量;在有限场景范围内,小公司在产品上比大公司没有劣势。

最后再提一句,机器学习 = 统计。

Q8:再说说图像识别?

A:嗯,我们先说最普通的图像识别是怎么做的。这里面我要盗用下Andrew Ng大神在UCLA的一次talk的PPT(视频截图)。

深度解析人工智能——机器学习、神经网络、深度学习

人类在看一个物体时,大部分情况其实主要是看它的轮廓(并不是颜色或其他),所以我们希望机器也这么做。拿摩托车举例。第一步,通过图像处理算法,把摩托车的轮廓提取出来(美图秀秀类图像处理工具都有这功能)。第二步,我们把一幅图分成四份,分别统计0°,45°,90°,135°四种的边的多少,然后把这些数字列在一起,我们称之为“特征值”。这个特征值里面包含很多的信息,比如说,右下角的图中一般都有轮子,轮子是圆形的,也就是说,各个方向的边,应该都存在且比例相当;而右上角的图中,一般都有把手,所以某一个方向的边会比较多。通过这些数字的内在的关系,机器进行摩托车的判别。这样的方法看起来有些简单粗暴不合理,但目前许多机器确实就是这么识别的。

Q9:这确实看起来有点….,那如果加上深度学习和神经网络呢?

用上深度学习和神经网络,那就彻底改观了。

仔细想一下,我们给别人介绍某人的长相时,很喜欢说,这个脸长得特别像谁谁谁,然后发型有点像谁谁。也就是说,人类是通过一些基本脸型的组合来认人的。数学一点来看,有几个基本脸,然后一个新的人脸,就可以被简化成一串数字,每个数字代表某一个基本脸所占比重。

深度解析人工智能——机器学习、神经网络、深度学习

那好,基本脸从哪里来?脸的基础单元是部位,部位的基础是边,形状,是各种边的组合。所以要认脸,先找基础边。这些边怎么找?之前摩托车的例子中,边是认为定义的(4种特殊角度)。人的设定,要么是偷懒,要么就是基于经验,而经验是大规模数据在人脑中统计之后得到的印象。如果换成机器自动做这个统计,那就叫机器学习。而这种由样本进行统计,一级一级的由简单的边开始,最终达到基本脸的机器学习(统计)过程,叫做深度学习。

具体来说,从左边第一张图,找到所有的边,再看第二张图,发现有些边重复的,就把这个关联变粗(用粗线表示,线越粗表示重复次数越多)。最终统计下来,有些边重复次数特别多,是重要的,就作为基础边。同样道理,我们从图中统计出来基础边的重要组合,就是基础部位,再深一层,就是基本脸。具体的运算过程会比较复杂,对应一种由节点(边、部位、脸)和节点间连线(粗细表示重要程度)的计算架构和相应算法,这个叫做神经网络。

Q10:总结一下图像识别吧?

A:图像和语音识别,核心都是特征值转换算法,即基础单元&数字表示。深度学习就是指基础单元库源于数据统计而非人为设定(合理,可解释);神经网络指的是一级一级分级优化,权重连接(最简化基础单元库),这两个通常一起出现,使得结果既合理又简单。

大型神经网络价格较贵,每一个节点都是通过高性能GPU或者工作站进行实现,几百万美金的投入也就能购买几千个节点,所以这是大公司的游戏。小公司通常采用多个小神经网络,虽然识别准确率会受到一定的影响,但是在不较真的应用场景,比如说家用的人脸识别,中小规模公司用的门禁识别等等,已经可以足够好到用户分辨不出来了。

Q11:能否整体总结一下人工智能?

A:人工智能,首先是能听懂看懂(识别)。这一是收集数据(工作量),二是精进算法(可人工凭经验,或者大数据做统计)。对小公司来说,主要是工作量。

再进一步是能反馈(对话),

除了天生有数据的以外,主要就是规则制定(工作量)和数据收集(工作量)。在比拼工作量的事情上,产品设计往往更为重要,该做什么不该做什么主要应该做什么,是小公司集中有限资源于一点突围的法宝。

再高一层,是有记忆。来过一次就记住你了,下次来直接就能叫出你名字;比如说你回家晚了,会主动的问候,这些都是产品设计的事情。

大数据人工智能技术,在应用层面包括机器学习、神经网络、深度学习等,它们都是现代人工智能的核心技术。当然,人工智能对我们的社会和未来的影响,也有一些令人担忧的问题。但随着人工智能和物联网的进步和发展,有一件事是肯定的:这些技术对我们影响必然是深远而重大的。


分享到:


相關文章: