可行的AI应用,都要平衡「不可能三角」

在不可预知的开放空间里,在数据不充分的条件下,实时自主控制系统要确保足够的安全性、可用性,这就是自动驾驶所要面临的真实处境。

开放性、确定性、规模化,很难同时兼顾三者,所以称为『不可能三角』,这也是目前AI 业务通用的底层逻辑。基于现在的 AI 技术范式,特别是在建立AI业务的初始阶段,效应更显著。

首先,让我们看看WAYMO是怎么做的,其次,从技术模式的角度探究一下根源,最后,尝试找出三者间博弈和平衡的正确方法。

一、 实践是最好的反馈

2015年每跑1300英里就需要1次人工干预,2016年每跑5000英里需要1次人工干预,同比增长了3-4倍。2017年每5596英里需要1次人的干预,仅增长10%。

WAYMO的单位距离DISENGAGE数量减少的幅度和趋势表明,算法收益增速在边际降慢,获得有价值的数据越来越难,突破变得越来越难,这也符合90-90法则,最后10%的性能提升可能需要花之前90%提升所需工作量花费时间的10倍。这正是因为开放环境下的 EDGE CASE 带来的挑战。

WAYMO 的方案,技术方面有STRUCTURED TESTING等手段,在商业方面的策略是基于特定场景的用车业务模式,因为这可以提升确定性,即安全性。

选取特定的城市,比如现在是凤凰城,下一步可能是旧金山。在充分测试和学习后推出出租车服务,而不是一开始就采用卖车的方式。因为车主必然会在开放区域行驶,其中就会包含目前技术上没验证过的区域,这会带来了极大的风险。而市内出租车的起止点还是可控对的,这更符合目前 AI 技术惧怕开放性的特点。

在此基础上,WAYMO 会不断拓展不同的ODD(OPERATIONAL DESIGN DOMAINS)和气候条件(雪天、大雨等),在感知方面最后要突破的最难点当然是 SEMANTIC UNDERSTANDING,真正理解本地化的驾驶规则、与其他司机的协同方式、不同的手势和信号的不同含义,从而更好更有针对性的理解当下所处环境,包括物理世界环境的感知和人类社会环境的感知,达到更接近人类司机的计算模式。

在开放性、确定性、规模化的冲突之间,WAYMO 选择了确定性优先,尽量牺牲开放性,以单个限定环境的不断累加追求规模化,并以渐进的方式最终可以将自动驾驶汽车卖给个体消费者,自由的驾驶在开放性的环境里。

二、 技术走在边缘

依赖数据,陷于数据

看起来已经走得很远的智能算法,最终还是会回溯到统计学最基本的原理。输入海量样本的外在描述性浅层表征,通过反向传播,借助不断突破的算力,以越来越复杂的网络结构和特征变换去拟合函数,这个过程也越来越自动化和手段出新,但这次巨大突破的来源也会同时决定了其局限所在。

基于历史样本的模式统计提供预测,机器的准确性来自大规模高质量的输入,同时会给你少量的输出,更重要的是,机器能够准确预测的对象是严格限定在样本输入所决定的某个领域范围内的,如果把训练好的模型使用场景稍作拓展,那么就需要新的海量数据来重新训练,对数据量的要求没有显著的边际减少。

这种高度依赖数据也可以从另一个侧面体现,过度拟合样本。在一项测试中,著名的VGG和RESNET这两个模型在原始数据集上准确率为93%,而在新测试集上降为了85%左右。实验中的分布转移(DISTRIBUTION SHIFT)既不是对抗性的(ADVERSARIAL),也不是不同数据源导致的结果。因此,即使在良性环境中,分布转移也会带来严峻的挑战,目前模型真正的泛化程度好象也没那么理想。

复杂网络不等于知识

问题来自于没有知识持续积累和进化。分散的,不持续的,在更小更特定的问题上寻求更复杂化的方法,而不是在一个更大的架构下面以越来越简化的方法去处理某个特定的问题。常识告诉我们,越是通用的东西,越是简单的,而目前的网络结构越来越复杂,这个趋势好象无望解决还变本加厉。即使有类似DROPOUT这种思想,但是还是不能从根本上改变基础的模式。

虽然还有各种 ZERO SHOT LEARNING, TRANSFER LEARNING 等尝试,共享部分模型和特征,但扩展性依然非常有限,并没有真正在迁移复杂的领域知识,知识是可以灵活的应用在很多背景下,有不同意义阐述的概念,是对元信息有逻辑性的组合连接。

此外,基于统计学的另一个局限也很明显,比如有简单的映射关系,但没有因果关系,某种意义上你可以认为关联关系也是知识,但我认为这不是真正的知识,因为它很难灵活迁移。不过最近也有 DEEPMIND 尝试通过 RELATIONAL MEMORY CORE 来改进关系推理,新的方向也在不断兴起。

关于知识图谱,对于人类而言是知识,因为对它的灵活解读能力事实上来自于知识图谱的使用者,人类的能力。但是,对于机器来说只是某种基于特定样本的图计算的结果(或许过于片面),并不会真正的全面领会其中的含义,更谈不上灵活应用,所以也就不是『知识』。现在的知识图谱之于知识,就像电子计算机之于量子计算机。

想强调的是,目前 AI 算法的模式会在特定领域数据上高度依赖,通用知识的提取上还非常有限,横向扩展的能力还有待提升,基本上没有举一反三、一物多用的机会,所以这种三元悖论效应才犹其突出。

基于以上,就有了开放性、确定性、规模化三者的矛盾。但任何变革都不是一蹴而就的,这也不妨碍 AI 在目前已经有巨大的实际应用价值。

三、约束下的选择

1)基础平台

提供类似 AUTOML的机器学习能力,通过降低使用门槛,对用例场景多样化的支持,获得规模最大化,形成进一步的生态优势。具备开放性、规模化,但较低的产品化程度会带来很多实施过程中的不确定性,结果无法保障,很大程度上取决于开发者自己的综合应用能力;

2)垂直能力

语音识别API,比如阿里刚刚发布的DFSMN,实现了LSTM 成为主流以来的又一次升级,将全球语音识别准确率纪录提高至96.04%,实现了很高的应用效果确定性,从而也会获得很高的调用量,实现规模化。但相对基础平台而言,降低了开放性,无法应用在更广的场景,即使识别对象同样是声音,也无法直接用在识别机器异常和故障信号的工业应用领域;

3)定制解决方案

在行业的早期,一对一的咨询服务是一种更便于销售和探索的业务模式,但无法自身单独成为主要收入来源,需要更完整的业务组合来转化为更大的商业价值。这个模式具备很高的开放性,例如AIBEE通过个案专家现场咨询提供高度针对性的解决方案,同时,执行和结果也有很高的确定性,但无法迅速规模化。

总体上,第二种平衡的选择在当下看起来更流行,不同行业的应用案例基本是在选择确定性优先,在一个相对垂直的领域基于高质量的数据解决特定的具体问题,尽量的限定开放性,以不同的垂直领域纵向延伸或横向叠加来追求规模,最后寻求满足客户整合性需求的平台机会。这种路线看起来很难差异化,但对于高度依赖领域数据的人工智能而言,规模领先本身也能带来差异化和壁垒,但要求能够迅速的将单纯的规模优势转化为迭代的势能、生态的优势,这种时间窗口往往稍纵即逝。

在借助 AI 的技术红利推动业务升级之前,先想清楚如何在这三者之间取舍侧重,基本上决定了业务模式的大框架,这种三元导悖论检视至少可以避免一些大而不见的关键隐患,是必要的。

然而这并不足够,AI 业务的最终的成效取决于你在多大程度上重塑了原有的价值流动,技术只是ENABLER,成败的另外七成还是取决于采用什么样的业务策略来推动这个切换,因为毕竟买单的人总是为一个完整的价值交付付费,而不关心这里面用的什么技术。当然前提是你真的选对了领域和发力点。这个以后讨论。


分享到:


相關文章: