京东人工智能部徐博:工程端的提升比算法更重要—智研所

编 | 搜狐科技 宋婉心

“智研所”沙龙第7期

演讲嘉宾:京东集团人工智能业务部智能平台部投资主管徐博

细数去年的AI创投领域,几笔较高金额的融资让CV公司们成为赛道上的明星。

4月,商汤宣布获6亿美元C轮融资,5月底,又宣布再获6.2亿美元C+轮融资,估值超过45亿美元。6月中旬,依图宣布完成2亿美元C+轮融资。

计算机视觉越来越成为人工智能领域的一大吸金赛道,资本热热闹闹,应用场景巨大,然而,似乎没有一家公司现阶段的盈利看起来匹配得上超高的估值。

然而更重要的是,机遇与问题并存。未来的一到三年将是AI升级传统行业格局初定的历史窗口,在这个窗口期,哪家足够强大的AI公司能够率先抢占蓝海,凭借数据和行业经验的反馈建立自身的应用壁垒,很大几率就会成为人工智能领域的下一个巨头。

搜狐科技“智研所”沙龙第7期邀请到了京东集团人工智能业务部智能平台部投资主管徐博进行主题演讲——《京东AI能力和计算机视觉》。

以下为演讲精编:

2017年刚成立,两年时间已经在全球多个地点成立了人工智能研究院,以底层研究为主,50%的人都是算法老师、工程老师包括产品的同事。我们现在北京北辰办公室,就是京东上市之前的总部,在南京跟南京大学成立了机器学习研究院,成都主要是客服团队,硅谷做一些比较前沿的front end research,欧洲的话主要在英国,跟UCL成立了研究院,我们跟斯坦福、MIT都有做基础研究的实验室。国内主要是清华大学、南京大学,包括港中文。

我们现在的科学家团队主要是四位老师,第一位是整个AI部门的负责人,也是京东的副总裁周博恩博士,从IBM Watson被刘总挖过来,之前是全球首席科学家。何晓东老师是微软美国的首席NLP研究员,领头开发了小冰、小娜等产品。梅涛老师是我们从微软亚洲研究院挖过来的首席科学家,他负责多媒体CV这块,。周志华教授大家都比较熟悉,基本上可以说是全国最好的机器学习的科学家。

京东人工智能部徐博:工程端的提升比算法更重要—智研所

几大支柱里,我们还是以偏感知层底层技术为主,主要是语音声学包括语义理解、深度学习、视觉、NLP,机器学习这几个底层技术。我们主攻四条线四个场景,客服、零售、市政、医疗,我们希望达到的效果——能通过人工智能改造在不同行业的解决方案,其实我们在挑选行业的时候也比较小心。

京东大药房是全国比较领先的线上医药售卖平台,京东健康专门做医疗这块的事业群,刚融到10亿美金的融资额,大部分偏线上药房售卖。腾讯在做的和CV医疗影像有关,我们可能做的稍微少一点。通API还是偏CV比较多。

京东本身平台上有大量的图库,我们整个部门也是负责帮助京东整个图片库进行处理,包括生成、审核。京东拍照购是整个部门做的核心产品,像抖音、快手包括万图拍这些公司都在调用我们的产品,基本上每天调用上亿次。每次拍一张图片就识别,快手也做电商,抖音也做电商转化,我们能够做到定单转化率大概在100%以上,通过这个入口进去之后,基本上每个人都会在这个入口下订单。

然后是我们的内容供应链,包括审核、生成、识别。京东的SKU数量比较大,理论上来讲,我们希望所有的商品比如无论在7—11购买还是在小店购买还是大的超市,能够有能力没有条形码的商品或者不用扫条形码直接把这个物品放到结算台下面就可以快速购买、快速下单、快速结账。我们跟香港冯氏集团合作,比如永辉超市或者华润万家,这个产品已经在香港那边已经落了两家店,目前还在持续推进中。

京东人工智能部徐博:工程端的提升比算法更重要—智研所

智能摄像方面,京东和《人民日报》合作,能在不同暗场景下准确识别人脸,我们跟北京站也在合作。人脸技术偏于成熟,商业落地比较容易。

1:N的时候,N越大,准确率就在几何性下降,包括N做到40万,但是一般来讲超过一百万的N,你的准确率就能下降到90%以下。这块都是大家攻克的难点,也是CV人脸出来的方向。你把你的准确率提高之后,是不是真正能够用在工业落地里面。在落地的时候我们有一个想法,无论准确率95%还是99%,其实本质上区别并不大,只要提高算法运算速度,包括工程的封装速度,我能保证快速识别,保证连续识别,这是比较重要的。准确度各家厂商都差不多,都是99%、98%,但具体识别的速度、识别精准度、识别需要的算力,需要的芯片,需要的摄像头是什么样的,我的CPU跑什么样的CPU,这块比较重要一些。

还有一些活体检测,我觉得人脸识别比较讲烂了,没有什么特别新的技术,主要还是工程端的提升更加重要。算法层面都差不多,各家厂商都做得非常好。

属性检测这块,我们做一个多模态的心理咨询技术,你能从它的人体关键体识别比如每条肌肉抖动,当然我讲得比较实验室,其实落地的话还是比较难。每块肌肉抖动,我去跑一个回归算法,能识别出整个你是什么情绪或者你占多少情绪,我们看到美国北卡做姿态识别心理情绪,这块也是我们看的一个方向。

京东人工智能部徐博:工程端的提升比算法更重要—智研所

人工智能感知层上升到认知层的时候,包括逐渐往应用层走的时候,本质上还是在突破从点到面的过程,希望通过多模态来解决我们很多目前现有的问题,我觉得不仅仅是CV。

我觉得上面讲完我们的产品我们的技术,想讲一些通用化的目前的技术迭代过程。大家可以看到,我们之前就是一个segmentation,把两个不同的部位给分开,逐渐我们有detection框算我的landmark。

京东人工智能部徐博:工程端的提升比算法更重要—智研所

比如这个马术师,我识别一个马术师,识别他骑的马。之前把整个人框出来,把马术师和马一块儿框出来,现在能做到把马术师和马分别框出来,后面做多模态转化,包括现在描述这个是什么样的图片,这块有很大的帮助。

CV也在不断迭代中,CV迭代的时候更多服务的是后面的一些技术,比如CV to NLP,从图片到文字,这块是我们在看的论文。CVPR论文是我们研究院梅涛博士发表的论文。一个例子,我在框象素级的图片而不是框整个可乐罐,现在我能框出可乐罐上LOGO,细到象素级的差距。

多模态转换这块话题比较有意思,时间所限,不多说。我们希望通过多模态转化,从图片转到文字,文字转图片,现在是文字转视频可以,视频转文字也可以。

其实从金融角度来讲,每次在提升GMV或者ARPU时,本质就是提升交易量,要提高转化率其实主要还是靠提升用户体验,用户体验就是给你推荐,你觉得不错。比如这个妹子去买黑色风衣,她觉得这个搭配鞋可以,我就一块儿买了,这是我们在提高用户体验做的一些事情,本质上我们没有提高效率,也没有直接提高收入,但是提高体验。

刚才讲的结算台,我们再香港落地两家店。我们讲to B,to了半天B还是C在做,把这个东西跟冯氏集团的店合作,还是消费者在买。

前两天展会,很多媒体在报道这个休息舱产品,集中了模块,触控屏作为一个支架加到舱里面,这些都是我们在看的产品。通过人工智能赋能传统硬件或者传统行业,这是我们希望达成一个目标。


分享到:


相關文章: