京東人工智能部徐博:工程端的提升比算法更重要—智研所

編 | 搜狐科技 宋婉心

“智研所”沙龍第7期

演講嘉賓:京東集團人工智能業務部智能平臺部投資主管徐博

細數去年的AI創投領域,幾筆較高金額的融資讓CV公司們成為賽道上的明星。

4月,商湯宣佈獲6億美元C輪融資,5月底,又宣佈再獲6.2億美元C+輪融資,估值超過45億美元。6月中旬,依圖宣佈完成2億美元C+輪融資。

計算機視覺越來越成為人工智能領域的一大吸金賽道,資本熱熱鬧鬧,應用場景巨大,然而,似乎沒有一家公司現階段的盈利看起來匹配得上超高的估值。

然而更重要的是,機遇與問題並存。未來的一到三年將是AI升級傳統行業格局初定的歷史窗口,在這個窗口期,哪家足夠強大的AI公司能夠率先搶佔藍海,憑藉數據和行業經驗的反饋建立自身的應用壁壘,很大幾率就會成為人工智能領域的下一個巨頭。

搜狐科技“智研所”沙龍第7期邀請到了京東集團人工智能業務部智能平臺部投資主管徐博進行主題演講——《京東AI能力和計算機視覺》。

以下為演講精編:

2017年剛成立,兩年時間已經在全球多個地點成立了人工智能研究院,以底層研究為主,50%的人都是算法老師、工程老師包括產品的同事。我們現在北京北辰辦公室,就是京東上市之前的總部,在南京跟南京大學成立了機器學習研究院,成都主要是客服團隊,硅谷做一些比較前沿的front end research,歐洲的話主要在英國,跟UCL成立了研究院,我們跟斯坦福、MIT都有做基礎研究的實驗室。國內主要是清華大學、南京大學,包括港中文。

我們現在的科學家團隊主要是四位老師,第一位是整個AI部門的負責人,也是京東的副總裁周博恩博士,從IBM Watson被劉總挖過來,之前是全球首席科學家。何曉東老師是微軟美國的首席NLP研究員,領頭開發了小冰、小娜等產品。梅濤老師是我們從微軟亞洲研究院挖過來的首席科學家,他負責多媒體CV這塊,。周志華教授大家都比較熟悉,基本上可以說是全國最好的機器學習的科學家。

京東人工智能部徐博:工程端的提升比算法更重要—智研所

幾大支柱裡,我們還是以偏感知層底層技術為主,主要是語音聲學包括語義理解、深度學習、視覺、NLP,機器學習這幾個底層技術。我們主攻四條線四個場景,客服、零售、市政、醫療,我們希望達到的效果——能通過人工智能改造在不同行業的解決方案,其實我們在挑選行業的時候也比較小心。

京東大藥房是全國比較領先的線上醫藥售賣平臺,京東健康專門做醫療這塊的事業群,剛融到10億美金的融資額,大部分偏線上藥房售賣。騰訊在做的和CV醫療影像有關,我們可能做的稍微少一點。通API還是偏CV比較多。

京東本身平臺上有大量的圖庫,我們整個部門也是負責幫助京東整個圖片庫進行處理,包括生成、審核。京東拍照購是整個部門做的核心產品,像抖音、快手包括萬圖拍這些公司都在調用我們的產品,基本上每天調用上億次。每次拍一張圖片就識別,快手也做電商,抖音也做電商轉化,我們能夠做到定單轉化率大概在100%以上,通過這個入口進去之後,基本上每個人都會在這個入口下訂單。

然後是我們的內容供應鏈,包括審核、生成、識別。京東的SKU數量比較大,理論上來講,我們希望所有的商品比如無論在7—11購買還是在小店購買還是大的超市,能夠有能力沒有條形碼的商品或者不用掃條形碼直接把這個物品放到結算臺下面就可以快速購買、快速下單、快速結賬。我們跟香港馮氏集團合作,比如永輝超市或者華潤萬家,這個產品已經在香港那邊已經落了兩家店,目前還在持續推進中。

京東人工智能部徐博:工程端的提升比算法更重要—智研所

智能攝像方面,京東和《人民日報》合作,能在不同暗場景下準確識別人臉,我們跟北京站也在合作。人臉技術偏於成熟,商業落地比較容易。

1:N的時候,N越大,準確率就在幾何性下降,包括N做到40萬,但是一般來講超過一百萬的N,你的準確率就能下降到90%以下。這塊都是大家攻克的難點,也是CV人臉出來的方向。你把你的準確率提高之後,是不是真正能夠用在工業落地裡面。在落地的時候我們有一個想法,無論準確率95%還是99%,其實本質上區別並不大,只要提高算法運算速度,包括工程的封裝速度,我能保證快速識別,保證連續識別,這是比較重要的。準確度各家廠商都差不多,都是99%、98%,但具體識別的速度、識別精準度、識別需要的算力,需要的芯片,需要的攝像頭是什麼樣的,我的CPU跑什麼樣的CPU,這塊比較重要一些。

還有一些活體檢測,我覺得人臉識別比較講爛了,沒有什麼特別新的技術,主要還是工程端的提升更加重要。算法層面都差不多,各家廠商都做得非常好。

屬性檢測這塊,我們做一個多模態的心理諮詢技術,你能從它的人體關鍵體識別比如每條肌肉抖動,當然我講得比較實驗室,其實落地的話還是比較難。每塊肌肉抖動,我去跑一個迴歸算法,能識別出整個你是什麼情緒或者你佔多少情緒,我們看到美國北卡做姿態識別心理情緒,這塊也是我們看的一個方向。

京東人工智能部徐博:工程端的提升比算法更重要—智研所

人工智能感知層上升到認知層的時候,包括逐漸往應用層走的時候,本質上還是在突破從點到面的過程,希望通過多模態來解決我們很多目前現有的問題,我覺得不僅僅是CV。

我覺得上面講完我們的產品我們的技術,想講一些通用化的目前的技術迭代過程。大家可以看到,我們之前就是一個segmentation,把兩個不同的部位給分開,逐漸我們有detection框算我的landmark。

京東人工智能部徐博:工程端的提升比算法更重要—智研所

比如這個馬術師,我識別一個馬術師,識別他騎的馬。之前把整個人框出來,把馬術師和馬一塊兒框出來,現在能做到把馬術師和馬分別框出來,後面做多模態轉化,包括現在描述這個是什麼樣的圖片,這塊有很大的幫助。

CV也在不斷迭代中,CV迭代的時候更多服務的是後面的一些技術,比如CV to NLP,從圖片到文字,這塊是我們在看的論文。CVPR論文是我們研究院梅濤博士發表的論文。一個例子,我在框象素級的圖片而不是框整個可樂罐,現在我能框出可樂罐上LOGO,細到象素級的差距。

多模態轉換這塊話題比較有意思,時間所限,不多說。我們希望通過多模態轉化,從圖片轉到文字,文字轉圖片,現在是文字轉視頻可以,視頻轉文字也可以。

其實從金融角度來講,每次在提升GMV或者ARPU時,本質就是提升交易量,要提高轉化率其實主要還是靠提升用戶體驗,用戶體驗就是給你推薦,你覺得不錯。比如這個妹子去買黑色風衣,她覺得這個搭配鞋可以,我就一塊兒買了,這是我們在提高用戶體驗做的一些事情,本質上我們沒有提高效率,也沒有直接提高收入,但是提高體驗。

剛才講的結算臺,我們再香港落地兩家店。我們講to B,to了半天B還是C在做,把這個東西跟馮氏集團的店合作,還是消費者在買。

前兩天展會,很多媒體在報道這個休息艙產品,集中了模塊,觸控屏作為一個支架加到艙裡面,這些都是我們在看的產品。通過人工智能賦能傳統硬件或者傳統行業,這是我們希望達成一個目標。


分享到:


相關文章: