爲什麼知識圖譜終於火了?|甲子光年

為什麼知識圖譜終於火了?|甲子光年

如果知識是人類進步的階梯,知識圖譜就是AI進步的階梯。


作者|金絲猴

設計|孫佳棟

“知識圖譜”相較於AI其他分支,似乎是最後一個熱起來的賽道

「甲子光年」對國內某數據平臺上的企業標籤進行了統計,國內AI初創企業所涉及的技術標籤全部加起來近3000個,其中,“計算機視覺”出現255次,“語音識別”出現81次,“自動駕駛”出現152次,“自然語言處理”188次,“芯片”51次……而“知識圖譜”僅出現10次,是所有標籤中,出現頻次最低的

也就是說,作為一項AI領域底層技術,知識圖譜並不是大部分AI創業者的興趣所在;作為一個創業方向,這條賽道還遠遠談不上擁擠。

不過近來,升溫趨勢開始出現。

最近一段時間,“知識圖譜”這個詞被頻頻提及,做知識圖譜的公司開始增多,甚至一些大數據公司開始在自己的名字後面加上這四個字。

部分知識圖譜領域創業者向「甲子光年」描述了他們感受到的市場變化:

“我以前出去談客戶,客戶都是搓著手問我有哪些AI技術可以拿來用。而現在客戶直接就說:我們需要應用於一套管理XX的知識圖譜的系統。”達觀數據CEO陳運文說。

為什麼知識圖譜近來突然火了?

“升溫”背後的前世今生

本質原因,是人工智能火了,而深度學習並非放之四海皆管用,人們開始意識到:“知識”是“智能”的前提。

“一個邏輯學家,不需要親眼見過,或聽過大西洋和尼亞加拉大瀑布,他能憑藉一滴水推測出它們的存在。所以整個生活就是一個巨大的鏈條,只要見到其中一環,整個鏈條的情況就可推想出來。”阿瑟·柯南·道爾有言。

他所描繪的,是人類大腦對知識天然的聯想能力,對人類理解世界、學習新知起著至關重要的作用。

如果知識是人類進步的階梯,知識圖譜就是AI進步的階梯——這正是知識圖譜對於AI的核心意義。

什麼是知識圖譜?

知識圖譜(Knowledge Graph)旨在描述客觀世界的概念、實體、事件及其之間的關係——簡言之,就是誰是誰的“爸爸”,誰是誰的“兒子”,這些概念之間的關係。

為什麼知識圖譜終於火了?|甲子光年

全球第一個大規模開放域鏈接數據項目DBpedia的知識圖譜示意圖

2012年5月,Google推出Google知識圖譜(Google Knowledge Graph),並利用其在搜索引擎中增強搜索結果。這是“知識圖譜”名稱的由來,也標誌著大規模知識圖譜在互聯網語義搜索中的成功應用。

為什麼知識圖譜終於火了?|甲子光年

搜索關鍵詞Google會給出與之相關的詳細搜索結果

事實上知識圖譜技術淵源已久,只是在不停地換名字而已——從上世紀70年代的“專家系統(Expert System)”,到萬維網之父Berners-Lee提出“語義網(Semantic Web)”,再到他後來提出的“鏈接數據(Linked Data)”,都是知識圖譜的前身。

伴隨著Web技術的不斷演進與發展,人類先後經歷了以文檔互聯為主要特徵的“Web 1.0”時代與以數據互聯為特徵的“Web 2.0”時代,正邁向基於知識互聯的“Web 3.0”時代。

可以說,知識圖譜的升溫,是AI對數據處理和理解需求逐日增加所導致的必然結果,而其發展有賴於專家系統、語言學、語義網、數據庫,以及信息抽取等眾多領域,是一個交叉融合的產物。

平臺巨頭紛紛重倉

搜狗CEO王小川則告訴「甲子光年」:“搜狗是國內首家構建和應用知識圖譜的搜索引擎。知識圖譜也是搜狗的基礎能力,服務於搜索引擎和其他多個產品。”根據搜狗2016年財報顯示,其搜索流量急速攀升,尤其移動搜索流量增長70%,背後原因很大程度上因為其將基於知識圖譜的AI技術和差異化內容武裝到產品。

以電商為主戰場的阿里也基於自身的數據庫建立起了知識圖譜。阿里生態內有來自於淘寶、天貓、1688、AliExpress等多個市場和品牌商、行業運營、治理運營、消費者、國家機構、物流商等多種角色,基於阿里知識圖譜的個性化推薦系統為其營收立下了汗馬功勞。

2013年,Facebook推出社交圖譜搜索工具Graph Search。隨即,“美國版大眾點評”Yelp股價大跌7%。《連線》雜誌評論:GraphSearch的兩大野心,一是在網頁搜索領域幹掉Google;二是在垂直搜索領域幹掉所有對手,包括求職領域的LinkedIn,約會領域的Match,以及餐館點評領域的Yelp。

為什麼知識圖譜終於火了?|甲子光年

介紹Facebook GraphSearch的Zuckerberg

雖然現在看來Facebook的野心並未實現,但巨頭平臺紛紛重倉,知識圖譜的應用崛起不容小覷。

和巨頭們的熱情比起來,如開篇所述,創業公司看起來對這個賽道興趣不大,對比之下,也暗含著這個領域小公司的“蜀道之難”。

創業公司的生存空間

國內第一梯隊的知識圖譜創業公司們告訴「甲子光年」:“活得還不錯,這是一個藍海市場。”超過半數的公司都表示知識圖譜技術目前“供不應求”——由於團隊大小限制,有時候客戶都接不過來。

國內知識圖譜創業公司並不算多,為避免與BAT直接交鋒,他們往往從垂直領域作為市場切入點。目前,國內智能客服、金融、法律、公安、航空、醫療等“知識密集型”領域的山頭都已被瓜分。

少數公司只做單一垂直領域,如文因互聯、智言科技專注於金融領域。更多公司則會選擇多個垂直領域同時推進,如明略數據主打公安、金融(大銀行客戶)、工業;擅長長文本分析的達觀數據則主攻金融(審計)、製造業、法律;海知智能主攻智能家居、醫療、金融;淵亭科技則在航空、醫療、軍工、通信、教育等多個領域均有涉足。

各家公司在商業模式上打法不同,主要分為三類:

第一類,以產品+定製化解決方案的形式進行直客服務。優點是能夠與客戶深度綁定積累行業經驗,缺點是通常耗時耗力。例如,明略數據在金融、公安、工業領域積累深厚,其技術合夥人何鑫告訴「甲子光年」,正因此前以這一類模式深入行業和客戶深度綁定,才構建起技術及行業壁壘。

第二類,通過集成商銷售通用性較高的模塊化功能。其優點是節省人力,缺點是客單價偏低。例如,淵亭科技在公安領域中通常將模塊化工具提供給軟件集成商,由集成商組合後再向客戶進行銷售。

值得關注的是,雖然各家在打法上有不同偏好,但沒有任何一家公司採用單一商業模式。因為身處於初期市場中,打法往往跟著客戶來,因為他們很難向客戶說不

為了保證知識圖譜的準確率,現在的普遍現象是:構建過程中仍需要採用較多的人工干預。

“目前客戶更多還是以結果為導向,至於人工+智能的比例是怎樣不太重要。”

達觀數據CEO陳運文告訴「甲子光年」。

採訪近十家知識圖譜創業公司,「甲子光年」試圖量化前文各家口中的“活得還不錯”:

就目前階段而言,大部分知識圖譜創業公司為了深度滲透行業,都在幹著“髒活累活”。其服務週期短則數月,長則一至兩年,客單價根據項目複雜程度,在幾十萬元到幾百萬元區間不等,單筆訂單價超過200萬元的公司是極少數。

不止一家公司創始人告訴「甲子光年」,其戰略是先在各垂直行業打一口又一口深井,井聚成湖,湖化為海

那麼,商業化的天花板能否捅破?

閉環之痛

回顧上述各類打法,可以看出,無論哪一種打法,市場增量空間都相對較窄,目前尚看不到可以N方增長的商業化出路。

知識圖譜初創公司要想真正捅破天花板,面臨著客戶服務和數據閉環的雙重挑戰

先看客戶服務的挑戰。

目前絕大多數知識圖譜創業公司都是面向B端客戶,B端客戶分為大B和小B。

大B客戶通常是國資背景的大型企業。其優點是有預算、有耐心。但他們尋求AI技術的原因往往來自於上層文件和指示,至於該用哪些技術、怎麼用、用在哪、有多好用?客戶並不瞭解,雙方需要經過漫長的磨合、試錯。然而,除了少部分有懂行的領導牽頭的項目,很多時候技術並不能有效地用起來,對於雙方來講,磨合的過程反而是資源浪費。

某業內人士向「甲子光年」感慨,每年兩萬億人民幣數字化轉型的國家經費,真正轉化成價值的比例非常低。

此外,與大B客戶合作通常還會受制於其公司的層級限制。

微軟亞洲互聯網工程院副院長於偉告訴「甲子光年」,他們在和國內某運營商合作時就遇到過尷尬的局面。“以前地方獨立運營,同樣的產品和服務每個省份都需要單獨談單獨籤”。好在此運營商最近對架構進行了一次梳理,優化了其權限結構。

而服務小B客戶的情況更為艱難。最大問題在於客單價低,其次是需求不明確,此外,如果長期只做小B客戶,難以通過實戰提升技術、積累經驗。

一位知識圖譜公司CEO告訴「甲子光年」,“客戶篩選”是他工作中很重要的一個環節。“接,還是不接?要從公司的技術積累、生產力和賬面等多方面做權衡。”

雖然行業明顯升溫,但由於知識圖譜本身是一項底層技術,且尚處於發展初期,還在實現“從無到有”搭建知識庫的過程,給客戶的是一種能力,卻無法用直觀、量化的商業價值測算。

換句話說,知識圖譜不能直接給客戶創收,這也使得對於很多客戶來講,這項服務並不是生死攸關的剛需,更像是對於明天的“理想追求”。

文因互聯CEO鮑捷告訴「甲子光年」,坦率來講,他認為在金融領域中,目前沒有哪一家公司能夠真正通過知識圖譜技術提高客戶的投資回報率,提高的只是客戶的投研效率。“但我們能幫助客戶在單位時間內看更多報告、公司,這難道就沒有作用?”

公子小白CTO王昊奮認為這並不是知識圖譜公司應該停留的狀態。他告訴「甲子光年」:“當技術離開學術界走向市場之後,創造商業價值才是硬道理,畢竟客戶最終看的還是效果。”

再看數據閉環的挑戰。

跟坐擁海量數據的BAT相比,知識圖譜創業公司的最大問題在於無法形成數據閉環

形成閉環,要求數據能夠自我生長、消化吸收、形成新的知識體系。如果無法解決閉環問題,知識圖譜公司就只能停留在做數據的轉化、錄入和分析層面,註定無法分得更多的蛋糕。

打一個比方,為什麼同樣背景的學生在後來的實際工作中會有天壤之別?其關鍵是後續學習能力。如何基於已有背景知識快速學習新知,並構建新的知識體系,才是知識圖譜技術應當攻克的核心難點。

今日頭條就是一個正面教材,它的知識圖譜一直在自我生長。每一個用戶的每一次操作行為都幫助了它提高關係的準確度和維度,以此構建更加完善和聰明的知識圖譜。

這樣的良好循環對於作為知識圖譜技術服務方的創業公司來講,幾乎很難實現。

在各垂直行業,如果客戶產品不能與用戶持續進行交互,就意味著客戶自身尚不具備閉環數據生產的能力,何況技術服務商。

當下運用知識圖譜技術服務金融、法律、公安、醫療、航空等知識密集領域的公司,都在“被動”獲取數據(客戶給的,或者爬蟲獲得的),這樣的做法更使得技術提供商處於食物鏈底端,無法最大化知識圖譜的價值。

王小川告訴「甲子光年」:“如果某天B端客戶發現數據的消費和生產能夠形成閉環,他很可能就自己幹,或者把你收了。他才不會開環去做一個本該閉環的事,避免把數據和核心能力流到外面去。”

對於知識圖譜創業公司們來講,能不能形成閉環、能不能快速迭代、能不能持續學習將成為企業的核心競爭力

這個問題對於創業公司們來講也很頭疼,目前沒有很好的對策。

於偉告訴告訴「甲子光年」,想要在目前的技術條件下打通數據閉環並不容易,但也不是不可能。首先,在進入市場應該選擇同質化程度較高的領域進行切入,比如,銀行、保險、大型製造業等。當你在行業中打磨得足夠優秀了,可以嘗試在自己的產品中建立AI大腦,以此形成數據的閉環,快速迭代。

後深度學習時代

歸根結底,知識圖譜的意義在於在盤根錯節的數據海洋中進行梳理和串聯,讓以前模糊的世界變得更加清晰。

人類對於知識體系的整理,始終未曾停歇。從永樂大典,到四庫全書,再到各式各樣的百科全書。作為編纂者,必須要思考的是:如何整理、組織信息,並以何種方式進行呈現?

目前,全球最大的“自由的網絡百科全書”維基百科已經收錄了超過2200萬詞條,僅英文版就超過400萬條,遠超紙質英文百科全書中最權威的大英百科全書的50萬條,是全球瀏覽人數排名第6的網站。

2012年,大英百科全書宣佈停止印刷版發行,全面轉向電子化。這直接反映了當前社會的信息容量的爆發式增長程度。

以往線性的、疏離的、非結構化的知識體系已經無法滿足需求——人們迫切需要尋找新的方法來呈現人類過往知識。

這也是人類文明從語言文字向數據化時代進步的關鍵一步:以前人類用文字符號代表和區分世間萬物,而知識圖譜是在此基礎上的巨大創新。

前Google傑出工程師阿米特·辛格博士(Amit Singhal)在介紹知識圖譜時是這樣講的:“The world is not made of strings , but is made of things.(構成這個世界的是實體,而非字符串)”

為什麼知識圖譜終於火了?|甲子光年

前Google工程師阿米特.辛格博士

反觀這波AI浪潮,以深度學習為代表的大數據AI獲得巨大進展,但深度學習的不透明性、不可解釋性已成為制約其發展的障礙,所以,“理解”與“解釋”是AI需要攻克的下一個挑戰,而知識圖譜為“可解釋的AI”提供了全新的視角和機遇

研究“可解釋AI”的前提是梳理人類自身的認知機制。人類最擅長的思考方式就是將點和線關聯起來,並由點及面、抽絲剝繭、慢慢理清其中的邏輯關係。知識圖譜正試圖抽絲剝繭,“像人類大腦一樣思考”。

認清我們自己,才能將人類的能力賦予機器,重新審視人類自我,將是未來AI研究過程必不可少的環節。

“Knowing yourself is the beginning of all wisdom.”亞里士多德的這句話,正是知識圖譜使命最好的概括。

END.

|今日福利一|

2017全球青年創業者大會「未來智慧」專場論壇由小飯桌&凡卓資本主辦,甲子光年聯合主辦。匯聚來自硅谷、印度、以色列與中國等熱門國家與地區的最佳大腦,描繪全球創業投資的發展趨勢和藍圖,展現人工智能領域蓬勃發展的創投生態全景。

時間:2017.12.6 13:30-17:00

地點:北京·萬達索菲特酒店

|今日福利二|

今晚(11.28),科技智庫甲子光年聯合依圖科技、海雲數據、中網數據、Gowild、地平線、海知智能六家人工智能、大數據領軍創企,舉辦北京大學首場大型AI主題宣講會暨人才招聘會“細數未來如何發生”,一起聊一聊對未來的觀點。在縱身躍入浪潮之前——你可以至少先成為浪潮的前排觀眾。

為什麼知識圖譜終於火了?|甲子光年

座位有限,填寫資料優先獲得席位!


分享到:


相關文章: