知識圖譜火了!業內:從大數據到人工智能的臺階

知識圖譜火了!業內:從大數據到人工智能的臺階

在人工智能+教育行業,聽得最多的一個名詞叫做“知識圖譜”,例如乂學教育-松鼠AI的教師模型就是基於知識圖譜創建的,包括人工驅動和數據驅動兩個階段,具體原理為,首先,需要學科教育專家將目標教學內容進行解構,將母知識點化解成上萬個細顆粒度的子知識點,每個子知識點上配套學習內容,包括文字、動畫、PPT、短視頻等,知識點之間的相互關係聯結成一個圖譜結構。其次,通過學生在AI系統學習平臺上的實際學習數據,對知識圖譜中的知識點相互關係進行更新,之後再把這個知識圖譜應用在AI學習系統中,再次讓學生學習。然後,再根據學生的學習數據做迭代,如此反覆循環,直到知識圖譜趨於穩定。

掌門一對一在all in AI後也提出了智能化教育、知識圖譜可視化的概念。掌門一對一CEO張翼認為,現階段實現因材施教的最新武器是智能化——更精準快速地定位學生的知與不知,節省掉判斷的時間。“以前要了解學生不會的知識點需要很長時間,比如說,要做很多套卷子,反覆做涵蓋各種知識點的各種題型,才能知道哪裡沒有掌握好。而現在只需要很少量的題目,就能在短時間判斷學生的問題,定製化給予解決方案。”

知識圖譜火了!業內:從大數據到人工智能的臺階

那麼,什麼是知識圖譜?以及如何深刻理解知識圖譜的意義?

事實上,知識圖譜(Knowledge Graph)的概念始於谷歌公司在2012年推出的“谷歌知識圖譜”,並利用其來增強搜索引擎的功能,這開啟了大規模知識圖譜在互聯網語義搜索中應用,同時也將“知識圖譜”的概念正式推向了前臺。

中國計算機學會常務理事、拓爾思知識圖譜研究院院長臧根林認為,知識圖譜的關鍵在於從“知識”到“圖譜”的降維,它“火起來”與人工智能的發展直接相關,知識圖譜其實就是從“大數據”走向“人工智能”的一個臺階。

過去數年,5G、物聯網、人工智能、雲計算等一批新興技術經歷了從“前沿技術”到“落地應用”的發展,在這批新興技術的驅動下,更多功能更為強大的應用也正緊隨其後不斷湧現,新一輪“科技革命”的呼聲已日漸高漲。相較以往的數次工業革命,這一次的科技浪潮帶來的是“大數據”時代。5G、物聯網等技術以及相應的應用所涉及到的數據產生、採集、傳輸和處理環節將帶來超乎想象的數據吞吐量。

儘管大數據的火熱已持續數年並幾乎深入各行各業,但中國科學院院士、中國人民解放軍軍事科學院副院長梅宏近日在一場演講中表示,當前大數據的應用尚處於初級階段,根據大數據分析預測未來、指導實踐的深層次應用將成為未來發展的重點。他還指出,中國的數據總量預計到2020年將佔全球數據總量的21%,但核心技術仍然薄弱。

以下是摘編自21世紀經濟報道對臧根林的採訪,詳細解釋了知識圖譜是如何搭建從大數據走向人工智能的臺階,以及其構建的核心要素。(在不影響閱讀和理解的基礎上,段落有刪節)

大數據走向人工智能的臺階

《21世紀》:

知識圖譜是如何“火起來”的?

臧根林:

人工智能“火了”,它的很多模型要在大數據基礎上運行,而完全依靠原來的大數據結構很多模型是轉不起來的。知識圖譜其實就是從大數據走向人工智能的一個臺階,其思路就是,把一些計算機現在還無法理解甚至人自己都整理不出來的複雜的維度剔除,降維到能夠理清的程度,就是“知識降維”。

我常說,人工智能就比如一條狗。狗明白包子能吃,訓練時,它叼過棍子來就能吃到包子,這它也能明白;但加上時間維度,叼棍子過來明天能吃包子,它就很難明白。為了將狗訓練成警犬,需要把知識梳理成它能夠明白的。我們需要訓練狗,因為它的嗅覺、速度等“硬件”比我們強;計算機則是存儲能力、計算能力遠勝我們。把知識的三要素,實體、屬性、關係理清楚,讓計算機能夠明白,它就可以為我們服務。

例如,人工智能目前的一大應用是人臉識別。如果我覺得你像某某,這個判斷是一個非常複雜的過程,計算機是無法模擬的。它只能降維到對人臉的照片各個點來計算,相似度達到比如90%以上,得出你們長得像的結論。計算機只能模擬可計算的部分。人的感覺它還無能為力,而這正是知識圖譜首先要剔除的。

《21世紀》:

所以是為了適應計算機?

臧根林:

是的,我們投入精力去整理這些知識,就是為了教會它。重複告訴它哪樣錯了、哪樣對了,它就會越學越厲害,思維接近我們的要求,這個過程就是有監督機器學習

智能需要投入人工訓練

《21世紀》:

知識圖譜該如何構建?

臧根林:

知識圖譜的構建相當於把知識先提取出來,再把他們之間的關係屬性找出來,這個過程有一套規則,也就是對事物屬性的定義,不同知識圖譜之間規則可能完全不同。

目前知識圖譜主要分兩大類,一類是谷歌、百度等在做的通用知識圖譜。其核心之一是入口。用戶提問時可能很模糊,或是自己也不知道精確問題,這就需要語義分析。二是組織數據和知識,給你呈現出想要的結果。

另一類就是我們拓爾思在做的領域知識圖譜,它將很多東西簡化掉。例如,公安部門拿來破案的知識圖譜,使用者都是辦案警察,清楚自己要查什麼,也就無需在入口處花費很大力氣。這個知識庫會更“乾脆利落”,問題直接、答案直接、功能強大。

通用知識圖譜什麼都有也就意味著難以計算,而領域知識圖譜最終會能夠進行“智能計算”。本來靠人會很模糊的事情,找到合適的模型,按照屬性可統計、可計算,很多甚至原本想不到、判斷不出的內容都可以量化。

《21世紀》:

是否需要行業專家的參與?

臧根林:

領域知識圖譜一定需要這個領域的專家參與,只有技術是不能落地的。有個說法就是,人工智能,有多少智能就要投入多少人工。沒有人來訓練,所謂的智能其實很傻。

例如對文章的分析,靠計算機去採集,用一些語義分析的軟件將文章分析出來。文章裡的關鍵詞提煉出來之後,就從“非結構化”變成“結構化”了,變成可計算了,變成了一種知識圖譜架構。技術這邊只能提供平臺支持,我們不知道到底要提取哪些關鍵詞,這就需要相關領域的專家參與。再之後如果提出更高的要求,增加一些智能化,比如自動打分。這也需要行業專家和技術人員一起來設計模型。

數據垃圾分類:未來需要數據清洗和優化

《21世紀》:

能否舉例哪個行業應用比較多、比較成功?

臧根林:

實際上在中國,政府領域用得很好的是公安系統。公安領域自2014年應用大數據,它早已改變了警察的工作方式。

例如,過去傳銷過千人就叫大案,而現在網絡時代,大家都有智能手機,傳銷會病毒式蔓延。例如“雲聯惠傳銷案”,全國涉及到500多萬人;e租寶,受害者過百萬。這樣數據量的案件,不用大數據是很難辦理的。

中國開始講大數據是在2012年,2013年就有應用出現。到現在實際只有五六年時間,但已幾乎應用於各行各業。大數據已經從“高大上”的技術,變成了“基礎技術”。也正是因此,才引發了“大數據怎麼走向人工智能”的問題。

《21世紀》:

知識圖譜的標準化方面有什麼進展?

臧根林:

拓爾思參與到了IEEE(電氣和電子工程師協會)的一個知識圖譜標準設計單位。但實際上,

大數據、知識圖譜如這類應用層面的內容,都不是學術界在前,而是企業在前。前幾年很多大學設立大數據專業、成立大數據學院,但是他們甚至難以找到合適的教材。應用技術,大家往前推的過程中是倒過來提煉、提煉出來再往前推這樣一個迭代的過程。

《21世紀》:

隨著5G、物聯網等技術的發展落地,數據大爆發的時代會有哪些挑戰?

臧根林:

原來是缺數據,大家都在拼命要數據。但是當數據太多之後,整理數據或是要產生結果就會很麻煩。現在還比較少有人去研究怎樣把沒用的數據剔除、清理掉,這一塊將來成本一定會很高。

這就像之前餓肚子,生活改善之後,一開始一定會大魚大肉拼命吃,但過了那個階段就要開始減肥和健身。這其實就是知識圖譜要做的事情,今後數據一定會有一個優化的過程,這會是一個很大的挑戰。

目前的數據清洗實際上還是想辦法往裡進,而未來的數據優化過程中,清洗相當於是垃圾分類。數據多了一定會帶來數據垃圾,完全丟掉又可能會帶來損失,這就需要數據垃圾的分類。


分享到:


相關文章: