「Peak Labs」發佈搜索引擎「magi.com」,用NLU和遷移學習技術為AI提供知識體系

文 | 華木三變

36氪此前報道過的「Peak Labs」公司近日發佈了其人工智能系統Magi的公眾版「magi.com」。通過這一搜索引擎,用戶輸入關鍵詞,即可獲取Magi從互聯網文本中自主學習到的結構化知識和網頁搜索結果,每個結構化結果後面都會附上來源鏈接和其可信度評分。

「Peak Labs」发布搜索引擎「magi.com」,用NLU和迁移学习技术为AI提供知识体系

magi.com 搜索示例

Magi是基於機器學習的信息抽取和檢索系統,它不使用 HTML 標籤等半結構化特徵,無需預設領域和關鍵詞,直接處理自然語言文本。它能夠將互聯網上的公開文本和企業內部的私有數據提取歸納為結構化知識,為用戶提供自主更新的、可量化解析的、可溯源的知識體系。而且這個系統具有終身學習能力(Lifelong machine learning),能夠開放地獲取並自主學習互聯網上的信息,不斷增強自身對自然語言文本的處理能力。

互聯網語料質量參差不⻬,抄襲拼接、自動生成、惡意篡改等行為會造成大量事實性錯誤,甚至可能讓模型在持續的學習調整過程中越來越差。此前涉及網絡語料處理的程序常使用白名單機制迴避該問題,但白名單機制在大幅過濾掉不可靠的來源的同時,也損失了大量的有價值的信息。Magi通過自主研發的全網搜索引擎,引入傳統搜索中的統計信號,輔助評估信息的質量。

“在學術領域,論文被引用次數越多,通常就越有影響力;在網頁搜索中,一個URL的反鏈越多,該網頁具有越高的重要性。對於知識,當某一事實在更多上下文中被表達,其應當具有更高的正確性和流傳度。”Peak Labs創始人季逸超告訴36氪,“Magi會對來源質量高且具有多種上下文和表達方式的事實給出更高的評價。因為不同的上下文與表達方式表明相應內容經過了再次提煉,或者有多個角度對其進行闡釋。而且多種輸入的交叉驗證還降低了AI自身犯錯的風險。”

在最後的結果頁面,magi.com會為每個結果給出可信度評分,然後用顏色區分可信度高低,綠色表示可信度較高,紅色則較低。

「Peak Labs」发布搜索引擎「magi.com」,用NLU和迁移学习技术为AI提供知识体系

magi.com使用顏色區分可信度

“另外,需要強調是,magi.com是我們技術的對外展現形式和背景知識數據庫,我們真正做商業化的,是Magi背後的技術——基於自然語言理解(NLU)和遷移學習的開放信息提取。”季逸超說。

季逸超告訴36氪,Magi能為企業客戶提供的服務包括:

  1. 結構化數據和知識體系。Magi所學習的是互聯網上的通用背景知識,而此前這些以文本形式存在的知識難以被AI直接利用。該服務主要針對需要結構化數據的公司,例如各種語音助手和決策引擎,它們能夠以DSL或向量化的形式從Magi的數據庫獲取信息,強化自身表現。

  2. 定製化自然語言理解解決方案和企業輔助類RPA。Peak Labs以遷移學習技術為基礎,使用自有的預訓練數據和Magi積累的數據來提升信息提取服務的性能。金融、醫療、諮詢等垂直行業的客戶只需要提供少量樣本即可獲得定製的自然語言理解方案。例如在旅遊行業,Magi可以被定製來自動閱讀用戶撰寫的遊記併發掘出POI和相關屬性。

「Peak Labs」发布搜索引擎「magi.com」,用NLU和迁移学习技术为AI提供知识体系

Magi定製服務訓練界面

數據作為Al訓練的“燃料”,是其產生價值的的必要條件。據IDC統計,全球每年生產的數據量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%到90%是文本、圖片、音視頻等非結構化數據。而非結構化不能被AI讀取,因而需要處理結構化數據。這一處理過程就是中國人工智能基礎數據服務中的一部分。

此前,艾瑞諮詢發佈了《2019年中國人工智能基礎數據服務研究報告》顯示2018年,中國人工智能基礎數據服務市場規模為25.86億元,其中數據資源定製服務佔比86.2%預計2023年市場規模突破113億元。行業年複合增長率為23.5%對於創業公司來說,此時切入該行業仍能有發展機會。

另一方面,許多細分垂直行業缺乏足夠的結構化數據來訓練AI模型,如何利用小樣本數據訓練AI已成趨勢。“我們發現,結構化數據的稀缺極大限制了人工智能在細分行業的應用。從零構建定製化的自然語言理解方案需要專業人才和大量時間成本——單單為了研發一個醫療行業人工智能而讓忙碌的醫生們抽出數個月進行眾包標註是難以想象的。”季逸超說。

從技術的角度來說,Magi採取的遷移學習NLU算法,具有的優勢在於只需使用通用數據訓練AI引擎,就能使AI引擎很好的適用專業垂直領域。Magi首先使用互聯網知識和自有的數據進行預訓練,而專業垂直領域的任務僅需極少量人工數據標註,就能達到大規模數據的訓練效果。對於企業來說,這一技術也就降低了獲得定製化AI的成本。

“我們希望Magi能像文字知識的ImageNet一樣,幫助企業降低AI定製化的成本。”季逸超說。


分享到:


相關文章: