人工智能數據發展的國際比較:中國、歐盟和美國

人工智能數據發展的國際比較:中國、歐盟和美國

來源:中國科協創新戰略研究院《創新研究報告》

第14期(總第346期)2020-03-16

編者按:2019年8月,美國信息技術與創新基金會(Information Technology and Innovation Foundation,ITIF)的數據創新中心發佈了《誰會在人工智能角逐中獲勝:中國、歐盟或美國》(Who Is Winning the AI Race: China, the EU or the United States?)。該報告通過對人才、科研、開發、應用、數據和硬件六類指標進行比較,對中國、歐盟和美國人工智能發展現狀進行了測算。本報告主要對六類指標中的數據指標進行分析,衡量中國、歐盟和美國有關互聯網活動、物聯網、生產力(即大數據分析)、移動支付、電子病歷、遺傳學和高分辨率地圖數據的數量和可用性。

一、各國決策者已經意識到數據的重要性

人工智能系統通常依賴大量數據進行訓練。大型數據集可幫助人工智能系統開發高度精確的模型,以執行從無地圖導航到人臉識別再到回答Google搜索查詢等各種任務。此外,機器學習技術使人工智能系統能夠識別大型數據集難以被人類感知或無法感知的細微之處。人工智能系統執行某些任務要比人類專家更快更好,例如,在換相斷層掃描中識別肺癌的徵兆。

2015年,為支持大數據的使用,我國將開放數據列為十個國家項目之一。歐盟關於人工智能的協調計劃指出:人工智能需要開發大量數據,數據集越大人工智能越能更好地學習和發現微妙的數據關係。美國總統特朗普的AI倡議指示政府“增強對高質量且完全可追溯的聯邦數據的訪問”,並指示美國管理和預算局識別並解決數據質量監控。

目前,沒有直接的度量標準可以衡量特定位置的人工智能可用數據的相對數量和價值,但是當人們從事各種在線和離線活動時(如利用搜索引擎在社交媒體上進行發佈和購物),會產生大量的數據。這些活動產生的數據對於機器學習模型可能具有非常高的價值。因此,一種估算國家或地區數據潛在價值的方法是考察參與數字活動的人口百分比。

二、AI數據發展情況

1. 固定寬帶訂閱

互聯網用戶每次瀏覽網頁時都會生成數據,人工智能系統可以分析這些數據以提高廣告推送的有效性。該指標跟蹤的是寬帶訂閱的數量。如表1所示,截至2018年,我國固定寬帶用戶數量(3.94億個)多於歐盟(1.76億個)和美國(1.10億個)。每100人中,歐盟固定寬帶用戶數量(35個)多於美國(34個)和中國(28個)。

人工智能數據發展的國際比較:中國、歐盟和美國

表1 2018年中國、歐盟和美國固定寬帶用戶數


2. 移動支付

技術公司可以在每次消費者使用移動設備購買產品時對所產生的數據進行分析。報告將“移動支付”定義為使用移動設備進行掃描並在銷售點進行交易,不包括線上購買。由表2可知,2018年我國有超過5.25億人使用了移動支付,歐盟有4400萬人,而美國有5500萬人。2018年,估計有45%的中國人使用了移動支付,而美國約有20%,英國約有13%,德國約有8%。

人工智能數據發展的國際比較:中國、歐盟和美國

表2 2018年中國、歐盟和美國使用移動支付的人數

​注:歐盟的數據僅適用於德國和英國

3. 物聯網數據

物聯網設備可以生成大量數據,機構可以將其用於訓練機器學習系統。例如,這些系統可以自動執行各種任務,從監視鐵軌的運行狀況到動態控制交通信號燈(緩解交通擁堵)再到跟蹤汙染。由表3可知,我國的物聯網數據總量(1.52億TB)多於美國(6900萬TB)和歐盟(5300萬TB),每100名工人中,美國的物聯網數據量(42TB)多於歐盟(21TB)和中國(19TB)。

人工智能數據發展的國際比較:中國、歐盟和美國

表3 2018年中國、歐盟和美國產生的新IoT數據量


4. 生產力數據

該指標跟蹤的是估計的生產力數據量,該數據是大數據和元數據的組合。由表4可知,美國的新生產力數據量(9.66億TB)多於中國(6.84億TB)和歐盟(5.83億TB)。每100名工人中,美國的新生產力數據量(586TB)多於歐盟(234TB)和中國(87TB)。

人工智能數據發展的國際比較:中國、歐盟和美國

表4 2018年中國、歐盟和美國產生的新生產力數據量


5. 電子病歷

研究人員已經利用電子病歷開發了可以執行多種功能的AI系統,從預測患者是否會住院到輔助追蹤疾病傳播。目前還無法獲得有關中國、歐盟所有成員國和美國有關採用電子病歷的全面數據。但是,定量和定性信息的結合表明,美國所擁有的電子病歷數量多於歐盟和中國。同時,美國在人均電子病歷獲取量上也最多,其次是歐盟和中國。

在所有篩查的地區,電子病歷系統的採用率相對較高,但跨境的系統提供商之間訪問電子病歷的可用性並不高。例如,2015年的一項調查發現,84%的美國初級保健醫生、99%的瑞典醫生、98%的荷蘭醫生、98%的英國醫生、84%的德國醫生使用了電子病歷系統。2017年,超過96%的美國醫院使用了經過認證的電子病歷系統。

我國和歐盟的電子病歷系統的互操作性較低。我國不同醫院經常會使用無法互操作的電子病歷系統,迫使患者在不同醫院就醫時要攜帶打印的健康記錄。歐盟跨境訪問和共享醫療數據的能力差異很大,這限制了在跨境數據上訓練AI系統的能力,導致許多歐洲公民無法使用電子病歷。

6. 遺傳數據

遺傳數據有助於改善人類健康的有用數據。AI可以通過分析DNA序列以發現與癌症和心臟病等疾病相關的遺傳物質突變。該指標跟蹤的是來自中國、歐盟和美國的個人遺傳數據的可用性。美國在數量上絕對領先,其次是中國和歐盟。儘管很難將中國和歐盟進行比較,但據近年來中國基因檢測行業的不斷增長以及歐盟發佈的禁令情況估計,我國的人均佔有率領先於歐盟。

截至2017年,美國有超過1500萬消費者購買了基因檢測試劑盒,我國只有30萬消費者。截至2019年,三家美國公司(Ancestry.com,23andMe和Gene by Gene)已售出約2500萬套測試套件。23魔方是100多家中國基因檢測公司中最大的一家,擁有200000多名用戶。美國公司更容易獲得遺傳數據。相比之下,據德國和法國發布的直接面向消費者(約佔歐盟人口總數的30%)的基因檢測禁令表明,美國和中國領先於歐盟。

7. 高分辨率地圖數據

高分辨率地圖數據對包括自動駕駛汽車在內的眾多AI系統的開發都非常重要。該指示器主要跟蹤1米或高分辨率3D高程數據(地形表面的3D計算機圖形表示)的可用性。這一數據美國領先於該指標,緊隨其後的是歐盟和中國。截至2019年4月,美國45%的州都有1米或更高分辨率的數據。相比之下,大概只有6個歐盟成員國(約佔歐盟地理區域的15%)為公眾提供完整的高分辨率3D高程數據,其餘成員國為公眾提供部分覆蓋或低分辨率覆蓋,或者不向公眾公開數據。

8. 數據監管壁壘

該報告評估了中國、歐盟和美國的相關法規如何影響數據的收集和使用。該報告認為,歐盟的監管環境對數據的收集和使用限制性最大,其次是美國和中國。通過評估得出以上排名有以下幾點原因:

首先,GDPR通過使組織更難收集和共享數據造成了人為的數據短缺。該法律規範了組織如何使用或處理居住在歐盟的所有人的數據,並且禁止組織將數據用於其最初收集數據以外的任何活動。對於企業而言,瞭解哪些數據最有價值或將產生最重要的見解並不總是可行的。實際上,通過合併數據集很難預測其未來將創造的價值。通過對數據的收集和使用施加嚴格的限制,GDPR使企業使用消費者創建的數據更具挑戰性。

其次,美國製定了多項聯邦數據隱私法,包括特定行業和州的隱私法。例如,《健康保險流通和責任法案》(HIPAA)和《家庭教育權利和隱私法案》(FERPA)分別對醫療和教育記錄的使用施加了多重限制。僅在加利福尼亞州,就有超過25項隱私和數據安全法,包括2018年通過的《加利福尼亞消費者隱私法》,該法律對組織收集和使用數據進行了嚴格限制,並於2020年1月1日生效。

最後,我國於2018年制定了個人信息保護國家標準。要求組織僅收集所需的數據量,僅將其用於原始目的,並在最短的時間內保留它們。此外,我國監管機構已經開始利用現有法律來加強執法活動,對1000個移動應用程序進行嚴格審查,吊銷那些對用戶數據處理不當的商業許可證。

儘管如此,與美國和歐洲同行相比,我國企業在收集和使用消費者數據方面所面臨的限制較少。美國和歐盟的法律通常會對此加以限制。

三、總結

1.我國未來可能擁有更大的數據優勢

我國在所收集的數據和大型互聯網公司(可能也是最善於利用AI的公司)可獲得的數據量方面均處於領先地位。我國的政策變化可以緩解多種數據缺陷,意味著將來在數據上可能會擁有更大的優勢。

2.我國互聯網公司未來將擁有更廣泛的數據

與西方國家的同行相比,中國大型互聯網公司可能更具有數據優勢。

首先,西方國家的服務在公司之間是相對分散的,例如,亞馬遜用戶可以購買雜貨,但不能預訂酒店;而我國科技企業已經創建了多合一超級應用程序,例如,騰訊擁有的應用程序微信,允許用戶打車、訂餐、預訂酒店、管理電話費及購買國際機票等。美國以上服務及數據在Uber、Postmates、Expedia、Verizon和Venmo等企業之間劃分。

其次,我國的科技公司已將自己融入到傳統的離線活動中。例如,滴滴打車已經購買了加油站和汽車維修店。此外,美團點評的起源與Yelp相似,不僅為用戶提供了一個比較方便的平臺,還可以處理送餐服務。

最後,與美國同行相比,我國互聯網公司有機會收集更多種類和深度的數據。但是,一些美國技術巨頭的更廣泛的全球影響力為其提供了自己的數據優勢。例如,Facebook有超過20億用戶,而微信只有11億用戶。如果我國公司在國際上佔有更多的優勢,如使用社交媒體視頻應用程序TikTok,那麼美國的優勢將會減弱。

3.我國應釋放數據潛力

美國公司在保險和金融等行業中一直在收集結構化數據,如貸款還款率。我國公司採用企業數據存儲的速度較慢,因此從此類數據中獲取見解和價值更加困難。在創建幫助組織跨平臺共享數據方面我國有待加強。許多國家正在從全球跨境數據共享的增加中受益,我國的互聯網生態系統處於封閉狀態,限制了它從國外共享和接收的數據量。

https://www.datainnovation.org/2019/08/who-is-winning-the-ai-race- china-the-eu-or-the-united-states.

主編:趙立新

編輯部成員:張麗琴 王國強 劉薇 王達 曹學偉 苗晶良

感謝您的支持與關注,歡迎賜稿交流

投稿郵箱:[email protected]


分享到:


相關文章: