文 | 真梓(微信ID:315159284)
編輯 | 佳敏(微信ID:Jamie0826)
若能將各來源的數據匯聚後應用,數據的價值將會指數級上升。理想很美好,但數據的自由流動常伴隨著隱私洩露問題。
有沒有一種方法能夠在安全合規、保障用戶隱私的前提下,使數據在各個企業/機構之間自由流動,併產生應有的價值?
隱私計算或許是一個答案。
隱私計算,廣義上是指面向隱私保護的計算系統與技術,涵蓋數據的產生、存儲、計算、應用、銷燬等信息流程全過程,想要達成的效果是使數據在各個環節中“可用不可見”。目前最先落地於金融、醫療等行業。
36氪觀察到,約從2018年開始,無論是BAT等大廠,還是成熟的大數據公司,或是初創型科技企業,已接連入局隱私計算。
資本市場也動作頻頻,成立兩年左右的「華控清交」已完成多輪融資,投資方包括清華大學、中國互聯網金融協會、北京市海淀區創業扶持基金、香港交易及結算所有限公司(港交所)、聯想集團和高榕資本等。其他受到關注的公司還包括「翼方健數」、「數牘科技」等,它們背後也有奇績創壇、紅杉中國等明星機構。「鍩崴科技」、「光之樹」等公司也在近一年的時間裡,接連獲得投資。
經36氪訪談,許多人認為這個由政策驅動、市場需求催生的新賽道,背後或許蘊藏著新的平臺型機會——在數據合規的要求下,誰能匯聚海量優質的數據源,並以高效的技術/產品方式幫助需求方提取可用數據,實現數據價值,誰就可能成為新的大數據平臺。
而平臺型機會歷來是VC機構最青睞的"Big Story"——業務上可攻可守,終局是贏家通吃,未來能為投資人帶來高估值、高回報。
從這一觀察出發,我們試圖在本文回答以下問題:
1、隱私計算為何在此時受到高度關注?
2、隱私計算如何在技術上實現"可用不可見"?目前主要的玩家有哪幾類?
3、為什麼說隱私計算是一個平臺型機會?會採用什麼樣的商業模式?
4、什麼樣的隱私計算公司能夠成為平臺?
5、行業火熱,機構仍有投資機會嗎?
一. 隱私計算的高關注度緣何而來?
數據流通和隱私保護的矛盾由來已久,那為何隱私計算會在此時獲得超乎往常的關注?背後的核心驅動力主要有兩個:政策上的合規避險,商業上的數據流通價值。
(1)政策上的合規避險
隱私保護和數據流通的雙重矛盾由來已久,但一直到Facebook、華住集團等大規模數據洩露事件頻發,關注度和討論度才進一步提升。
政策的敏感度在全球範圍內顯露。國際上,歐盟於2016年發佈、2018年實施的《通用數據保護條例》(GDPR),是目前最全面、應用最廣泛的隱私保護法規之一。GDPR對違反某些重要規定的罰款最高可達2000萬歐元,或全球年營業額的4%。
中國的部分法律法規中也可找到相關蹤跡。2016年11月,中國發布了《中華人民共和國網絡安全法》,這是第一部和網絡安全、數據保護相關的國家級法律,要求互聯網企業不得洩露或篡改收集得到的用戶個人信息。2020年3月6日,《信息安全技術 個人信息安全規範》發佈,從更為細緻的角度明確了各條款的具體要求。在《民法典》中,也已納入個人信息保護的相關內容。最新的動向是在今年7月2日,中國人大網發佈《數據安全法(草案)》,也強調了數據安全和發展共存的意義。
在強監管趨勢下,過去幾年已有一些公司由於類似問題遭受重創,這些公司已紛紛停止相關業務,其中一些尚有餘力者也希望能摸索出符合合規要求的業務路線。
這一系列法規的接連出現,都意味著個人隱私與數據流通的矛盾已經上升至法律層面,以往粗放型的數據交易模式將由灰色地帶上升至觸犯法律紅線的行為。
(2)流通的數據才有價值
為了保護數據安全,最簡單的方法就是停止數據的使用和流通,但這種逃避的方式,會給AI、金融、醫療等行業帶來打擊。
在AI領域,海量數據是計算機視覺、自然語言處理、語音識別等技術發展的基礎——它們需要經過海量數據的訓練才能達到理想性能水準。在金融業中,金融機構需要收集消費者的資質信息、購買能力、偏好等數據,以便為信用良好的消費人群提供定製化的金融服務。在醫療行業,精準醫學、AI製藥等細分方向的發展也和數據流通息息相關。
今年的“新基建”規劃也提到了大數據產業,根據國家發改委的官方解讀,新型基礎設施之一的融合基礎設施,主要是指深度應用互聯網、大數據、人工智能等技術,支撐傳統基礎設施轉型升級,比如,智能交通基礎設施、智慧能源基礎設施等。並且,在日前發佈的《中共中央國務院關於構建更加完善的要素市場化配置體制機制的意見》中,數據與土地、勞動力、資本、技術等傳統要素並列為要素之一,這表明數據正在成為現階段最核心的生產要素。
在政策驅動下,可用不可見的隱私計算,成了既滿足合規避險又滿足業務需求的優解答案,資本自然聞風而動。
二. 隱私計算如何在技術上實現數據"可用不可見"?主要玩家有哪幾類?
從技術角度出發,和隱私計算相關聯的概念很多——多方安全計算(MPC)、可信硬件(TEE)、聯邦學習、差分隱私、區塊鏈等。目前業內採用的主流技術包括三類:多方安全計算(MPC)、聯邦學習和可信執行環境(TEE)。
(1)多方安全計算
多方安全計算(Secure Multi-Party Computation,簡稱MPC)是指在無可信第三方情況下,通過多方共同參與,安全地完成某種協同計算。即在一個分佈式環境中,多個參與者共同完成對某個函數的計算,該函數的輸入信息分別由這些參與者提供,且每個參與者的輸入信息是保密的,在計算結束後,各參與者獲得正確的計算結果,但無法獲知其他參與者的輸入信息。這種方式主要基於密碼學的一些隱私技術,相關概念還包括同態加密(Homomorpgic Encryption)、不經意傳輸(Oblivious Transfer)、混淆電路(Garbled Circuit)和秘密共享(Secret Sharing)等。
(2)聯邦學習
聯邦機器學習(Federated machine learning/Federated Learning),又名聯邦學習,聯合學習、聯盟學習。聯邦機器學習是一個機器學習框架,能幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模。聯邦學習的系統架構大致分為橫向聯邦學習、縱向聯邦學習、遷移學習三類,分別對應不同數據集的差異情況。
(3)可信執行環境(TEE)
以上兩種方式主要是在軟件和算法層面實現隱私計算。可信執行環境(TEE)則基於硬件實現。
這種方式的思路是在CPU 上構建一塊安全區域,這塊區域的作用是給數據和代碼的執行提供一個更安全的空間,在這個安全區域內進行相關的計算。比較有代表性的是Intel-SGX、ARM-TrustZone等。
這三種方式在安全性、工程能力和落地場景等方面存在不同的特點,我們可以通過下文這張對比圖,瞭解不同技術思路的優劣勢。
36氪根據採訪和公開信息整理
當然,這三種技術思路可以在不同場景下彼此結合,也可以和差分隱私、區塊鏈等技術結合,共同保證隱私計算的效果。事實上,隱私計算企業為客戶提供的,大多都是融合了多種技術思路的解決方案,但也會根據公司已有客戶、此前技術積累等因素存在不同程度的倚重。
至於該領域目前的玩家,我們認為大致可分為以下四類:從成立初就專攻隱私計算的初創公司、過去為銀行等客戶提供大數據服務的企業及金融機構本身、泛區塊鏈背景公司和BAT等綜合型大廠。
隱私計算四類主流玩家(排名不分先後)
在落地中,金融領域是當前的強需求行業,也是多數公司此時主要擴展的行業。
其中,信用貸類產品是重點。為降低放貸風險,金融機構需要通過授信模型確認貸款風險、貸款數額等信息。這裡的授信模型需要調用多方數據,而隱私計算能滿足構建授信模型時的數據合規共享需求。
醫療行業同樣需求較高,翼方健數、鍩崴科技的產品多在這一行業落地。科研是醫療行業的需求之一,目前醫療科研的發展一定程度上被可用數據的範圍與數量所制約。一些資料顯示,若要開發出性能良好的醫療AI,需要一萬名專家花費10年時間才可能收集到足夠的可用數據。而隱私計算可以使大家在保護隱私的前提下打破數據孤島,獲得足夠的數據加速研發進程。
三. 為什麼說隱私計算是一個平臺型機會?它會用什麼商業模式來賺錢?
(1)市場前景、上下游分散、平臺型屬性
“以後所有涉及到數據流通的環節,都會應用到隱私計算。”儘管行業剛剛起步,但創業者對這一技術的應用前景卻無比樂觀。並由此推導得出,這是一個擁有廣闊前景的大市場。
這種觀點將數據市場中所有基於應用數據的的份額,都納入了隱私計算的市場規模中。這可能有所誇大,從當下來看,比較切合實際的市場規模計算方式應該和具體落地場景相結合。
比如在金融領域中,傳統的貸款需要提供抵押物,個人授權具體銀行從人民銀行處拿到徵信報告就可以得到貸款。而在進行類似花唄的創新消費金融業務時,可能需要更多的數據來源形成更精準的授信模型。這些數據來源包括社保數據、醫保數據、同業數據、其他用戶行為數據等,這就牽扯到不同數據擁有方之間的數據合規流通問題,需要隱私計算來幫忙解決。
所以,隱私計算在金融領域的市場規模可能要框定類似消費金融等具體場景,再和這類銀行的IT支出數據結合計算。其他行業,如隱私計算在醫療領域的市場規模也需要結合具體場景測算。
但從理論上來看,這依然是一個需求激增、高速增長的行業,市場規模或不及大數據行業整體規模,但也會高於傳統數據安全市場。
平臺型機會往往誕生於雙邊主體分散、需求多元的行業,如此一來平臺在其中進行連接的價值才能得以體現。以隱私計算目前落地最多的金融、醫療行業的數據產業鏈為例,上游數據來源有各類型的APP、三大運營商、徵信公司、醫療大數據國家隊、各家分散的醫院數據等等,下游目前集中於銀行、保險公司、藥廠等,未來還可能包括需要合規使用大數據的公司,行業特性滿足平臺誕生的前提。
我們再來看,為何隱私計算是其中的平臺機會。
如果簡單將數據產業劃分為數據源、數據流通、數據應用三個部分,以往的數據流通可能存在以下現象——一些大數據公司通過爬取技術抓取數據後,倒賣數據和以此生成的報告,而這無疑侵犯了用戶隱私,且存在法律風險。
在政策開始逐步禁止企業洩漏和篡改用戶數據後,能夠實現"可用不可見"的隱私計算,成為了新的數據流通渠道,進而為上游的數據源,下游對數據合規分享、使用有需求的各行業客戶,進行數據調用、流通的連接匹配。
而在政策和需求的雙驅動力下,會有更多不限於金融、醫療行業的企業客戶,意識到需要在儲存和使用數據的同時保護隱私安全,一家隱私計算公司具備網羅數據源、技術/產品和客戶的能力,就有機會形成一張覆蓋各行業的數據網,成為一個超大規模的隱私計算平臺。當前隱私計算入局者眾多,平臺當然更可能從已有的公司中衍生而來。
(2)用什麼商業模式來賺錢?
在商業模式上,相比單純售賣軟硬件的方案,平臺不僅邊際成本更低,同時還可以與各種數據源、技術提供方探討抽成、分潤的盈利模式。
具體來說,邊際成本更低體現在:
隱私計算企業服務上游數據源時,需要處理各種千奇百怪格式的影相、圖表、文字數據,尤其是醫院的數據,處理起來會相當複雜。但數據一旦介入,就可以一勞永逸。
而在面向下游需求方時,能夠快速完成軟硬件部署,之後需要做的是持續運營。而行業長期存在定製化需求,私有化部署將持續存在,這可能會拉高客戶的轉換成本,後續的數據沉澱和運營或能進一步增強客戶對平臺的黏性。
而相比一錘子買賣,根據數據交易總量,按流量抽成,是把隱私計算從一個技術服務商變成平臺機會最刺激的地方——原本只能從客戶的IT投入中切分一塊蛋糕出來,主要價值體現在於合規避險,現在卻可以在整個數據產業鏈的流通環節,按照數據使用量或交易規模獲取分潤,還可以向數據源、技術提供方收取"准入費"或者是其他增值服務費(如為獲取展示位、精準推薦的營銷廣告費用),蛋糕也就被做大了。
但目前尚未有隱私計算企業真正通過平臺模式獲得收入,按照軟硬件產品部署和項目方式收費仍然是各路玩家現有的主流方式。從邏輯上,平臺思路美好且天衣無縫。但目前行業還處於早期教育市場、拓展客戶階段,如果客戶方長期處於交易的強勢地位,項目制收入將會成為常態,平臺也將成為空談。由此衍生的一個問題是,隱私計算平臺的關鍵點和風險點是什麼?
四. 什麼樣的隱私計算公司能夠成為平臺?
我們認為,具備工程落地能力、整合足夠高價值數據源、在此前已有相關行業客戶積累,以及能證明公信力的公司更有機會長成平臺。
這一判斷的根源來自,所有平臺要形成壁壘的關鍵點都在於規模,隱私計算也不例外,想要建成平臺,就必須壟斷足夠多的上下游。這時,隱私計算服務商不得不面對以下四個問題:(1)工程落地能力;(2)高價值數據源的合作態度;(3)平臺可信性;(4)效率究竟能提升到什麼程度?
(1)工程落地能力
在實際商用環節,工程落地能力是檢驗產品的重要指標,具體可拆解為算力和帶寬兩方面,其中算力影響數據處理能力,帶寬影響數據交互速度。
算力掣肘隱私計算已久。一些包含在隱私計算方案內的技術,比如多方安全計算並不是新鮮事——早在上個世紀八十年代,圖靈獎得主姚期智院士就創立了多方安全計算理論。但影響該理論落地的一個重要因素就是算力,「華控清交」CEO張旭東曾在一次分享中提到,公司成立的目標之一就是克服算力問題,讓多方安全計算真正商用。因而在實際操作中,「華控清交」採用了明密文結合的方式來提升算力。
在帶寬方面,「360金融」曾做過相關調研,其首席數據科學家沈贇稱,在實際運作過程中,聯邦學習對網絡帶寬要求比較高,在學習過程中需要把中間計算值相互傳輸,迭代次數越多需要交互的中間數據也越多, 帶寬不夠會拖慢學習的速度,甚至出現學習中斷等一些異常情況。
廣州金控徵信服務有限公司(簡稱「廣金徵信」)大數據負責人仇小星介紹,由於廣金徵信目前的重點項目信易貸平臺(廣州站),為中小企業提供以信用為基礎的新型融資對接服務,彙集了來自政府部門、金融機構、第三方信用服務機構等多渠道的企業信用信息。為達成這些數據在安全前提下的開放應用,公司決定採用隱私計算產品輔助數據共享、建模。目前該公司的合作方為「富數科技」,這是一個隱私計算產品在政務大數據場景中的落地案例。
在實際使用過程中,仇小星認為當前多數隱私計算類產品可以持續提高數據處理的效率,“現在如果數據量大一些,聯邦學習的處理效率就會有所下降,相比傳統建模速度還是有明顯下降的。”他補充到,由於目前金融行業的建模訓練頻次不是非常高,所以這樣的效率依舊在接受範圍內。
(2)高價值數據源的合作態度
數據源是進行數據處理的基礎,現有隱私計算公司為客戶提供的解決方案,本質上是改變了數據流通的方式,但數據本身的質量才決定數據最終的使用效果。
現有數據來源有各類APP、整合式數據提供方(如運營商)和客戶等幾種。
其中,像三大運營商這類整合式數據提供方往往掌握了海量最優質的數據,在手機實名制的背景下掌握著用戶的背景資料、行為數據、通話記錄、交費記錄等信息,過往這些數據在徵信等場景中已起到舉足輕重的作用。
所以在金融領域中,上游數據源已經形成一定的集中效應,其合作態度會影響主攻金融領域的隱私計算公司對平臺的搭建。據瞭解,目前已有公司在和運營商溝通合作。不過TalkingData CTO 閻志濤根據公司服務經驗介紹,目前運營商對數據共享態度還處於保守狀態,而其他類型的數據源在考慮合作時不會僅考慮技術解決方案,會更看重落地場景。
如果撬動上游有困難,那麼就需要集中相當數量的下游,從而儘量促使更多上游數據源加入其中。「青桐資本」執行總經理畢英哲認為,銀行、政府等現在是最有意願接入多方數據開展業務的角色。
利益是各方最重要的連接點,平臺積累的客戶越多,拿單能力越強,越能吸引更多的數據源參與其中。在隱私計算這一領域想拿到單,公司背景以及自帶的客戶資源是一個因素。從這個角度看,以往在相關領域有所積累的公司(如金融數據服務商)會較有優勢。
相較而言,醫療行業中的數據在數量分佈上不如金融領域集中。36氪瞭解到,目前有公司在積極拓展醫療大數據國家隊成為合作對象,他們認為,在實際情況下一家一家做地推,請客戶進行數據的標準化並不現實,和國家隊合作,這些機構本身擁有牌照,且已採用相關數據格式標準,公司可以較順利地將數據接入系統中。
這或許是一種可行的思路——由於技術手段和醫院方的態度,患者的治療數據往往還散落在各大醫院中,越頭部的醫院擁有越多高價值數據,而考慮到醫院體系較為封閉,更需要強推動力來推廣。
總體來看,現階段搶奪高價值數據源也是各家優先級較高的事情,目前已有公司在探索和這類數據源進行利潤分配的商業路線。
(3)平臺的可信性
隱私計算本質上是由數據合規交易推動的市場機會,合規是其中的重點,只有平臺本身得到信任,才可能撬動更多的上下游角色。
金融機構是強風險管控機構,要打開這類客戶的信任切口比其他行業更難。
一位銀行從業人員透露,銀行由於擔心數據洩露的風險,仍然更傾向於自己解決數據合規流動的問題,但在技術能力無法滿足的情況下,也會考慮外採,“具體合作到什麼程度得談,基本上現在各個行都想自己處理。”該人士透露,某些銀行傾向和此前已有金融服務經驗的大數據公司建立合作。
「360金融」沈贇認為,如果某些參與聯邦學習的公司(特別是主控方)擁有較高權限,在部署的代碼中留有一些後門, 又不遵守協議進行惡意數據傳輸操作,就可以拿到各方數據,“從技術設計層面,比如所有的代碼都開源、可檢查可以避免這個問題。但現有的框架確實存在操控空間。”
上游數據源也是一樣,運營商數據的重要程度已經是普遍共識,這類機構在考慮數據共享的同時也會重視平臺的可信性。
而在醫療領域,「華大基因」曾在2018年,因為“14 萬中國人基因大數據”項目受到洩露個人隱私的質疑。其在回覆深交所問詢函時強調,該項目分析工作均在境內由中國科研團隊完成,樣本及數據保留在深圳國家基因庫,不存在遺傳資源數據出境的情況,研究披露的是群體分析結果,不存在洩漏個人隱私的風險。
但此類質疑必然進一步提高了數據源對數據隱私的重視,平臺的可信性也就會成為達成合作的必要考量標準之一。
“這個事兒如果真的要成立的話,可能要抱大腿。甚至我認為應該是一個運營商投資或者控股的公司才行。”一位長期關注隱私計算領域的觀察人士如此形容公信力的重要性。
(4)平臺究竟能幫上下游將效率提高到什麼程度?
這個問題直接衝擊平臺的價值。
數據交易並非新鮮事,尤其是在金融領域,隱私計算接入的數據源和客戶方之間,可能早已建立起業務合作。對產業鏈上的一些上下游而言,目前只是缺失了使數據安全合規分享的方案,他們需要的只是技術方案提供方。如此一來,隱私計算公司成為通道型平臺的意義或許沒有想象中那麼大。
平臺在這種場景下可以提供的增量價值是,儘量匯聚更多的上游和下游,讓此前暫未建立聯繫的雙方擁有更多的選擇權。再者,當平臺擴展進上下游更加分散的行業時,其價值或許會更加突顯。
此外,有潛力成為平臺的公司還需在自身產品上多進行打磨,並形成差異化的特點。
在上游資源暫未完全開放、下游需求也未全面爆發的蟄伏期,將產品打磨完善是不二選擇。「廣金徵信」仇小星介紹,由於當下各技術提供方已經在產品內構建了一些機器學習模型,功能比較類似。所以「廣金徵信」在選擇合作方的時候,也會考慮產品操作體驗,以及數據可視化探索、模型實時監測等輔助性功能。
而在愈發增強的數據隱私保護潮流下,許多公司已頻頻發聲,意在推廣產品的同時教育市場。在平臺的前進道路上,企業應意識到各種技術路線都有其適配的場景,比如聯邦學習更適合數據挖掘,多方安全計算的安全性更高,這些技術需要彼此結合使用,才能滿足客戶的綜合需求。從結果上看,大多數公司已經意識到了,並因此出現了產品方案的同質化現象。
「小苗朗程」合夥人方正浩認為,方案同質化意味著市場發展到下一階段,可能會形成企業之間的價格戰。如果一家企業能夠提供在同質化產品之外的附加產品價值,在一個或多個領域內提供更深入的解決方案,就會在一定程度上拉開和他人的差距,更有可能形成競爭力。
五. 行業初興,仍有早期機構的投資機會
總體來說,隱私計算行業目前剛剛起步,各家客戶數量也不多。在36氪的調研過程中,不少潛在的目標客戶甚至未曾聽聞過“隱私計算”的概念。但也正因行業初興,才有了創業投資機會。
在融資方面,隱私計算創業公司普遍集中在B輪之前的階段,且仍存在資本市場視野外的公司,也陸續有新的創業公司出現,對於早期機構而言,現在入局為時不晚。
在投資回報方面,我們暫時難以在二級市場找到直接對標的公司,來預判這將是百億級或千億級的創業投資機會。但由於隱私計算的想象空間,即便是處在整個創投行業出手謹慎的時期,投資機構仍然願意一擲千金。一些行業觀察人士告知36氪,賽道上玩家的估值大多在1~3億元區間——有團隊背景較好的公司,即使業務沒有太多進展,天使輪後的估值也已達到近3億元,而一家明星公司的估值在約半年前已超過6億元。
這些願花高價買門票的投資者多半相信平臺成立的可能性,但故事的另一半是——還有些從去年開始觀望卻仍未出手的機構認為,隱私計算公司要成為平臺,仍需邁過產品工程化、聚攏數據源、可信性等門檻,各家公司當下的高估值需要打上問號。
無論是哪種態度,不可否認的是——隱私計算確實是目前數據合規流通的熱門解法之一,儼然已成為當下投資圈的熱點話題。
參考文獻:
《平臺革命:改變世界的商業模式》,機械工業出版社
《聯邦學習》,中國工信出版集團、電子工業出版社
《平臺戰略》,中信出版社
《華控清交CEO張旭東:數據“可用不可見”和“規定用途用量”,讓數據真正成為生產要素》,36氪
《潮科技 | 隱私計算技術的三大主流門派》,36氪X富數科技
《打造隱私雲計算平臺,鍩崴科技想讓醫療、金融數據安全分享》,36氪
《36氪首發 | 「翼方健數」完成數千萬美元B輪融資,投資方為中芯聚源、奇績創壇、復盛創投等》,36氪
————————————
注:36氪對隱私計算領域保持持續關注,通過和數十位行業人士溝通,以及多方收集資料完成了本文。但由於資源、視角有限,本文難免出現錯誤、片面等問題,歡迎各位讀者指正交流。