11.30 大數據“蟲災”:你的隱私可能只值一塊錢

近日,江蘇淮安警方查封了7家利用爬蟲技術盜取用戶隱私的科技公司,這7家公司共計盜取了4.68億個人身份信息,而目前中國網民的數量為8.54億人。換言之,至少有超過一半的網民失去了隱私。

大數據“蟲災”:你的隱私可能只值一塊錢

2019年9月以來,警方發起互聯網“除蟲”行動,大力打擊非法抓取用戶信息的違法犯罪行為。在此之前,51信用卡、同盾科技等“獨角獸”也在爬蟲數據的應用方面誤入歧途,丟了生意也毀了聲譽。

作為互聯網大數據最早也是最廣泛的應用之一,爬蟲技術正在遭遇前所未有的信任危機。

你的隱私只值一塊錢

掛上科技公司的“羊頭”,做著賣用戶隱私的“狗肉生意”,這背後是暴利的誘惑。

據江蘇淮安警方通報內容顯示,此次被查封的科技公司,主要是通過“黑爬蟲”網站的軟件非法獲取小貸公司的用戶數據,再打包售賣的下游客戶從中牟利。

據此前媒體報道案例顯示,一份包含有個人身份信息、貸款數據、逾期數據等內容的400人隱私數據包,售價為500元,算下來,一個人的隱私價格為1塊多錢。當購買者所需要的數據量足夠大,一條個人信息的單價甚至可以低至1分錢。

大數據“蟲災”:你的隱私可能只值一塊錢

在此次江蘇淮安警方查獲的7家涉事公司中,拉卡拉支付旗下的考拉徵信也在其中。據瞭解,考拉徵信向下遊一家叫北京黑格公司的數據公司售賣數據接口後,該數據再次流通到下游購買方。

作為二級“代理商”的考拉徵信,從2015年3月以來共計提供了近1億次“身份證返照”查詢的非法業務,從中獲利3800萬元。照此計算,考拉徵信販賣一條隱私信息可獲利2.63元。

販賣隱私信息的成本是多少?通過工商信息可以瞭解到,作為隱私數據源頭的北京黑格公司登記員工人數為3人。若這3名員工均為爬蟲技術工程師,按照目前2萬至4萬的薪資計算,北京黑格的人工成本為每年72萬元-144萬元。按照1分錢一條隱私的價格,只需要售賣7200萬條信息就能回本。

隱私的終點站

據警方通報信息顯示,上述7家科技公司售賣的隱私數據,最終將被用於推銷貸款和催收,以及和其他公司交換信息。其中,專門從小貸公司專區截獲的個人信息,可用於放貸以及繼續向下遊客戶售賣。

10月21日,港股上市公司51信用卡因委託外包催收公司涉嫌尋釁滋事等違法行為,被公安機關調查。消息稱,51信用卡通過爬蟲數據竊取用戶隱私數據,並將數據庫打包流通至催收公司。在此之前,該公司因未經用戶同意收集個人信息而被工信部點名批評。

9月,大數據明星創業公司魔蠍科技的涉案人員,因非法販賣個人隱私被警方帶走。在此之前,該公司曾開發過一款專門爬取支付寶數據的產品。據其產品介紹,個人只要掃描一枚二維碼就會將包括真實姓名、手機號、收貨地址、近一年的購物信息、交易記錄等信息事無鉅細地統統“上交”給數據庫。

2019年3月,號稱中國最大的簡歷大數據公司、曾獲李開復旗下創新工場投資的巧達科技,被警方“一鍋端”,原因是非法售賣簡歷信息。

據警方披露,巧達科技非法獲取了2.2億自然人的簡歷信息以及超過10億份通訊錄。而這些信息背後,是與此相關的社會關係、組織關係、家庭關係。按照此前巧達科技的官宣數據,這家公司擁有超過8億自然人的全方位數據。

更早,“大數據行業第一股”數據堂的員工也爆出販賣公民信息的醜聞。據公開信息顯示,該案6名主要涉案人員在8個月時間內,共計販賣公民信息量達到百億條,累計傳輸數據壓縮後約為4000GB左右,相當於傳送了2000部《戰狼2》。

這些隱私數據的主人不一定是貸款人或者小貸平臺的用戶,他們可能是網購達人、準備買房的青年、正在準備就業的大學畢業……據悉,數據堂所販賣的隱私數據主要內容為手機號、地區和互聯網使用習慣偏好,通過標籤化可以做到精準營銷。

大數據光環下的“蟲災”

爬蟲技術誕生於上個世紀90年代,最早被應用於Google等搜索引擎。爬蟲技術通過抓取互聯網網頁信息並對其進行篩選、儲存,就能成為一個巨大的“數據包”,供用戶在搜索引擎上檢索。百度搜索也是基於爬蟲技術而實現的。隨著技術的演進,後續還出現了“算法推薦”等基於爬蟲數據庫而升級的新工具。

技術無罪,人性作祟。在爬蟲技術誕生之初,一些搜索引擎同一些網站通過郵件的方式定下“君子協議”—— robots.txt。協議內容規定了搜索引擎在網站抓取內容的範圍和禁區。彼時,爬蟲技術的生長環境還是透明的,內容獲取和提供方的關係也更為和諧。

大數據“蟲災”:你的隱私可能只值一塊錢

歷史上關於爬蟲數據的第一場紛爭發生在2000年。美國支付平臺eBay將一家比價網站BE告上法庭,原因是BE違反了爬蟲協議,將禁區內的用戶信息爬取並聚合公開。儘管BE聲稱該內容屬於用戶集體貢獻而不歸用戶所有,但最終eBay勝訴。

2017年,領英以違法爬蟲將一家數據分析公司告上法庭。但結果和eBay不同,領英敗訴。

儘管領英一再強調保護用戶隱私不被未知第三方濫用,且用戶能夠控制自己的數據將被用於何處。但實際上,領英對這家數據公司的爬取是知情的。發起訴訟,源自領英準備開展與該數據公司類似的業務,為此需要阻斷其爬取行為。

兩場官司的出發點發生了變化。從最初的單純維護爬蟲協議的“保護隱私原則”,轉變為以謀求自身利益的爬取反制——經過20年的演變,爬蟲數據的行業自律行為,已經遠遠超過互聯網道德約束的邊界。

什麼數據能爬取、爬取行為如何約束以及怎麼使用爬取的數據,業界標準無法統一。“君子協議”防不住小人,只能由警方和檢方出馬了。但此起彼伏的追查行動,無法根治爬蟲帶來的“互聯網蟲災”。

解鈴還須繫鈴人,爬蟲數據迫切需要進行技術革新,以突破其不受約束的自我侷限性,重拾公眾信任。


分享到:


相關文章: