近日,以提供信用卡管理服務起家的港股上市公司51信用卡被警方調查,很快也引發了股價的瀑布式下跌,並在停盤前損失了34%的市值。由於事發突然,因此儘管一時間相關猜測層出不窮,但其中催收外包導致的暴力問題以及爬蟲業務被舉報,則是業界普遍認為最有可能原因。
10月21日晚間杭州警方發佈通報稱,“經初步調查發現,‘51信用卡’委託外包催收公司冒充國家機關,採取恐嚇、滋擾等軟暴力手段催收債務的行為,涉嫌尋釁滋事等犯罪”。因此也為這一事件定論,但為何此前有傳言稱51信用卡會因為“爬蟲”翻車呢?
除了此前網絡上流傳的截圖透露,某銀行發佈律師函稱51信用卡方面“通過爬蟲程序對我行用戶信息進行抓取”之外,其所上線的大數據風控系統iCredit數據來源,也一直並未被披露其合規性。此外還有一個重要原因就是,隨著互金行業獲客成本的逐年攀升,相關企業通過自建爬蟲體系從網絡上獲取用戶信息早已成為業內的潛規則,而此前也曾有企業因此被警方介入調查。
對於暴力催收,想必大家或多或少都有所耳聞,無外乎是催收公司通過對欠款人進行恐嚇及滋擾等非法手段。而爬蟲作為一種網絡技術,對於大家來說可能並不太瞭解,但其影響範圍卻更廣。
所謂爬蟲或者網絡爬蟲,是一種按照一定規則,自動的抓取互聯網信息的程序或腳本。爬蟲可根據一定的搜索策略從網絡中選擇要抓取的內容,並不斷重複這一過程,直到達到系統的某一條件時停止,通俗來講就是用程序來模擬人的操作去訪問網站,然後把被訪問網站上所需要的數據“複製粘貼”下來。而所有被爬蟲抓取的網頁則將會被程序存儲,並進行一定的分析和過濾後建立索引目錄,以便之後的查詢和檢索。
但是必須說明的是,爬蟲技術為互聯網行業的發展其實同樣也有非常重要的意義,百度及谷歌這類通用搜索引擎就是建立在爬蟲技術的基礎上,進而將整個互聯網更為緊密的結合在一起。並且通過爬蟲技術的收集、歸納,和整理,大數據公司能夠完成用戶畫像,技術愛好者也能以此從浩如煙海的數據中總結出有用的內容。
當然,爬蟲技術之所以會廣受非議,就是因為其門檻相對較低,在編寫爬蟲的語言中,除了有C++和C#這一類效率高但開發慢的語言之外,Python這一跨平臺的可視化語言以及與之配套的教程,讓只要有一定基礎的人,僅需很短的時間就能編寫出爬取大規模數據的爬蟲程序。而技術的擴散必然就會給網絡帶來大量非正常操作的訪問,並加重服務器負載,更況且很多網站也並非想讓自己的內容被隨意抓取。
因此為了規範爬蟲的行為,Robots協議(網絡爬蟲排除標準)也就應運而生,這個協議的作用就是告訴爬蟲在網站服務器上什麼文件是可以被查看的,類似於“請勿打擾”或“歡迎進入”的提示。通常來說,網站自己公開的數據都是可以被爬取的,比如天眼查或企查查上的相關企業法律風險提示,就是從中國裁判文書網上所抓取,但是像起點的VIP小說章節以及知乎Live等付費內容,顯然並不會樂意被爬蟲隨意抓取。
而最為關鍵的一點則是作為互聯網技術的爬蟲,是如何讓很多大數據公司被迫關門呢?最直接的,當然是違反Robots協議或者攻擊網站的反爬蟲策略,畢竟公開數據大家都能抓取,那麼要如何突出自身的競爭力呢?有些公司或者個人就會鋌而走險,畢竟Robots協議防君子不防小人,所以通常網站都會部署自己的反爬蟲策略來保護敏感信息,類似淘寶的商家信息以及交易內容等信息就是此類,因此破解反爬蟲策略,也就極有可能會觸犯《非法獲取計算機信息系統數據罪》。
如果爬蟲只收集公開數據的話,會不會有風險呢?其實答案依舊是有的。當爬蟲程序訪問某一網站過於頻繁,導致目標網站不能正常運行時,那麼其製作者就走在了違法犯罪的邊緣,畢竟高頻次和大流量的訪問勢必讓網站“壓力山大”,而這也已經與DDOS網絡攻擊行為無異了。
另外需要注意的是,即便是公開信息也有的可以收集,可有的就不行了。如今部分用戶在網絡上並不太注意保護自己的個人信息,有意無意間可能就會公開這些,因此一旦使用爬蟲有意的規模化收集整理這些個人信息,顯然就並不合法。
因此總的來說,程序員或者相關愛好者在進行爬蟲時,至少需要遵循這樣三個原則,即不爬取個人隱私信息、不利用爬蟲非法獲利,以及設定不攻擊目標的反爬蟲策略。而對於有意識的利用爬蟲進行不當獲利,其結果或許並不是大家所想看到的。
閱讀更多 三易生活 的文章