爬蟲爬的好,牢飯吃到飽?

前幾天分享的一篇《只因寫了一段爬蟲,公司200多人被抓!》相信大家看了後都會發問,我只是個寫爬蟲的,跟我有什麼關係?到底什麼樣的爬蟲才不犯法?今天這篇會解答你所有的疑問。


爬蟲爬的好,牢飯吃到飽?


圖片來自 Pexels

“你交代一下,總共抓了多少數據,在哪些網站抓的,數據幹什麼用了?看看夠在裡面呆幾年。。。”警察語氣凝重地對張強說。

程序員張強(化名),回憶起這兩天來的經歷,仍心有餘悸。

張強,在一家大數據風控公司擔任爬蟲工程師,每當看到網上的段子,爬蟲學得好,監獄進得早,他總是莞爾一笑,心想:關我毛事啊,我只是個程序員,要坐牢也是老闆去坐吧,我又沒拿數據去賣錢。

時間回到 9 月,某一天的上午,張強和同事們像往常一樣上班,突然公司裡來了一群警察,要求所有人雙手離開電腦、手機等設備,全部靠牆站立,工程師小哥哥、小姐姐們哪裡見過這個架勢,都懵了,只得照辦。

警察查封了公司,帶走了公司所有人,於是有了前面的問話。

01.我只是個寫爬蟲的,跟我有什麼關係?

許多程序員都有這樣的想法,技術是無罪的,我只是個打工的程序員,公司幹違法的業務,跟我沒關係。。。只能說,程序猿們真是圖羊圖森破了。

我們先來看幾個真實的法院判決案例:

案例一:數據擁有者有證據能夠舉證你的數據是抓取來的。如下,今日頭條起訴上海晟品的法院宣判結果。


爬蟲爬的好,牢飯吃到飽?


圖片文字來自中國判決文書網

從文書描述來看,修改 UA、修改 device id、繞開網站訪問頻率控制這是寫爬蟲的基本,這些技術手法反而成了獲罪的依據。

案例二:抓取用戶社交數據,尤其是用戶隱私相關。


爬蟲爬的好,牢飯吃到飽?


圖片文字來自新浪網

案例三:用爬蟲技術擾亂對方網站經營規則,且牟利。比如這個:


爬蟲爬的好,牢飯吃到飽?


爬蟲爬的好,牢飯吃到飽?


圖片文字來自中國永嘉公號

圖上描述做搜索引擎排名的技術,其實就是利用爬蟲技術規模化的訪問網頁。

在我們通常的認知裡,因為互聯網推崇分享精神,所以認為只要是網絡公開數據就可以抓取。

但是通過上面的案例來看,有幾個禁忌,抓取的數據最好不要直接商用,涉及社交信息/用戶信息要謹慎。

老闆交代你抓取敏感任務時,讓老闆先看下刑法第 285 條。公司從事違法業務,不代表個人行為就沒事,只是還沒入有關部門的法眼。

02.9 月成為大數據風控行業的“黑暗月”

同盾科技爬蟲部門已解散。據報道,同盾科技爬蟲部門已解散,員工集體待崗,並被建議不要離開杭州,否則有被抓風險;由於局面失控,蔣韜已出國避風頭。

知情人士透露,魔蠍科技與新顏科技近期被查系同盾科技舉報。之所以舉報魔蠍科技,意在打擊其背後的邦盛科技,後者是同盾科技的競爭對手。

緊接著,同盾科技發佈“闢謠聲明”,稱蔣韜一直在國內照常處理公司事務;信川科技於 2018 年開始逐步調整業務,目前已停止全部相關業務,員工調至其他崗位;舉報傳言是無中生有,惡意中傷。

巧達科技被查封,全體員工被警方帶走。有消息稱招聘數據公司巧達科技被查封,全體員工被警方帶走。

一位巧達科技前員工告訴筆者,“(最近)陸續有 HR 等非核心員工回家,但核心高管依然失聯中。”

多位業內人士和律師認為,巧達科技出事可能與其未經授權獲取和使用簡歷、“販賣”簡歷信息等涉嫌侵犯用戶隱私權、侵犯公民個人信息的行為有關。

公開資料顯示,巧達科技成立於 2014 年 7 月,號稱擁有中國最大的簡歷數據庫,巧達科技數據庫有 2.2 億自然人的簡歷、簡歷累計總數 37 億份。

此外,巧達科技還有超過 10 億份通訊錄,也就是說,它掌握了超過 57% 的中國人的信息。

這些獲取渠道並不正規的數據為巧達科技帶來了過億的收入。2016 年,巧達科技全年收入 1.2 億元,淨利潤 4800 萬元;2017 年,巧達科技全年收入 4.11 億元,淨利潤 1.86 億元,淨利潤率超過 45%。

魔蠍科技負責人及員工被抓捕,涉案人員 120 餘名。9 月 6 日,網友 TonyStark 爆料稱,杭州西湖分局集結 200 餘名警力,對涉嫌侵犯公民個人信息的魔蠍科技進行統一抓捕。

截止目前抓獲涉案人員 120 餘名,凍結資金 2300 餘萬元,勘驗固定服務器 1000 餘臺,扣押電腦 100 多臺,手機 200 餘部。案件正在進一步偵辦中。


爬蟲爬的好,牢飯吃到飽?


隨後,杭州市公安局西湖區分局向媒體證實,魔蠍科技的相關人員已經被經偵大隊帶走調查。

03.信號明顯:“灰色”地帶的監管力度在加強!

有業內人士分析表示,爬蟲並不犯法,而是爬出後的信息如何使用,存在隱私侵權、數據濫用等風險,特別是在數據的授權、來源、用途十分不透明的情況下。

西南財經大學普惠金融與智能金融研究中心副主任陳文表示:“風控數據公司因為擁有用戶的信息、關係圖,在獲客、營銷、催收階段都能助力現金貸機構。但數據來源大多處於灰色地域,對於個人隱私缺乏保護,存在廣泛的數據濫用問題。”

針對這些問題,監管也在路上。今年 5 月 28 日,國家互聯網信息辦公室就《數據安全管理辦法(徵求意見稿)》(以下簡稱《辦法》)公開徵求意見。

對於網絡運營者超出運營需要收集個人信息的行為,《辦法》作出了限制性規定,對“網絡產品核心業務功能運行的個人信息”以外的信息,網絡運營者不得因個人信息主體未同意收集而拒絕提供核心業務功能服務。

針對網絡爬蟲等抓取網頁的自動化手段,《辦法》明確應不妨礙網站正常運行,並列明具體的訪問收集流量不得超過網站日均流量的 1/3。

對數據洩露才確定網絡安全負責人的問題,其明確數據安全責任人的任職要求,突出網絡運營者主要負責人、數據安全責任人的姓名及聯繫方式等。

04.使用爬蟲技術的公司,觸犯了什麼法律?

對爬蟲技術應用不當的企業,可能涉及的罪名有三個:

侵犯公民個人信息罪

①爬取的數據信息屬於公民個人信息範疇

公民個人信息,是指以電子或者其他方式記錄的,能夠單獨或者與其他信息結合識別特定自然人身份,或者反映特定自然人活動情況的各種信息,包括姓名、身份證件號碼、通信通訊聯繫方式、住址、賬號密碼、財產狀況、行蹤軌跡等。

②利用爬蟲技術獲取的公民個人信息為非法獲取的

利用爬蟲技術收集公民個人信息數據,應當獲得被收集人的同意,尤其是在數據中包含身份證號、信用信息等敏感數據的情況下,還需要獲得明示同意。

同時,利用網絡漏洞非法下載、非法購買等行為,都屬於“非法獲取”公民個人信息。

③相關法律依據:《刑法》第 253 條

【侵犯公民個人信息罪】違反國家有關規定,向他人出售或者提供公民個人信息,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。

單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照該款的規定處罰。

敲黑板劃重點,上面就是寫爬蟲程序員也在坐牢的法律依據。

構成非法獲取計算機信息系統數據罪

①利用爬蟲技術侵入計算機信息系統獲取數據,或採用其他技術手段獲取計算機信息系統數據。

任何組織或個人不得危害計算機信息系統安全;不得破壞計算機及其相關的配套的設備、設施(含網絡)安全,破壞其運行環境安全、信息安全,影響其功能正常發揮。

因此企業若在爬取數據時,存在危害計算機信息系統安全的行為,包括破解被爬企業的防抓取措施、加密算法、技術保護措施等,則很有可能被認定為“侵入或以其他技術手段獲取計算機信息系統數據”。

②相關法律依據:《刑法》第 285 條

【非法侵入計算機信息系統罪】違反國家規定,侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,處三年以下有期徒刑或者拘役。

【提供侵入、非法控制計算機信息系統程序、工具罪】提供專門用於侵入、非法控制計算機信息系統的程序、工具,或者明知他人實施侵入、非法控制計算機信息系統的違法犯罪行為,而為其提供程序、工具,情節嚴重的,依照前款的規定處罰。

單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照該款的規定處罰。

看到了吧!別以為寫了個 NB 的爬蟲破解程序丟到 GitHub 上,就沒事。如果被人用來從事非法勾當,你也是要坐牢滴。

非法侵入計算機信息系統罪

①提供數據信息的網站為國家事務、國防建設、尖端科學技術領域的計算機信息系統。

高頻使用的網站,如“國家企業信用信息公示系統”“中國裁判文書網”“中國執行信息公開網”以及各地政府網站等,都屬於“國家事務”網站的法律範疇內。

②對計算機信息系統具有侵入行為

(1)只要有侵入行為,而不論侵入行為的結果。

(2)一般法院在認定上主要有兩種方式:

  • 以非法手段登錄網站,獲取原本不該有權限獲取的數據信息。
  • 將惡意程序、非法文件等發送至網站,對網站的正常運行產生影響。

(3)在爬取此類網站的公開數據時,不存在“侵入”計算機信息系統的情形。但當批量爬取數據信息時,需特別關注是否會對網站的正常運行產生影響,切不可逾越紅線。

各位程序員兄弟姐妹們,仔細讀完以上內容,判斷下所在公司的合法性,該做準備的要趁早準備,不要抱有僥倖之心,更不要覺得老闆“後臺”硬沒事,真要出事了你可能就是主犯,老闆卻逍遙自在。

05.爬蟲程序員如何避免牢獄之災?

①侵犯公民個人信息罪,合規建議:

利用爬蟲技術獲取公民個人信息的,應該嚴格遵守相關法律、行政法規、部門規章的規定,否則極易落入“非法獲取”公民個人信息的法律風險範疇。

此外,關於在公民個人信息已合法公開的情況下,利用爬蟲技術對其進行抓取是否構成非法獲取這一問題,暫時沒有明確答案,但《民法典人格權編》第 816 條寫到:行為人收集、處理自然人自行公開的或者其他已經合法公開的信息不承擔民事責任,但是該自然人明確拒絕或者處理該信息侵害其重大利益的除外。

可以明確的是,收集已合法公開的個人信息應不屬於違法,但在立法尚不完善的階段,仍建議謹慎使用爬蟲技術抓取公開的個人信息。

②非法獲取計算機信息系統數據罪,合規建議:

嚴格禁止通過技術手段繞過服務器的訪問限制,或破解被爬網站為保護數據而採取的加密算法及技術保護措施,從而對被爬網站受保護的計算機信息系統中的數據進行爬取。

若被爬網站設定了獲取數據信息的措施,爬蟲企業應避免通過偽造實名認證或竊取賬號密碼、內部權限的形式獲取數據。

如前文的判決案例,通過技術手段,修改 UA、修改 device id、繞開網站訪問頻率控制等,進行數據抓取,如果被定罪,這些技術手段都是違法行為的佐證。

③非法侵入計算機信息系統罪,合規建議:

對大數據公司,特別是大數據風控企業來說,獲取“裁判文書網”“執行信息公開網”的數據非常普遍且重要,但爬取這類國家事務網站的信息時應當尤為審慎,特別是在網站已採取相關“反爬措施”的情況下,仍強行惡意突破防護措施爬取數據,對網站運行造成影響的,均可能構成本罪。

除上述法律風險以外,利用爬蟲技術手段還可能產生構成不正當競爭、侵犯信息網絡傳播權等法律風險。

06.寫在末尾的話

不論你所在公司屬於哪個行業,請謹記以下三點:

瞭解規則,敬畏法律。中國程序員對於法律的集體不敬畏,已經到了令人咋舌的程度。

某涉事程序員,堅持認為技術無罪,拒絕配合警方調查,錯過了取保侯審的機會,導致被拘留數月,等待判決。

弄清楚公司業務的合法性。之前有 P2P 業務的集體爆雷,再到被全面禁止 ICO 業務,還有在線博彩等等,許多程序員醉心專研技術,缺乏法律常識,更缺乏自我保護意識,糊里糊塗成為某些黑心老闆的替罪羊。

積極配合警方調查。實事求是地說自己的問題,把客觀證據準備好,積極提供給辦案機關;切忌滿口“我認為”“我感覺”“我猜測”,對於自己主觀判斷的東西,儘量思考清楚。

最後,願每個程序員都能用技術去改變世界,讓我們的生活變得更加美好!

"


分享到:


相關文章: