數據再使用背景下的數據競爭界限


  數據的聚積、生產、流動、再使用是大數據產業的基本環節。廣大用戶產生數據,在先的數據企業蒐集、整理、通過特定的算法呈現數據,這些數據可能又會成為新的數據企業所需要的數據來源。數據的流動和再使用直接涉及到三方主體:數據源(用戶),在先的數據企業,數據再使用企業。


  不可否認的是,在先的數據企業為數據的蒐集、整理和呈現付出了成本,其利益獲得保護的訴求有一定合理性;但另一方面,在大的數字經濟背景下,促進信息流動、允許數據共享,也是豐富和發展數據市場和數據產業所需要的。那麼,對於數據再使用企業而言,可以用什麼樣的手段,通過什麼樣的程序,才能從在先的數據企業那裡獲得什麼樣的數據?目前來看,這樣的界限仍在發展之中,並不十分明晰。


  數據再使用企業獲得數據原料,可以獲得數據生產者——用戶——的同意, 讓用戶自行將自己的文章、評論等數據轉發到再使用企業的平臺或者空間。這樣的做法安全,但對用戶而言並不便利,也無法讓數據再使用企業迅速獲得大量數據和信息,成本較高。更為常見的做法是通過爬蟲對數據進行批量爬取。這樣的作法效率高、成本低,但對於被爬取數據的在先企業而言,則面臨著具有商業價值的數據流失、企業流量受阻、客戶隱私洩露等危險。單純從被爬取數據的在先企業的角度而言,他們並不希望自己的數據被他人批量爬取。但是,互聯網產業的基本構架特徵是互聯互通,信息共享,數據流動,如果過於嚴格地限制數據再使用企業爬取數據,則同互聯網的基本理念以及大數據時代的基本要求相悖,亦會抑制數據行業的發展。


  那麼,怎樣才能在可獲取數據和不可獲取的數據之間劃出一條合理的界限呢?數據再使用企業從在先的數據企業那裡獲得數據,是否既需要用戶的同意,也需要獲得在先企業的明確授權呢?當下關於數據競爭的糾紛,往往產生於在先數據企業和數據再使用企業之間,但事實上,其所涉及的利益卻遠遠不止於二者之間。本文嘗試從以下幾個方面來進行分析:



  所謂的網絡爬蟲,或者也稱作網絡機器人(WebRobots網絡遊客、爬蟲程序、蜘蛛程序),是自動爬行網絡的程序。互聯網企業利用網絡爬蟲根據特定的算法標準掃描網頁內容、自動、批量爬取符合標準的信息。大數據企業為了獲得有用的數據,通過網絡爬蟲從其企業展現出來的信息中批量下載、採集自己所需要的數據,並最終通過自己的算法進行加工,形成新的數據產品再次展現給用戶。而爬蟲協議,也就是Robots協議,是指互聯網站所有者使用robots.txt文件,向網絡機器人(Web robots)給出網站指令的協議。


  為了防止大數據再使用企業損害自己的利益,防止關鍵性數據被爬取,很多企業採用Robots協議來向爬取者指示哪些數據可以被爬取,哪些不可被爬取。當數據再使用企業的爬蟲進入到特定網站或者平臺時,會首先閱讀該企業的爬蟲協議。但爬蟲協議本身不具備技術方面的阻礙特徵,也就是說,其本身不能構成一道技術性的大門將爬蟲關閉在不可爬取的數據領域之外,也不是一個真正意義上的雙方意思表示的“協議”,而只是一個單方意思表示的說明。


  根據2012年的《互聯網搜索引擎自律服務公約》(以下簡稱《自律公約》)第七條的規定,互聯網服務提供者應當遵循國際通行的行業慣例與商業規則,遵守機器人協議(robots協議)。第八條還規定:“互聯網站所有者設置機器人協議應遵循公平、開放和促進信息自由流動的原則,限制搜索引擎抓取應有行業公認合理的正當理由,不利用機器人協議進行不正當競爭行為,積極營造鼓勵創新、公平公正的良性競爭環境。”這意味著,互聯網企業的哪些數據或者信息可以被爬蟲爬取,企業自身設置的Robots協議(或者聲明)不是絕對的界限,還需要進一步考察該協議是否遵循了“公平、開放和促進信息自由流動”的互聯網原則,是否公平合理,是否防止了正當的競爭,是否有利於良性競爭環境。


  因此,Robots協議不是一個終極、絕對有效的標準。當爬取者沒有按照在先企業的聲明去抓取信息時,現實中的糾紛還是要參考《自律公約》的基本原則,根據《反不正當競爭法》第二條去判斷抓取行為是否符合誠實信用和公認的商業道德,是否構成不正當的競爭。



  判斷數據獲取界線的另一個重要標準是在先的授權。一個重要的案例是2016年的新浪訴脈脈反不正當競爭案,該案被認為樹立了一個數據獲取界線的重要標準——“三重授權”原則,即“用戶授權”+“平臺授權”+“用戶授權”。但是,這樣的“三重授權”原則只是一個非常粗略的框架,授權的具體含義、適用的具體場景,仍然需要進一步加以類型化和細節化。


  可以和該案形成對比的另一個案件是美國的hiQ訴領英(LinkedIn)案。新浪訴脈脈案中所涉及的新浪微博用戶信息,尤其是其中的非公開的用戶信息部分,是需要根據open API權限規則向新浪申請接口才能獲取的。這樣的訪問場景和數據內容顯然與hiQ訴領英案不同。後者涉及的主要問題是,hiQ是否可以在公開的場域批量抓取領英公開的用戶信息進行數據加工。在hiQ訴領英一案中,初審法院和再審法院都更為全面地總結了互聯網和大數據背景下的授權問題。


  hiQ使用機器人領英用戶公開個人資料中抓取信息並通過自己的算法形成新數字產品“人??員分析”,並將其出售給業務客戶。2017年5月,領英向hiQ發出了終止通知函,要求後者停止非授權性數據抓取,禁止hiQ繼續獲取領英用戶的公開信息。領英表示,如果沒有經過其授權,hiQ將會構成“未經許可,擅自進入”,從而違反《計算機欺詐和濫用法案》(Computer Fraud and Abuse Act,以下簡稱CFAA)等法律的規定。


  這裡所涉及的一個重要問題就是“授權”,即hiQ在收到LinkedIn的終止通知函之後,仍然進一步抓取並使用LinkedIn的數據是否構成非法的“未經授權”。法院指出,在不同的情形和法律用語之下,“授權”的含義是不同的。法院根據CFAA等法律規定和先例總結了在不同訪問對象和情形下,“授權”的不同含義:


  當訪問對象是未經授權就無法訪問的計算機信息時,“授權”要求正式的許可。頒佈CFAA的目的是為了防止故意入侵他人的計算機,特別是計算機黑客強行進入原本無法訪問的計算機的行為。法院指出,1984年CFAA最初頒佈時,尚沒有任何計算機能夠連接到公眾領域,因此假定進入計算機需要某種肯定的授權。到了1996年該法修正時,其主要的目的是“加強保護隱私”。其中,對未經授權的訪問的禁止被理解為僅適用於私人信息,這種私人信息的獲取需要某種身份驗證要求,如密碼,才能創建必要的屏障,從而將網絡上的開放空間與封閉空間分隔開。


  與此相關案例是Nosal II案,該案中,一名僱員未經許可而訪問僱主的私人計算機並收集機密信息,該計算機必須具有用戶密碼形式的訪問權限,其行為構成了“未經授權”。另一個案件是Power Ventures案。在該案中,社交網站Power Ventures聚集了來自多個平臺的社交網絡信息,通過訪問Facebook用戶的數據並使用該數據發送大量消息,作為其促銷活動的一部分。具體的做法是,Facebook要求其用戶使用唯一的用戶名和密碼進行註冊,而Power Ventures要求Facebook用戶提供其Facebook用戶名和密碼,以在Power Ventures的平臺上訪問其Facebook數據。Facebook發現這種情況後,向Power Ventures發出了個性化的終止請求,後者在接到終止通知後,繼續繞開IP壁壘獲取受密碼保護的Facebook會員資料。該行為構成了“未經授權”訪問Facebook計算機,從而違反了CFAA的規定。


  以上兩案所涉及的信息,都被認為是通常需要授權的信息,如果未經授權故意訪問提供相關服務的設施,或者故意超出對訪問該設施的授權並由此獲得未授權的這些信息,都會構成“未經授權”的違法行為。


  但另一方面,法院認為,如果被訪問的信息是一般公眾可以獲取的信息時,信息“假定是向所有來訪者開放”。對這些信息的訪問和抓取,不同於CFAA等法律所規定的“未經授權”行為。對於hiQ在接收到領英的個性化終止要求後仍然繼續抓取數據的行為,法院就認為這與前面的規定和先例所描述的情形不同:hiQ所訪問的是可供公眾訪問的網站,而非“對公眾不可見”的網站;其抓取的數據是所有使用Web瀏覽器的人都可以獲取的信息,而不是受密碼驗證系統保護的數據。法院原則上認為CFAA的“授權”和“未經授權”概念不適用於hiQ的情形。


  利益平衡標準


  可以發現,對於在先企業蒐集、形成的數據,特別是向所有人公開的數據,很難僅僅根據該企業的在先聲明、或者是否有個性化的授權來劃定數據爬取的界線。而這條界線,最終會歸結到利益平衡標準上。正如前文所述,儘管當下關於數據競爭的正式糾紛,主要產生於在先數據企業和數據再使用企業之間,但事實上,其所涉及的利益遠遠不止於二者之間。這也是為什麼在先的數據企業的單方聲明和個性化授權不能完全成為界線和標準的重要原因。


  在數據爬取的過程中,涉及到多方利益和多元價值。考察當前已經形成的各數據爬取案和反不正當競爭案,這個利益和價值平衡框架的基本內容可以表示為如下:


  1.已經受到法律明確保護的權利不可受到侵犯。


  例如,用戶的基本權利如隱私權、用戶作品所形成的知識產權,在先數據企業的商業秘密等,是數據抓取和分享過程中不可侵犯的在先的權利。對在先權利的保護,是利益平衡框架中的絕對保護內容。當下絕大多數糾紛涉及的場景就是數據的抓取觸及到用戶的在先權利,而沒有獲得用戶的同意或者授權。


  2.利益的綜合考慮


  有關數據的權限和利益,需要在具體場景、根據不同數據類型具體進行考察,結合各方面利益要求進行綜合考量。用戶、在先的數據企業、數據再使用企業以及公共利益都是在判定數據競爭的界線中需要考慮的內容。


  用戶是數據的主要來源,數據的使用和再使用,都不可避免地要考慮到用戶的基本權利和利益,用戶的同意和授權,在大多數場景下是數據使用、加工、轉移的前提條件。


  對於在先的數據企業而言,尚未形成法律所確認的“數據權”,因此對在先的企業保護的公平性,很大程度上基於“激勵”:對在先企業的保護必須要達到一個能夠普遍激勵數據企業投入的基本水平。從現有的數據競爭案例來看,這需要綜合考慮在先企業的投入與回報,其核心商業模式的需要、被抓取數據的數量,被實質替代的程度,數據再使用企業所提供的產品或者服務與在先企業的相似度、創新性等等。


  數據再使用企業作為大數據產業鏈條上不可或缺的環節,其基本的競爭權、經濟投入、對在先數據企業基於信賴利益形成的基礎性依賴、突然的數據供給終止會給數據再生產企業帶來毀滅性打擊(如hiQ)等情形也需要進行注意。


  此外,還應當關注產業發展和互聯網環境所要求的信息共享、互聯互通的特點,對更多的平衡因素進行考慮,這包括產業發展的整體要求、公眾自由獲取信息的利益、市場效率、競爭與創新等等。


  3.數據類型與平衡傾向


  正如前文所述,數據爬取的場景和對象不同,可能會導致一些關鍵性的概念和要素的含義發生變化。大數據產業方興未艾,場景細化和數據的類型化研究是判定數據競爭界線的重要方向。當下人們對數據大致有如下分類:


  個人數據和非個人數據:個人數據,指記錄個人信息並具有主體指向性形成的數據。我國立法和實踐中常稱為 “用戶個人信息”,歐盟GDPR稱“個人數據”(personaldata)。非個人信息數據包括兩類:一類是本身不具有個人指向的基礎數據或者原始數據,例如對於天氣的記錄等;另一類則指經過匿名化處理脫敏後的、沒有指向具體主體的數據。


  基礎數據和增值數據:基礎數據(原始數據),指直接來自用戶的信息,經過在先的數據企業記錄形成的數據。而增值數據則是指數據企業對基礎數據或者原始數據進行檢索、分類、整理、標註、比對、分析、挖掘等增值行為所形成的新數據或者數據產品。


  公開數據和非公開數據:絕大部分的個人數據以不公開為目的,這構成了對用戶隱私保護的基礎。而公開數據指對所有來訪者開放的數據,典型的例子包括新聞、廣告、購物評價、求職信息、微博或公眾號發文等等。這些信息和數據的發佈本身希望獲得更多人關注和傳播。


  對數據進行類型化,有助於對不同類型的數據施加不同的保護措施,或者根據不同的指標來衡量對數據的使用是否合理:


  個人數據更強調用戶隱私權,以及用戶對於其個人信息的基本權利和基本自由,大多數個人數據是非公開數據,數據再生產企業從在先的數據企業獲得這樣的數據往往需要遵循“三重授權”。非個人數據則可能涉及到較多的增值者權益甚至公共利益。


  基礎數據或者原始數據的保護應強調用戶權益,而增值數據則主要強調增值者的權益。例如,在“淘寶訴美景”案中法院認為,網絡運營者對於原始網絡數據仍應受制於網絡用戶對於其所提供的用戶信息的控制,而不能享有獨立的權利,網絡運營者只能依其與網絡用戶的約定享有對原始網絡數據的使用權。而網絡大數據產品是運營者的勞動成果,可以為其所實際控制和使用併為其帶來經濟利益,其所帶來的權益,應當為運營者所享有。


  公開發布並以傳播為目的數據,在價值取向上應更偏向於數據互聯互通,如hiQ案中法院所指出的:如果授予像LinkedIn這樣的私人實體全面的權力,使其可以基於任何理由阻止查看者獲取其網站的公開信息並以CFAA的制裁作為支持,這可能會對公眾言論以及互聯網承諾的信息自由流動產生嚴重威脅。而非公開的數據,則更偏向於強調用戶利益和數據持有者的利益,是否能夠被爬取和再使用,應當取決於用戶或/和在先企業的意願, 用戶的隱私、嚴格的授權就是值得重點考慮的方向。


  當下,類似的數據爬取糾紛在我國主要是通過《反不正當競爭法》第二條來解決的。該條適用的基本判斷準則是誠實信用原則或者公認的商業道德。不過,在數字產業發展的初期,確定的權利和普遍“公認”的準則都尚未出現,這樣的判定標準就變得更加富有彈性和不確定性,從而最終演變成複雜的利益平衡機制。這個機制,在促進大數據產業繁榮的大方向下,仔細地斟酌產業中每個群體的利害得失,並最終要和大數據產業發展的長遠要求統一起來:保護用戶的在先權利,是為了保持數據來源主體對數據市場的整體信任,並激勵他們將數據從源頭上交付給產業;保護在先企業的利益,是為了激勵企業完成數據的最初的蒐集、產業化;而保護數據抓取企業的利益,則有利於數據的流動、產品和服務的競爭和創新,從而最終實現大數據產業的多樣化發展。從這個意義上講,用戶、在先企業和數據再利用企業的利益平衡,都是在在促進社會福利、產業繁榮的長遠利益框架下所進行的博弈。對這些不同主體間的數據競爭分析,也必須隨著數據數量的變化和數據類型的繁榮而不斷地調整各主體彼此之間的利益邊界。目前尚沒有任何先例可以窮盡數據競爭的類型和特點。數據競爭邊界的判定是一個動態的過程,也是一個需要我們不斷深入去挖掘、發現和總結的過程。(張江莉 北京師範大學法學院副教授,數字經濟與法律研究中心執行主任)


分享到:


相關文章: