如何看待「爬蟲」技術的發展,是否屬於違法行爲?

爬蟲技術,又被稱為網頁蜘蛛,網絡機器,正常情況下,每個網站上線都被爬蟲爬到。爬蟲技術最常用的領域就是搜索引擎,只有有搜索引擎,我們的網站才能被更多人搜索發現,但是爬蟲技術也可能是獲取用戶隱私信息的關鍵技術,我們何看待“爬蟲”技術的發展?

爬蟲技術優勢

隨著互聯網的發展,網絡資源有大量信息的載體,我們如何更好地有效地提取並利用它,爬蟲技術起到關鍵作用。爬蟲技術在信息定位也比較準確,可以根據客戶的搜索需求爬取最合適的數據推送出去。現在大數據處理方面,爬蟲技術可以對爬取的數據進行分析從而得出比較準確數據。

爬蟲技術缺點

網絡資源每年都在增加,很多資源是重複資源,而爬蟲技術是全網爬蟲的,不管是什麼頁面都可能被下載。爬蟲技術還可能涉及隱私與版權問題,比如很多網上的文章作者是不允許轉載的,還有就是可能會獲取用戶隱私信息,手機號碼等。爬蟲技術也可能存在企業之間的惡意競爭手段。

​為了防止使用爬蟲技術進行商業的惡意競爭,我們網絡有一個叫:爬蟲協議(Robots)也叫拒絕機器人協議或機器人協議,但目前爬蟲協議並沒有相關法律,是我們一種“默契協議”,一般程序員都至少了解過這個協議,所以在寫爬蟲技術的時候要遵守相關協議,維護網絡基本道德。

爬蟲技術利用得好就是有利於我們,惡意使用爬蟲技術損害他人網絡信息就是違法行為。