2018上半年網際網路惡意爬蟲分析:從全景視角看爬蟲與反爬蟲

簡單的爬蟲無法進行 js 運算,如果部分中間結果需要 js 引擎對 js 進行解析和運算,那麼就可以讓攻擊者無法簡單進行爬取。但爬蟲開發者依然可以通過自帶 js 引擎模塊或直接使用 phantomjs 等無端瀏覽器進行自動化解析。

提高數據獲取成本

當面對的是職業選手時,只能通過提升對方人力成本來實現,比如代碼混淆、動態加密方案、假數據等方式,利用開發速度大於分析速度的優勢,來拖垮對方的意志。如果對方咬定不放鬆,那隻能持續對抗,直到一方由於機器成本或人力成本放棄。

當對抗到了這個階段,與安全對抗一樣,技術之爭就進入了鏖戰的「平衡期」,此時反爬蟲工程師對抗掉了大部分的低級玩家,剩下的高級爬蟲工程師也默契的保持一個不給服務器太大壓力的爬取速度,雙方猶如太極推手,那下一步如何打破這個平衡?

五、對抗新思路:雲端 AI 反爬蟲

爬蟲和反爬蟲的對抗,在雲計算成為趨勢後,逐漸加入了第三方勢力,雲計算廠商可直接為企業提供雲端反爬能力,將戰局從反爬蟲與爬蟲的 1v1 變成了企業+雲廠商與爬蟲 的 2v1,助力企業的反爬能力。

尤其是近年來 AI 技術不斷突破,為解決許多問題提供了全新思路。基於這個角度,雲鼎實驗室通過深度學習技術對海量真實惡意爬蟲流量進行分析,認為將 AI 技術引入反爬蟲領域能起到極好的補充效果,將是未來此類對抗領域的趨勢所在。

為此,騰訊雲網站管家 (WAF) 聯合雲鼎實驗室基於海量真實爬蟲流量建立更為通用的爬蟲識別模型,已卓有成效,後續將致力於把最強的識別能力開放給各企業。


分享到:


相關文章: