數十億爬蟲肆虐雲端,網際網路《釜山行》正式上演

撰稿 | 藍河

我承認我是非常標題黨了,但我說這個話也並不是空穴來風。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

真實的情況是這樣的,上週四騰訊雲發佈了《2018上半年互聯網惡意爬蟲分析報告》,這份報告是由騰訊安全雲鼎實驗室對近半年大量爬蟲行為進行捕捉與分析後得出並分享的。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

其實爬蟲本來是個好東西,以谷歌搜索為例,在符合Robots協議規範的基礎上,通過爬取其他網站的頁面,提供給用戶快捷搜索和訪問的便利,對於搜索者和被搜索者來說本是一件共贏的事情,所以最早源於搜索引擎的爬蟲是非常善意的。

但爬蟲畢竟不產生數據,作為擁有獲取數據能力的搬運工,在市場對數據日益增大的需求之下,尤其伴隨“大數據”概念的興起,越來越多地催生了“惡意爬蟲”打破君子協定,瘋狂且貪婪地吮吸著有價值的數據,以此來謀取暴利。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

這是近幾年關於上網流量真人和機器人的數據統計,可以看到的是惡意機器人的流量佔比是呈現出逐年下降的趨勢,基本可以表示其中惡意爬蟲的佔比也有所下滑。

但佔比的下降並不意味著惡意爬蟲日漸式微,有所減少。一方面,真實網民的基數在不斷增大,另一方面,惡意爬蟲的製造者開始更專注於爬蟲的質量而非數量。伴隨著“雲服務”的成熟,大量企業遷向雲端,惡意爬蟲製造者也將目光從傳統 IDC 轉向了雲平臺,讓原本你無感知的地方能有數據可見了。

在經歷了幾年低調的蟄伏後,惡意爬蟲終於在今年實現了肆虐和爆發。

當前面對數量龐大的惡意爬蟲,海量企業數據到底面臨著怎樣的威脅,已上雲數據是否能保證安全,同時這些對於數據的威脅又會給企業以及信息主體帶來怎樣的危害,反爬蟲正在面臨怎樣空前的壓力和挑戰。

趁著騰訊雲發佈報告的機會,我趕緊和雲鼎實驗室的安全研究員御風大大套了回近乎,也對當前惡意爬蟲大軍壓境的真實現狀作了一番瞭解。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

隔壁老王足不出戶就能知道你媳婦是不是一個人在家

你要想看懂這份報告,首先你需要弄明白,爬蟲是什麼,到底是幹嘛的。

這就要從盤古開天,世界伊始的時候說起,當時的信息傳輸是十分落後的。

村東的老王好奇村西的老張幾點出門,村南的老劉想知道村北的酒樓燒什麼菜,都必須親自跑上一趟,才能一探究竟。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

這種方式在當時人口沒那麼多,區域沒那麼廣,信息量沒那麼大的時期還是勉強行得通的,但隨著村落規模的擴大,很快依靠個人便完成不了了。

這時候,住在村子中心的老李對大家說,要不這樣吧,只要大家自願,他就挨家挨戶委派人手,對每時每刻村民可能感興趣的事情進行記錄,並以自己為中心建立信息站,將所有的信息實時地更新和彙總。

如果老王還想知道老張出沒出門,也不用那麼麻煩跑一趟,只要在自己家裡嘀咕地問上一句,他就會立刻把從老張家收集到的信息,包括他吃了什麼,幾點出門,穿的什麼衣服,媳婦兒睡了沒全都上門傳達給老王。

簡單來說,所有的人都可以足不出戶地知曉一切消息了。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

老李這個想法一經落地,立刻就受到了大家的追捧與認可。尤其是像酒樓、商鋪這樣的地方,原本有些村民嫌遠,怕跑一趟沒有自己喜歡的東西,索性就不來了。現在好了,自己每天賣什麼,大家都一清二楚,每個人按照自己的喜好選擇來或不來,既不用跑冤枉路,自己的生意也越來越好了。

人心總是貪婪的,突然有一天,喜歡吃燉大鵝的老劉不想再花錢去酒樓買這道菜了,就想著通過老李的信息站,把秘方查詢到手。

但是老李告訴他,這裡沒有秘方的信息,因為在信息站建立之初,他就和酒樓達成了“君子協定”:只允許蒐集像菜譜這類的表象信息,但凡涉及秘方這類隱私或是店家不願意透露的信息,老李絕不可越界。因此他拒絕了老劉的請求。

這時候,有個人找到老劉,說他可以通過各種辦法“爬”進酒樓的後廚,把老劉想要的秘方給“爬”出來,只要他支付一定的銀兩。於是老劉便和這個人達成了交易,這個人也成功幫老劉“爬”到了秘方。

這就是合法爬蟲和惡意爬蟲的起源,而且是我瞎編的。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

2億、25%、1%

言歸正傳,關於《2018上半年互聯網惡意爬蟲分析報告》,雲鼎實驗室主要統計分析了惡意爬蟲流量排名TOP10的行業,出行、社交、電商三巨頭果然還是數據產生最多的地方,也是惡意爬蟲的主要戰場。

本文也僅圍繞出行和電商,解讀惡意爬蟲攻擊的目的,以及對行業和個人造成的危害。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

御風大大問我,光看比例是不是無法感受到爬蟲大軍壓境的窒息?我點了點頭,接著他用手指給我比了三組數字:2億、25%以及1%。

根據雲鼎實驗室的統計和分析,上半年全網攻擊的惡意流量請求大約是每天1-2億,其中惡意爬蟲的佔比大約為25%,也就是說雲鼎實驗室每天所能監測到的惡意爬蟲攻擊的規模已達千萬級。

我原本以為這個數字已經很驚人了,但是御風大大卻淡淡地告訴我,雲鼎實驗室的捕獲能力,其實還不足全網的1%,這就意味著實際的數據更要遠超百倍。

統計下來,全網實際上每天真正要遭受大致幾十億惡意爬蟲的攻擊,而這些攻擊在通過對抗等手段消滅部分以後,最終還能有2到3成的存活,成功爬取數據。

要知道,雖然此前的數據顯示,惡意爬蟲的佔比在逐年下降,但這一定程度可能是因為爬蟲雲端化以後,監控能力受限所導致。同時伴隨著雲服務的成熟,帶寬的增大,流量總量的持續增長,惡意爬蟲的真實數據很有可能是不降反增的。

隨著技術開發難度的降低,成熟模塊的加持,開發爬蟲的成本也變得愈加低廉。加上近幾年爬蟲上雲,通過機器學習和黑產提供的技術手段繞過防禦機制,技術的革新在給商業帶來機遇的同時,也給惡意爬蟲帶來了更多的助力。

你永遠搶不著春運的火車票

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

在出行領域裡,對火車購票平臺的爬蟲訪問幾乎佔據90%的比例,這個其實就側面解釋了為什麼逢年過節,你原本早在車票開售前半小時就做好熱身運動蓄勢待發,以為只等時間一到指尖一顫便可囊票入手,卻還是落了個票已售罄的下場。

因為越來越多提供代購和搶票服務的第三方機構,想要實現代購和搶票的目的,就必須對火車購票平臺網站的車票信息進行實時地刷新和抓取。幾百個城市,幾千趟列車,原諒我數學不好沒辦法估算的火車站及車次的排練組合,如果不動用規模恐怖的爬蟲集群,是沒辦法對這樣一個體量同樣恐怖的數據做到統計的。

而第三方機構提供的服務,尤以搶票為例,本身就是需要收取一定的費用的。

我原本以為,在訪問火車購票平臺網站的流量中,真人和惡意爬蟲的佔比應該像坊間傳言那樣大約互為50%。但御風大大告訴我不要過分樂觀,真實的情況或許要嚴重的多,據不完全統計,惡意爬蟲的佔比有可能已經達到了驚人的99%。

也就是說,同一時段的火車購票平臺,每100流量中可能只有一個真人,剩下99全部都是惡意爬蟲。相當於一個孱弱的人類在同時與99個比自己聰明還比自己手快的機器人搶同一張票,反正我是看不到任何獲勝的可能。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

這也就解釋了為什麼你永遠搶不到票,但是隻要花點錢購買“提速”服務,第三方平臺就能輕易搞定。

和火車票的性質大致相同,航空公司由於定期會放出特價票的緣故,招致不少機票代理公司,通過爬蟲實時獲取特價機票的信息,偽裝虛擬客源的身份進行批量預定,管他三七二十一先下單就行,只要能在規定付款時間內找到真實客源,就可以加價轉賣,賺取中間差價。

如果規定付款時間裡沒有賣出去怎麼辦?沒關係,在訂單被系統取消前,立馬追加一個新的訂單,這張票又回到了代理公司的手中。所以,如果你能買到原價的特價機票,就算他們輸了。

從這裡延伸,你知道為什麼周杰倫演唱會的門票這麼難搶,而且一到開售的時候商戶頁面就經常卡死無法加載嗎?這和火車票、飛機票類似,首先可能有99個爬蟲機器人在和你一同下手,而如此龐大體量的爬蟲在同一個時段的集中行動,服務器沒有直接崩潰已經可以給它優秀了好嗎。

最終的結果是隻有極少部分幸運兒買到了原價的門票,大部分人最終還是要去寶寶、魚魚上冒著假票和被騙的風險,花著冤枉錢。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

其實,不論是火車票、機票還是演唱會的門票,惡意爬蟲的泛濫,意味著本該消費者享受的福利,完全被第三方代購搶票機構以及機票代理公司給侵佔,說的難聽點,本質上就是黃牛。既侵害了鐵路部門、航空公司和商家的利益,也侵害了普通消費者的利益。

瞎胡鬧的電商爬蟲

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

根據雲鼎實驗室的報告,C2C電商由於中小賣家眾多,商品數量遠多於B2C類電商,因此支撐了電商類惡意爬蟲近90%的流量。那麼在C2C電商的流量中,惡意爬蟲的比例大概是多少呢?

答案是95%。

也就是說,一個單獨的頁面,每100次訪問量裡,只有5個是真實用戶,其餘95均為爬蟲。

實際上,應用在C2C電商領域的爬蟲,主要目的不過是爬取競爭對手的商品信息和價格等數據,並不會像火車票、飛機票一樣產生直接的經濟效益,那為什麼還會投放如此多數量的爬蟲,意義何在呢?

這其實是一個美麗的誤會。

之前有過分析電商類爬蟲的文章,文章中對於導致惡意爬蟲氾濫的原因形容得非常貼切。

假設這個世界存在售賣相同電商產品3家公司A、B和C,有一天,真實客戶在A的店鋪裡對某款商品的價格進行了查詢,結果發現並不滿意,便放棄了購買。

這時A公司在後臺檢測中發現有客戶流失,而客戶的行為只是查詢了某款產品的價格。於是A公司認為可能是價格原因導致客戶的流失,便想查詢一下競爭對手B和C的價格,及時調整銷售的策略。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

A公司就通過爬蟲偽裝真實客戶爬取了B和C的數據,這時在B和C的後臺檢測上,就留下了爬蟲偽裝成客戶查詢價格的歷史。但B和C只會理解為自己流失了客戶,便也歸咎於產品的價格。這樣一來,他們同樣產生了想比較一下其他店鋪的售價的想法,於是B順勢爬取了A和C,C爬取了A和B。

一來二去,就在這種莫名其妙地循環下,A、B、C過上了你爬我來我爬你的幸福生活。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

這也就成了彼此本無惡念,但因決策思路,導致了令人啼笑皆非的惡意爬蟲充斥電商平臺的局面。

而對於商家來講最悲痛的是什麼?就是折騰了半天,又是碟中諜又是無間道,把服務器也給搞炸了,卻發現一個真正的客人都沒有。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

蛻繭成蝶的爬蟲

除了出行和電商爬蟲以外,社交、O2O、公共行政、運營商、自媒體、地圖、SEO、新聞及其他瓜分了惡意爬蟲總量的剩餘6成,在這裡就不先不一一列舉了。

總得來說,雖然部分爬蟲的出發點並不是為了通過爬取數據實現牟利,但由於數量太過龐大,導致企業服務器的性能和穩定深受影響,迫使服務器性能提升和反爬蟲技術的開發,間接產生了經濟上的損失。因此,造成這類後果的爬蟲也稱之為惡意爬蟲。

細數惡意爬蟲對企業最直接的影響,御風大大表示,主要存在三個方面:

一是像電商類平臺,如果商品信息和價格被競爭對手爬取,會出現惡意比價的情況,價格戰的出現一定程度上會對企業造成經濟損失;

二是爬蟲數量太過龐大,會佔用大量的服務器資源,導致高峰時段服務器的不穩定甚至崩潰,企業需被動地提高服務器的性能,增加了預算,運維成本也相應提高;

三是一旦惡意爬蟲對企業造成危害之後,也會迫使企業開發反爬蟲技術進行對抗,在人力和金錢上又帶來了更多的投入和耗損。

實際上,過去很長一段時間,人們並沒有對惡意爬蟲起到足夠的重視,但隨著大數據概念興起,企業數據上雲,DT時代數據資產化並具備商業價值之後,惡意爬蟲可能對企業造成的危害已經遠超想象。

同時,常見的一些傳統反爬蟲技術也已經在對抗中敗下陣來。

像過去最常用的驗證碼,在通過機器學習自動識別後,簡單驗證碼的正確率已經能達到50%甚至更高。而複雜驗證碼也有專門的打碼平臺來進行人工打碼,平均每碼價格不過1-2分錢,同樣容易被輕鬆繞過。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

還有簡單粗暴且有效的封IP手段,也因為爬蟲開發者可以通過代理池購買或撥號VPS等方式輕鬆建立數十萬的IP池而顯得蒼白無力。

所以,惡意爬蟲早已完成了蛻繭成蝶的過程,企業僅憑一己之力已無法與之對抗。

以彼之道,還施彼身

以彼之道,還施彼身,其實是金庸武俠小說《天龍八部》裡姑蘇慕容世家的絕學,說的是用對方施加給自己同樣的手段去進行還擊。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

既然老劉能夠通過開鎖、鑽狗洞等方式繞過防禦“爬”取信息,那麼反之酒樓店家乾脆就“以彼之道,還治彼身”,用同樣的方式進行對抗。

在雲計算成熟並逐漸成為趨勢以後,在雲端為企業賦能反爬能力,與惡意爬蟲正面對抗。

而且在雲端提供反爬能力的好處是,一旦出現了惡意爬蟲攻擊,那麼整個雲端可以進行整體的聯動,通過對某一個行業某一家企業某一次惡意爬蟲攻擊的對抗,就能反哺所有云端的企業和客戶,使其安全能力得到全面的提升。

在對上半年不同行業的惡意爬蟲進行了完整的分析和處理以後,騰訊雲在各種對抗手段上都基本具備了完善的反制措施,對惡意爬蟲的掌握和對抗也相對全面,目前基於惡意爬蟲的流量也聯合雲鼎實驗室建立起了通用的爬蟲識別模型,成效良好。

同時隨著AI技術的突破,雲鼎實驗室認為將AI技術引入反爬蟲領域可以起到極好的補充效果。因此一個全新的,在雲端實現對抗的AI發爬蟲技術會是未來的趨勢所在。

除此以外,御風大大還透露,惡意爬蟲畢竟只是上半年全網攻擊統計中的一部分,在未來騰訊雲和雲鼎實驗室還會在情報上進行加深,檢測和收集更多類別的攻擊,反哺安全能力和業務,使企業的安全能力得到進一步提升。

數十億爬蟲肆虐雲端,互聯網《釜山行》正式上演

https://mp.weixin.qq.com/s/-NRqdU-P6jkQvItfyXHjpg?scene=25#wechat_redirect


分享到:


相關文章: