你以爲在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

片頭:

各位大佬閱讀此篇文章之前,我推薦下自己整理的【Java視頻+文檔】學習資料!

想要學習Java的,關注小編頭條號,私信【你好世界】即可免費領取從入門到放棄的一整套系統的Java學習視頻文檔資料,想要的私信我哦。

今天給大家介紹一個新朋友:爬蟲。

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

爬蟲

不對不對,圖片錯了應該是這樣的爬蟲!!!

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

“爬蟲”

到底是什麼“爬蟲”?

爬蟲就是一個探測機器,它的基本操作就是模擬人的行為去各個網站溜達,點點按鈕,查查數據,或者把看到的信息揹回來。就像一隻蟲子在一幢樓裡不知疲倦地爬來爬去。

你可以簡單地想象:每個爬蟲都是你的“分身”。就像孫悟空拔了一撮汗毛,吹出一堆猴子一樣。

你每天使用的百度,其實就是利用了這種爬蟲技術:每天放出無數爬蟲到各個網站,把他們的信息抓回來,然後化好淡妝排著小隊等你來檢索。
你所使用的各種搶票軟件,就相當於撒出去無數個分身,每一個分身都幫助你不斷刷新 12306 網站的火車餘票。一旦發現有票,就馬上拍下來,然後對你喊:土豪塊來付款。

就在我們身邊的網絡上,已經密密麻麻爬滿了各種網絡爬蟲,它們善惡不同,各懷心思。而越是每個人切身利益所在的地方,就越是爬滿了爬蟲。

今天我要說的和這些APP有關!!!

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

“爬蟲”都有哪些騷操作?

爬蟲也分善惡。

像谷歌這樣的搜索引擎爬蟲,每隔幾天對全網的網頁掃一遍,供大家查閱,各個被掃的網站大都很開心。這種就被定義為“善意爬蟲”。

但是,像搶票軟件這樣的爬蟲,對著 12306 每秒鐘恨不得擼幾萬次。鐵總並不覺得很開心。這種就被定義為“惡意爬蟲”。(注意,搶票的你覺得開心沒用,被掃描的網站覺得不開心,它就是惡意的。)

給你看一張圖:

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

爬蟲流量目標行業分佈比例

這張圖裡顯示的,就是各行各業被爬“叨擾”的比例。(注意,這張圖顯示是全世界,不是全中國。)而每一個色塊背後,都是一條真實而強大的利益鏈條。

中國“爬蟲”排行榜

1、排名第一的是出行

出行行業中爬蟲的佔比最高(20.87%)。在出行的爬蟲中,有89.02%的流量都是衝著 12306 去的。這不意外,全中國賣火車票的獨此一家別無分號。

你還記得當年12306 上線王珞丹和白百何的“史上最坑圖片驗證碼”麼?小編可是被坑慘了!

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

這些東西不是為了故意難為老老實實賣票的人的,而恰恰是為了阻止爬蟲(也就是搶票軟件)的點擊。剛才說了,爬蟲只會簡單的機械點擊,它不認識白百何,所以很大一部分爬蟲就被擋在了門外。

你可能會說,不對啊,我現在還可以用搶票軟件搶到票啊。

沒錯。搶票軟件也不是吃素的。它們在和鐵總12306搞“對抗”。

有一種東西叫做“打碼平臺”,你可以瞭解一下。

打碼平臺僱傭了很多叔叔阿姨,他們在電腦屏幕前不做別的事情,專門幫人識別驗證碼。那邊搶票軟件遇到了驗證碼,系統就會自動把這些驗證碼傳到叔叔阿姨面前,他們手工選好哪個是白百何哪個是王珞丹,然後再把結果傳回去。總共的過程用不了幾秒時間。
當然,這樣的打碼平臺還有記憶功能。如果叔叔阿姨已經標記了這張圖是“鍋鏟”,那麼下次這張圖片再出現的時候,系統就直接判斷它是“鍋鏟”。時間一長,12306 系統裡的圖片就被標記完了,機器自己都能認識,叔叔阿姨都可以坐在一邊鬥地主了。
你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

你可能會問:為什麼 12306 這麼摳呢?它大方地讓爬蟲隨意爬會死嗎?

答:會死。

你知道每年過年之前,12306 被點成什麼樣了嗎?公開數據是這麼說的:“最高峰時1天內頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。”這還是加上驗證碼防護之後的數據。可想而知被攔截在外面的爬蟲還有多少。

況且這裡還沒有討論,被搶票軟件把票搶走,對我們父母那樣的不會搶票的人來說,是不是公平呢?

鐵路被爬蟲“點雞”成這樣已經夠慘了,但它還有個難兄難弟,就是航空。

而航空裡,被搞得最慘的不是國航,不是海航,也不是東航。而是亞航。

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

航空類爬蟲的分佈比例

很多人可能都沒坐過亞洲航空。這是一家馬來西亞的廉價航空公司,航線基本都是從中國各地飛往東南亞的旅遊勝地,飛機上連礦泉水都得自費買,是屌絲窮X度假之首選。

為什麼爬蟲這麼青睞亞航呢?因為它便宜。確切地說,因為它經常放出便宜的票

本來,亞航的初衷只是隨機放出一些便宜的票來吸引遊客,但這裡面黃牛黨是有利可圖的。

據我所知,他們是這樣玩的:

技術宅黃牛黨們利用爬蟲,不斷刷新亞航的票務接口,一旦出現便宜的票,不管三七二十一先拍下來再說。

亞航有規定,你拍下來半小時(具體時間記不清了)不付款票就自動回到票池,繼續賣。但是黃牛黨們在爬蟲腳本里寫好了精確的時間,到了半小時,一毫秒都不多,他又把票拍下來,如此循環。直到有人從黃牛黨這裡定了這個票,黃牛黨就接著利用程序,在亞航系統裡放棄這張票,然後0.00001秒之後,就幫你用你的名字預定了這張票。

“我是中間商,我就要賺差價!”這波騷操作,堪稱完美。

2、排名第二的是社交

社交的爬蟲重災區,就是你們喜聞樂見的微博。

給你看張圖:

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

社交網絡爬蟲分佈比例

這是爬蟲經常光顧的微博地址。

這裡的代碼其實指向了微博的一個接口。它可以用來獲取某個人的微博列表微博的狀態索引等等等等。

獲得這些,能搞出什麼騷操作呢?

你想想看,如果我能隨心所欲地指揮一幫機器人,打開某人的微博,然後刷到某一條,然後瘋狂關注、點贊或者留言,這不就是標準的殭屍粉上班兒的流程麼。。。

其實,殭屍粉都只是爬蟲的常規操作,更騷的來了:

1、我是一個路人甲,我的微博沒人關注,我用大量的爬蟲,給自己做了十萬人的殭屍粉,一群殭屍在我的微博下面點贊評論,不亦樂乎。
2、我去找一個遊戲廠商,跟他說:你看我有這麼多粉絲,你在我這投廣告吧。我幫你發一條遊戲的註冊鏈接,每有一個人通過我的鏈接註冊了遊戲,你就給我一毛錢。廣告主說,不錯,就這麼辦。

3、我發出註冊鏈接,然後沒人點。。。
4、不慌,我讓十萬爬蟲繼續前赴後繼地點擊註冊鏈接,然後自動去完成註冊動作。
5、我躺在床上,數著賺來的一萬塊錢。
(以上數據不一定和現實吻合,只是展現一個邏輯。具體操作也會更復雜。)


還有更騷的麼?有的。

你家愛豆不是經常在微博上發紅包麼?好的,我率十萬殭屍粉去搶。

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

憑本事搶來的紅包,就問你有什麼不妥嗎?

3、排名第三的是電商

你回憶一下,有幾種東西叫做“比價平臺”“聚合電商”和“返利平臺”。他們大體都是一個原理:

你搜索一樣商品,這類聚合平臺就會自動把各個電商的商品都放在你面前供你選擇。有淘寶、京東,還有唯品會蘇寧易購。


這就是爬蟲的功勞。它們去淘寶上,把胖次襪子杜蕾斯的圖片和價格統統扒下來,然後在自己這裡展示。

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

這個原理和谷歌差不多。只不過他們展示的不是網頁而是商品。但是被放在一起比價,淘寶是拒絕的,京東也是拒絕的啊。。。

然鵝,由於機器爬蟲模擬的是人的點擊,電商很難阻止這類事情發生。他們甚至都不能向12306學習。你想想看,如果你每點開一個商品詳情,淘寶都讓你先分辨一次白百何和王珞丹,你肯定沒心情剁手,沒準還要提刀去剁馬雲呢。。。

當然,電商對抗爬蟲有另外的方法,那就是“web 應用防火牆”,簡稱 WAF。這個我們後面再單獨說。

說到這,有童鞋會有個疑問:

那些聚合平臺,自己寫爬蟲,然後幫助淘寶京東賣貨,他們的名字叫雷鋒麼?

醒醒啊同學,雷鋒叔叔已經走了很多年了。我隨便給你說一下這種聚合電商平臺的盈利模式:

1、假設幾家店鋪都賣杜蕾斯,但是用戶在我這裡搜索“杜蕾斯”的時候,我是有權利決定誰的店鋪在前面誰在後面的啊。誰給的錢多,我就讓誰在搜索的前面唄。@百度君,你說說是不是這個道理?(注意,每個店鋪和淘寶平臺可不是一致行動人。淘寶平臺不希望自己的內容被聚合平臺抓取,但每個店鋪可是很樂意多一個渠道幫他們賣貨的。)

2、如果你覺得搞競價排名良心會痛,也可以用更簡單的方式——在網頁上展示獨立的廣告。訪問你網站的用戶,看到頁面上的廣告,也有可能會點擊。每點擊一次,你就賺一次錢。
3、你還可以作為中間商,收點中介費。我幫你店家賣貨了,你是不是要給我意思意思。除了給我意思意思,你還得給來買東西的用戶意思意思。這種套路,就是“返利網”這類平臺的玩法。

爬蟲搞出這麼多姿勢,它究竟是不是違法呢?

這個問題還真的不簡單。

我打開中國網安第一大法《網絡安全法》仔細看了半小時,在裡面沒有發現“爬取網絡公開信息被認定為違法”的條款。

於是我又繼續搜索,發現了幾條司法解釋:

未經授權爬取用戶手機通訊錄超過50條記錄;未經授權抓取用戶淘寶交易記錄超過500條;未經授權讀取用戶運營商網站通話記錄超過500條;未經授權讀取用戶公積金社保記錄的超過50000條的。以上這些情況可以入刑。


但是仔細看看,如果我只是用機器代替了人的手點擊鼠標敲擊鍵盤,接觸的都是公開信息,並不觸犯這些司法解釋。(這只是我簡單查詢後的結果,不代表任何官方意見)

但是,對企業來說,爬蟲卻著實傷害了自己。有句話說:“主救自救者。”他們得組織“民兵”自己保衛自己。

中國爬蟲最愛光顧的網站

這是被監測到的受爬蟲侵擾最多的 Top50。(採樣數據,僅供參考)

你以為在百度搜索的信息,真的是它想讓你看到的嗎?「網絡爬蟲」

中國爬蟲圖鑑

這張表裡,除了google、Youtube、ask、亞洲航空這四家企業之外,應該全是中國企業(或機關)。正是從這些名字背後,我體會到了很多人的辛酸和焦慮。

爬蟲是趨利的,它們永遠會向有利益的地方爬行。而爬蟲覺得有利益的地方,往往是我們不忍提及的隱痛。

你看,排名第1的“中國鐵路路客戶服務中心”

無數像么哥一樣的遊子,他們奮鬥在一個遠離家鄉的城市,為了讓家人有更幸福的生活。正是他們難以買到過年回家車票的事實,才把 12306 推上了爬蟲榜的第一名。

你看,排名第8的“最高人民法院公告查詢”

在中國,我們的信用體系還很不完善,騙子和老賴還可以繼續矇騙新人。所以才催生了爬蟲收集法院公告,形成民間信用記錄的服務。

你看,排名第15的“北京市預約掛號統一平臺”

我們的醫療改革在進行,但像你我一樣的普通人仍然看病難,看病貴。又便宜又好的醫療資源需要爭奪,這才有了“一號難求”的現實,才有了黃牛用爬蟲拼命搶號的現象。

自不用說那些神坑的虛假廣告,衝榜刷量,背後都有爬蟲的影子。

有人說技術有罪,有人說技術無罪。

我不知道技術是否有罪,我只知道,這些盤踞在我們廣袤版圖上數以十億計的爬蟲,無時無刻不在提醒著我們:

抱怨不會讓這個世界變得更好,你想生活在一個怎樣的世界,就要用自己的雙手去創造它。

-End 看完是不是覺得很可怕! 喜歡的請關注小編哦,後續還有大片,敬請期待!

片尾:

喜歡的可以多多收藏,分享和轉發,非常感謝!

喜歡我的文章可以【關注小編】哦,感謝大家!

如果文章有不正之處 請大家評論批評指正 我會看心情改 也有可能不會改!

塵世中一個浪蕩的程序員 只為升級打怪! 我的願望是世界和平!

資料獲取方式: 關注小編,私信【你好世界】手機用戶可以直接私信,電腦端尚未開放此功能,還需下載app,然後私信回覆:【你好世界】 我已經設置了自動回覆,請根據回覆內容操作。


分享到:


相關文章: