乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例

高防專線:13018905120(微信同號)QQ:869784092

公司官網:www.XY3000.com

www.bgpddos.com

-我曾看到充滿激情的創業團隊、一個個玩法很有特色的產品,被這種互聯網攻擊問題扼殺在搖籃裡; 也看到過一個運營很好的產品,因為遭受DDoS攻擊,而一蹶不振。

這也是為什麼想把自己6年做遊戲行業DDoS的經驗,與大家一起分享,幫助在遊戲領域內全速前進的企業,瞭解本行業的安全態勢,並給出一些可用的建議。

遊戲行業綜述——機遇與風險並存

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


對於遊戲而言,遭受到攻擊是一件很常見的事情,據統計國內一半以上的DDoS攻擊都是針對遊戲行業的。目前遊戲行業總體而言是機遇與風險並存的,2017年中國網遊市場規模已經突破了2000億,但是網絡遊戲卻也是DDoS攻擊的頭號重災區,其實不僅僅是中國,全球市場上針對於遊戲的DDoS攻擊永遠是排在第一位的,而在中國這樣的現象則更加嚴重,尤其在是從今年春節之前一直到3月份延續的這波攻擊中,很多遊戲廠商一直被DDoS攻擊所壓制。除此之外,移動端的快速增長也帶來了移動安全問題,另外還出現了利用欺詐手段或遊戲漏洞破壞遊戲環境的現象。

DDoS攻擊趨勢及原因分析

對於DDoS攻擊而言,其平均防禦成本隨著DDoS攻擊流量的增長呈現出加速向上的曲線。根據計算數據分析得出:如果DDoS攻擊流量達到250G,每個月的防禦成本大約會需要5萬美元左右;如果達到300G就會需要每月6萬美元;達到350G時防禦成本則需要每月8萬美元;如果達到500G攻擊流量,那麼防禦成本則需要14萬美元,也就是每個月需要花費大約一百萬人民幣去進行DDoS攻擊的防禦。在2017年,300G以上的攻擊已經呈現常態化了。而對於DDoS攻擊每小時所造成的商業價值損失而言,據數據統計36%的應用被攻擊一小時的損失在5000美元到2萬美元之間,34%在2萬美元到10萬美元之間,還有15%被攻擊時每小時損失會超過10萬美元。

除此之外,根據黑客攻擊的時間維度數據也能分析出一定的規律性:基本上在每天的凌晨3點到9點之間,黑客攻擊將會處於睡眠期,這個時間段其實屬於黑客換裝彈藥的時間,在這個時間段,他們會把第二天需要攻擊對象的名單和需要使用腳本準備好,當早上9點的時候,黑客的腳本就會自動運行然後開展新一波的攻擊,所以在早上9點到凌晨3點之間這段時間,黑客的攻擊是比較頻繁的。

另外,目前國內主要有兩大黑產組織,這兩個組織也是遍佈整個東南亞地區的,他們的最頂層組織處在中國境外,而且他們所掌握的攻擊流量已經超過了1個T。大家可以想象一下,這樣的攻擊流量其實對於任何一家遊戲公司或者應用而言都將會是致命的,黑產組織中最大的擁有800G的攻擊流量,小一些則擁有的大約600G的攻擊流量,所以他們基本上有能力將任何一個遊戲公司攻擊到掛掉。

今天,黑客發起攻擊的成本其實會非常低,比如對於海外的UTB小包而言,一個G一天只要花費50元,即便是最貴的DNS反射攻擊也只要1個G一天350元。但是黑客顯然不是這樣報價的,比如黑客盯上了某一個遊戲,就會去以包天或者包月或者按照效果付費的方式進行購買攻擊包,一定會將遊戲服務打死,甚至會提供打不死不收錢的“包打死”服務。前一段時間大家應該都看到了阿里雲的吳翰清在自己的公眾號上發了一篇文章談了他回到阿里的29個月。其實這篇文章中也談到了,在2016年的時候阿里雲打擊了剛才提到的兩個黑產組織中的一個,在打擊之後在幾個月的時間之內,整個中國的黑產組織其實就消失掉了,國內的DDoS攻擊量也下降了56%,同時全球的DDoS攻擊量也下降了8%,但是因為黑產組織的核心組織人員都在中國境外,半年之後這個組織就又死灰復燃了。

對於實際的攻擊手法而言,由於攻擊源是在逐年增加的,以前只有針對PC的攻擊,後來出現了針對服務器端的攻擊,曾經有數據統計大約50%以上IDC的服務器都被黑客成功入侵併成為了肉雞,而現在還有針對於手機的攻擊,很多人的手機其實都處於黑產組織的控制之中,而且現在很多的IoT設備紛紛加入了DDoS攻擊的浪潮之中,也將DDoS攻擊的流量逐年推高。在2014年的時候DDoS攻擊還是以50GBPS為主,攻擊手法以IDC偽造源IP攻擊為主。而在2015年時,攻擊100Gbps+的攻擊已經常態化了,攻擊手法也在升級,從偽造IP轉向反射型Flood攻擊。2016年時,200Gbps+的攻擊常態化,IoT和移動終端的興起導致基於真實設備的攻擊層出不窮。而在2017年的最近兩三個月,大家所看到的趨勢是300Gbps+的攻擊常態化,並且基於私有協議和真實源的攻擊事件呈指數級上升趨,導致攻擊更加難以防範。

那麼黑客為什麼會攻擊遊戲行業呢?首先可能是發洩自己的不滿,有些同學對於遊戲產生了不滿情緒,那就可能為了發洩自己的不滿將遊戲打掛掉。還有黑產接單打單,比如兩家競爭同一市場的遊戲公司,其中一家公司就有可能找黑產對於對方的業務進行打擊。還有敲詐勒索,小蟻網絡也遇到很多客戶說自己曾收到了黑客在微信或者QQ上面的勒索流言,要求給對方錢財否則將對遊戲業務進行攻擊。還有業務扶持,黑產也會與一些行業中的公司進行合作,扶持某家公司成為行業的龍頭老大,其他的競爭對手就會全部被打死。最後就是機房合作,黑客會要求一些遊戲廠商必須搬到某個機房中,如果不然就進行攻擊。所以就是出於以上的種種原因,地下黑產才形成了今天這樣對於遊戲客戶的攻擊形式。

而且黑客的具體攻擊手法也非常多樣,可以拿“打尖峰”舉例說明,比如大家都知道阿里雲及各雲上5個G黑洞,此時黑客就不會持續地使用很高的流量進行攻擊,因為他們知道黑洞的原理所以就會使用5.01G的流量進行攻擊,這樣遊戲公司的IP就進入黑洞了,黑客就會主動摸索遊戲公司的的業務防禦上限在哪裡,然後通過打尖峰的手法對遊戲進行攻擊直到服務掛掉。另外一種打法就是壓制一個時間段,比方某一種遊戲會在每天早上9點到9點半之間有大量的玩家湧入進來玩,如果在這半個小時內將遊戲的登陸服務壓制掉就能夠導致遊戲無法提供服務,這樣就會導致玩家轉到其他遊戲。而最可怕的一種攻擊手法就是最近出現的持續壓制,也就是遊戲從早到晚都會處於300G的流量攻擊之下。以上主要是按照攻擊的時間段進行劃分的,而如果按照更細粒度攻擊手法進行劃就可以分為以下兩種攻擊:

  • 大流量壓制,也就是通過海量的流量湧過去將整個機房都堵上。
  • 精細化壓制,使用CC攻擊實現的精細化流量壓制,目前往往以同時使用或者先後使用的方式配合大流量壓制實現。

趨勢一:大流量已經常態化

目前,對於DDoS攻擊而言出現了兩個極為明顯的趨勢。

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


第一個趨勢就是大流量攻擊已經呈現常態化。黑客已經可以在極短的時間內聚集大量的攻擊流量,這種大流量壓制型攻擊在之前可能只是個傳說,而從今年的情況看來,大流量攻擊已經成為了現實。隨著帶寬成本逐年降低,肉雞資源的逐年豐富,大流量壓制型攻擊已經不再是業界的“都市傳說”,高入口帶寬也已經不再是攻防的保險箱,已經無法實現與攻擊流量進行“軍備競賽”,因此現在也是時候需要考慮對於應對大流量攻擊採取一些變革了。

趨勢二:CC攻擊向精細化轉變

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


第二個趨勢就是CC攻擊向精細化轉變,攻擊的載體從IDC肉雞到IDC和家庭肉雞,再到IDC、PC移動端設備最後到IDC、PC、IoT和移動端設備不斷轉變,攻擊手法也從半開鏈接攻擊到TCP資源攻擊再到服務器資源供給最後到模擬私有協議發起攻擊不斷變化,攻擊的手法越來越細化,防禦難度也越來越高。其實很難做到安全防禦既能夠防禦大流量的攻擊也能夠防禦精細化的攻擊,這也是進行安全防禦時可能出現今天能夠防護住但是明天卻又防不住情況的原因,因為黑產也在不斷試探並打擊遊戲的弱點。

欺詐與作弊

另外兩種威脅就是欺詐與作弊,比如垃圾註冊、撞庫以及流量作弊等。

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


  • 垃圾註冊,玩家大量註冊小號,獲取新號獎勵和刷金幣。
  • 流量作弊,渠道商利用模擬器等手段批量掛機,進行流量作弊,獲取非正常利益。
  • 遊戲盜號,攻擊者利用自動化工具,通過掃庫撞庫等方式進行盜號。


破解與外掛

還有兩種威脅就是破解與外掛,包括了客戶端破解和偽造數據包。

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


  • 遊戲破解,破解客戶端遊戲程序,免費獲得遊戲內購,改變遊戲設定。
  • 內掛,通過破解遊戲和數據包結構,逆向出或直接調用發
  • 包函數,改變正常遊戲數據,實現超出正常玩家的水平和能力。
  • 脫機掛,完全脫離遊戲客戶端程序,可以與遊戲服務器自由通訊的外掛程序,對遊戲的危害最大,嚴重破壞遊戲平衡,縮短遊戲運營週期。無論是手遊還是端遊在被破解之後都可以做外掛,還能夠通過破解協議報文模擬數據併發送到服務器上去,消耗遊戲的資源使得正常玩家也無法進行遊戲。


雲盾遊戲安全解決方案

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


小蟻網絡的雲盾所提供的其實是全方位遊戲安全解決方案。針對於DDoS攻擊,雲盾提供了DDoS高防IP和遊戲盾。DDoS高防IP的防護峰值帶寬20~300Gbps,並且防護閾值可以彈性調整;而遊戲盾是雲盾中創新性的防禦DDoS攻擊的手段,當攻擊流量超過300G時就可以使用遊戲盾進行防禦,目前遊戲盾能夠防禦的DDoS攻擊已經達到了600G左右。除此之外,雲盾還提供了針對移動安全和數據風控的解決方案。

遊戲安全之一- DDoS高防IP服務

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


DDoS高防是一項針對海量DDoS攻擊的清洗服務,防護能力高達300Gbps。DDoS高防IP服務其實是多線的,有電信線路、聯通線路還有BGP線路,其通過CName解析或者將VIP貼到高防中心上去的方式將流量引過去再將流量還原給用戶,但是DDoS高防服務的上線卻只能達到300G,300G以上就會受限於機房帶寬的能力了。

遊戲安全之二- 遊戲盾服務

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


遊戲盾服務採取的對抗手段再也不是進行安全攻防的“軍備競賽”這樣依靠帶寬去對抗帶寬的手法了,而是採用流量拆分和智能調度方式去防護DDoS攻擊。其原理其實非常簡單,就是黑客在同一時間只能夠找到幾十臺服務器中的一個IP地址,最多將這個IP地址的服務器打掛掉,但是無法將整個服務打掛掉,所以遊戲將能夠保全大部分的客戶而只有很少的客戶會受到損失,通過這樣的方式去防護遊戲。針對於CC攻擊,遊戲盾實現了多層的精細化的CC防護,目前看來其效果也非常好,對於今天大家看到的針對大型遊戲公司的CC攻擊而言,20萬QPS已經非常常見了。而且遊戲盾不僅僅是一個產品而是一整套的服務體系,其也在不斷地對於攻防能力進行提升。

遊戲安全之三-移動端安全

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


對於移動端安全而言,主要進行的是應用加固,通過安全組件將移動端應用的協議加密,並進行安全存儲和加密防止黑客破解。

遊戲安全之三-業務風控

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


對於業務風控而言,如果應用是一個Web客戶端,黑客就可能進行垃圾註冊等進行攻擊,這樣採用業務風控的手段就可以防止黑客刷應用的接口。

實際案例分析

接下來為大家介紹一些使用小蟻網絡雲盾所提供的安全解決方案的實際案例。

案例一

在2018年,小蟻網絡第一次將自己的DDoS服務進行商業化,也是在這一年,小蟻網絡的一個遊戲客戶遭遇了史上最大規模的DDoS攻擊,攻擊流量達到了1.6T,並且持續攻擊了大約2個小時。而小蟻網絡當時也幫助客戶成功地防禦住了這長達2個小時的DDoS攻擊,當時採用了全國多個高防機房近源清洗加立體式防禦幫助客戶進行防禦,為了不影響用戶體驗,防禦機房中使用了單線、雙線、BGP高防但是其實BGP帶寬的防禦成本是所有防禦帶寬中最高的。

案例二

第二個案例則是大家比較熟悉的,就是閒來互娛的實際案例。閒來互娛是2016年4月份成立的遊戲公司,其主要遊戲業務是地方棋牌遊戲,它剛開始時發展非常迅速,但是卻在5月和6月份時被DDoS攻擊打擊得非常慘烈,使得其業務基本上無法開展並且接近倒閉邊緣。這時小蟻網絡向閒來互娛提供了安全防護解決方案,並且小蟻網絡和閒來互娛合作將安全解決方案應用到了其整個遊戲攻防體系中去。而在4月份到11月份被崑崙萬維以20億的價格收購之間的4、5個月的時間內其經歷了2次大型的攻擊對抗。第一次對抗發生在安全解決方案部署完成之後,黑客很快發現僅靠大流量攻擊完全打不下來,於是黑客開始破解遊戲客戶端,將遊戲客戶端破解之後就發現了遊戲客戶端中對於流量調度的原理,這樣就能夠把所有的IP防護節點全部找出來,之後對於找出的節點進行逐個打死。所以小蟻網絡幫助閒來互娛在第一輪對抗中做的就是將應用進行加密,並將邏輯進行混淆,這樣就使得黑客難以在同一時間發現更多的節點的IP地址,而最多一次只能獲取一個節點的IP。在第二輪攻防中,黑客發現使用大流量攻擊無法打下來,但是使用CC攻擊卻非常有效,於是他們使用CC攻擊的手法去攻擊登錄服務,而大家都知道登陸服務相當於應用的入口,當登陸服務受到攻擊時就發現防禦能力急劇下降,即便其他的遊戲節點都正常也是無濟於事,不能起到任何作用了,所以小蟻網絡此時推出了NGCC防護能力,使用NGCC防護之後即便是50萬QPS也能夠輕鬆防禦,基本上就保護住了閒來互娛的第二輪攻擊,一直到其被收購之前都保證遊戲運行非常平穩。

案例三

還有一個案例是2016年2月的另外一個遊戲公司在一個月的時間內連續被攻擊了多次,並且攻擊流量超過了400G,而這個流量在2016年初時是非常高的,這個公司同樣也快被打掛了,此時小蟻網絡幫助其啟用了高防+遊戲盾的安全解決方案,同時幫助該公司實現了態勢感知和溯源,也幫其找到了在背後進行攻擊的黑客並通過遊戲公司報警,小蟻網絡提供證據最後將犯罪嫌疑人捉拿歸案,這也是反擊能力的體現。大家知道很多遊戲公司被攻擊之後往往是打不還手的,其實並不是因為遊戲公司脾氣好,而是往往通常情況下游戲公司並不知道到底誰在發起攻擊,所以如果客戶擁有了溯源的能力就可以找到在背後對自己發起攻擊的那個人並將其繩之以法,同時也將會為自己的業務贏得一定時間的安全發展時機。

案例四客戶的案例

2015年應該是互聯網金融行業受黑客攻擊最多的一年吧,各互金公司都深受其害,當時我記得*貸之家有一段時間被黑客攻擊的太厲害,連續幾天網站都無法打開。當然我們也未能倖免,DDoS 攻擊、SQL 注入、漏洞滲透等等,幾乎都經歷過,有的黑客比較仁慈,應該是出於善意或者展示自己,將漏洞放到烏雲上面或者漏洞盒子裡面讓廠商來修復。但更多的是一些黑產,完全就是威脅、敲詐、想撈一筆錢,先看看下面這位吧:

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


這個傢伙潛伏到我們公司的客戶群裡面,冒充我們的客戶代表將頭像和資料替換成一樣,然後給群裡所有的客服發消息,讓發送我們內部的後臺地址給他,想通過這種方式來尋找突破口,當然這是裡面的小菜鳥。

那到底如何正確的防止 DDOS 攻擊:

  • 1、小蟻盾是一款專門解決 ddos 攻擊 cc攻擊的安全防護引擎。當您的應用程序與小蟻盾集成後,小蟻盾即刻進入運行狀態,我們會為每個用戶分配一個不同的ip,千人千面、一人一ip。當黑客發起攻擊時,只有他自己受到影響,同時小蟻盾能夠精準識別黑客,並直接拉入黑名單。如此一來黑客就無法得到新的ip,只能重新更換手機或電腦。這個原理既能夠清除掉黑客,又能無視其攻擊,還不影響其它用戶。這正是,一次集成,終身受益。此之,網站防護,高防服務器,特價服務器,服務器運維 都是我們的專長, www.xy3000.com ( 小蟻網絡技術有限公司 掛牌代碼:300800HN )
  • 快快聯繫我們吧400-901-5608
  • 2、使用我們的立體式防禦系統,可隱藏客戶真實服務器的IP地址,每個結點都會成為客戶服務器的盾機被攻擊的只能是結點,而且由於有多個結點做盾機,就算攻擊是個強度非常大,而且持續非常久的話,哪怕還有一個結點服務器是活的,那麼攻擊就打不到客戶真實的服務器上,而且還有很多備用節點,一旦哪個節點宕機,宕機監測系統便會馬上啟動備用節點,這樣就保證了遊戲和網站不會掛掉。

案例五:

一次dns緩存引發的慘案

時間2015年的某個週六凌晨5點,公司官方的QQ群有用戶反饋官網打不開了,但有的用戶反饋可以打開,客服爬起來自己用電腦試了一下沒有問題,就給客戶反饋說,可能是自己網絡的問題,請過會在試試。早點8點,越來越多的用戶反饋官網無法打開,並且有部分用戶開發反饋app也打不開了,客服打電話叫起了還在夢鄉中的我。

分析定位

被客服叫起來之後,一臉懵逼,不知道什麼情況,給客服回覆,知道了,立刻排查,待會有消息及時溝通。用涼水洗了一把臉清醒了一下,立刻根據經驗回憶這兩天生產投產的情況:上線了XX模塊,不影響、修復了XXbug,應該也不影響、剛給服務器配置了https,看起來好像有點關係,但是app暫時沒有投產https,怎麼也出現問題,排除之。打開電腦核查了最近的投產記錄應該都不至於發生這麼嚴重的問題,隨懷疑是不是網絡方面有問題,立刻打電話叫起來運維經理以及相關人等一起排查。

一邊讓網絡和運維排除問題,一邊再次核查了web服務器、數據庫服務器、業務日誌、數據庫日誌,以及其它的一些監控數據,各項皆正常。試著在本機ping了一下域名確實不通,更加懷疑是網絡問題,嘗試這直接使用外網訪問官,可以打開沒有問題,可以基本確認服務沒有問題,但運維部反饋網絡設備什麼都正常,肯定是你們投產代碼出問題了,各方硬著頭皮繼續在排查。

9點,群裡開始有大規模的用戶反饋官網和app都打不開了,更有部分用戶煽動,XXX公司跑出了(15年很多p2p公司跑路,導致用戶都成了驚弓之鳥,稍微有問題便害怕公司跑路,個個都鍛鍊成了監控高手,天天看,實時刷,凌晨起來尿尿也都順便看一下app上的今日收益),客服400熱線基本被打爆了。一邊繼續排查問題,一邊上報此問題給總監、公司各高管,給客服建議,給用戶解釋,IDC機房網絡抖動,技術正在緊急解決,資金和數據都沒有任何影響,稍安勿躁。

10點,開發和運維反覆的檢查後,開始懷疑dns解析有問題,但具體是什麼問題還不清楚,CTO決定:1、大家都打車往公司走,來公司集體解決 2、在各QQ群、微信群給用戶群發解釋xxx問題,安撫客戶。在車上的時候重新梳理了一下用戶的整個訪問流程,如下圖:

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


到公司後,根據這個思路大家在一起驗證了一下,通過外網IP和內網IP訪問公司所有服務都正常,但是通過域名訪問不行,另外監控服務器、防火牆、網絡設備日誌都正常,因此斷定是DNS解析出現問題。

攻堅問題

既然確實是DNS解析問題,那麼問題又來了?為什麼DNS解析會出現問題?如何去解決這個問題?一邊給萬網提工單,我們也自己測試一下電信、移動、聯通在不同的網絡運營商下面的訪問情況,發現只有在聯通網絡的環境下DNS解析不了。根據客服得到的反饋也驗證了這個情況,電信和移動用戶反饋很少,聯通用戶反饋最多。於是我們又開始給聯通打電話,剛開始聯通不受理我們的這個請求,於是又開始以用戶的身份打電話給聯通公司讓立刻解決不能上網的問題。

於是就開始了萬網和聯通的扯皮大戰,萬網說從他們那邊查看DNS解析都正常,一起指標都正常,我們又給聯通打電話聯通說我們已經知道了,待會由專業的人給我們回覆,過了一會聯通的網絡工程師回覆說,像這種情況一般都是域名解析的問題。早上10:30到公司開始短短的6各小時內,我們幾個輪流給聯通公司合計供打了近50、60通電話,給萬網提了N個工單,接了N個電話。

期間領導也開始動用各種關係,聯通內部的朋友、網絡運維界的大拿幫忙來定位解決,我們也嘗試了很多的辦法,比如,使用ipconfig/flushdns命令清除本機的DNS緩存、在萬網的官網把DNS解析重新更新一邊、刪除在重新添加等等,也不是完全沒有收穫。我們一直想找一個可以測試各個地方、運營商網絡的辦法,終於在各方推薦和搜索的情況下找了17ce 和 360奇雲測兩個網站,感覺非常實用,在以後的網絡定位中,成了我必備使用的工具,可以非常方便的監控各個運營商、各個地區網站的訪問是否通不通、訪問的速度快不快等問題,截圖如下:

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


我們也發現,公司的其它域名也都訪問正常,就是官網的這個域名和相關的子域名不通。期間很多人都問了一個問題就是你們的域名有沒有忘了繳費,剛開始大家也都問了運維這邊說是沒有這個問題,直到中午12:30的時候在我們再三的追問下才說8點多的時候登錄上萬網的時候顯示這個域名是欠費狀態,但是他已經立刻把費用補了上去了。哎呀差點把我們氣死,問了不是域名到期有提示的嗎?才知道因為上一個運維經理走後,他們沒有及時的更新萬網的電話和郵箱導致提示郵件和短信也沒有收到。

通過和萬網、聯通公司、領導的相關朋友溝通以及我們的測試觀察,初步明白了這個事情的原因:域名忘記繳費導致萬網的DNS解析被停止,用戶本機或者DNS服務器有緩存,所以部分用戶可以訪問部分用戶不能訪問;繳費過後萬網的DNS已經進行了更新和推送,但是DNS解析有很多的層級需要一級一級的往下面發送更新,有的層級並沒有更新到,導致部分沒有更新到的DNS服務商下面的用戶不能訪問官網。

和萬網進行了溝通,問最延遲的情況所有的DNS更新到最新的時間,回答是48小時內肯定都會好的,但是我們等不起呀,隨著時間的推移越來越多的用戶發現問題,QQ群、微信群已經沸騰,董事長也開始關注次問題,有的客戶直接在群裡面說,你們的技術太不給力了(像這種還是委婉的,有的直接打電話罵人)…

臨時解決方案

不斷的通過17ce測試發現,大部分地區的網絡都已經恢復,就剩北京聯通和部分地區聯通網絡環境下不通,也說明了這幾個地區下的DNS解析記錄沒有被更新。那麼既然我們在上面已經定位出了問題,又瞭解是什麼原因,就想著試著換個DNS解析服務器會不會好一點呢,於是我們把本地的DNS地址換成8.8.8.8(谷歌的DNS服務解析)發現好了!於是趕緊先寫解決手冊發給著急的客戶來使用。

官網的用戶可以通過更改DNS來解決訪問的問題,APP怎麼辦呢?沒有辦法我們也不能等,直接找開發人員把客戶端調用的地址由域名暫時先改為外網的IP地址打一個版本供用戶臨時使用。安卓還比較好辦,直接讓用戶下載安裝使用還好,但是IOS那時候的審核最少都需要一週黃花菜都涼了。其實iPhone手機可以單獨設置DNS的,我們進行了設置和測試後發現也可以實現,於是馬上更新到手冊中發送給客服發送到群裡面給用戶使用。

點擊下載當時寫的DNS更新手冊

有人說直接讓用戶使用外網就行了嗎,使用外網首頁打開到是沒有問題,但是各系統之間調用,相關配置文件裡面寫的也都是域名的地址,如果硬改的話可能會引發另外的問題。第一天搞完就10點多了,中間就4點吃了一頓飯,打了N個電話大家都非常累,於是當天就先這樣了,第二天大家一早到公司繼續跟進。

第二天到公司經過17ce測試發現所有的節點都已經通了就剩北京聯通的兩個接點沒響應,但是北京是我們的大本營,絕大部分的用戶都是北京的,繼續和萬網、聯通溝通看怎麼能徹底的解決這個問題,另一方面做好最壞的打算,如果一直不通怎麼辦。在生產環境中梳理所有使用域名的配置文件,做好隨時可以直接更新為外網地址而不能影響服務,app完整的重新做一個版本,做好隨時可以投產讓用戶強制升級到外網直連的版本。

到第二天晚上10點的時候,北京聯通的這兩個節點還是不通,和領導進行了商議如果到週一早上8點來的時候這兩個網絡還是不能通的話,就上線改造好的系統和APP強制升級(因為當時週末還沒有標的,周內才有發標計劃)。第三天早上起來的第一件事情就是拿起手機,查看自己的聯通網絡是不是可以登錄上官網,結果通了!皆大歡喜。

俗話說真理是愈辯愈明,經過了這次事故,也徹底的讓我瞭解了DNS解析的整個過程。

DNS 解析流程

DNS( Domain Name System)是“域名系統”的英文縮寫,是一種組織成域層次結構的計算機和網絡服務命名系統,它用於TCP/IP網絡,它所提供的服務是用來將主機名和域名轉換為IP地址的工作。俗話說,DNS就是將網址轉化為對外的IP地址。

dns從用戶訪問到響應的整個流程

乾貨,遊戲DDoS攻擊趨勢及原因分析,附防禦案例


  • 第一步:瀏覽器將會檢查緩存中有沒有這個域名對應的解析過的IP地址,如果有該解析過程將會結束。瀏覽器緩存域名也是有限制的,包括緩存的時間、大小,可以通過TTL屬性來設置。
  • 第二步:如果用戶的瀏覽器中緩存中沒有,操作系統會先檢查自己本地的hosts文件是否有這個網址映射關係,如果有,就先調用這個IP地址映射,完成域名解析。
  • 第三步:如果hosts裡沒有這個域名的映射,則查找本地DNS解析器緩存,是否有這個網址映射關係,如果有,直接返回,完成域名解析。
  • 第四步:如果hosts與本地DNS解析器緩存都沒有相應的網址映射關係,首先會找TCP/ip參數中設置的首選DNS服務器,在此我們叫它本地DNS服務器,此服務器收到查詢時,如果要查詢的域名,包含在本地配置區域資源中,則返回解析結果給客戶機,完成域名解析,此解析具有權威性。
  • 第五步:如果要查詢的域名,不由本地DNS服務器區域解析,但該服務器已緩存了此網址映射關係,則調用這個IP地址映射,完成域名解析,此解析不具有權威性。
  • 第六步:如果本地DNS服務器本地區域文件與緩存解析都失效,則根據本地DNS服務器的設置(是否設置轉發器)進行查詢,如果未用轉發模式,本地DNS就把請求發至13臺根DNS,根DNS服務器收到請求後會判斷這個域名(.com)是誰來授權管理,並會返回一個負責該頂級域名服務器的一個IP。本地DNS服務器收到IP信息後,將會聯繫負責.com域的這臺服務器。這臺負責.com域的服務器收到請求後,如果自己無法解析,它就會找一個管理.com域的下一級DNS服務器地址給本地DNS服務器。當本地DNS服務器收到這個地址後,就會找域名域服務器,重複上面的動作,進行查詢,直至找到域名對應的主機。
  • 第七步:如果用的是轉發模式,此DNS服務器就會把請求轉發至上一級DNS服務器,由上一級服務器進行解析,上一級服務器如果不能解析,或找根DNS或把轉請求轉至上上級,以此循環。不管是本地DNS服務器用是是轉發,還是根提示,最後都是把結果返回給本地DNS服務器,由此DNS服務器再返回給客戶機。
這個事情發生後給了我們很大的教訓:第一、流程管理有漏洞,離職交接不到位;第二、危機處理不成熟,影響公司聲譽; 第三、監控機制不完善,像外網不通的這種問題,應該提前設置監控措施。

有時候非常的嚴重的問題,就是你常常忽略的小不點

總結

古代對將軍的要求是,心有萬馬奔騰,面如湖水平靜,在互聯網行業,對領導的要求也如此,特別是技術負責人,在面對生產事故的時候,一定是先安撫同事,靜下心來找到問題本質,再去解決,而不應該不斷去施加壓力催促,重壓之下很多心裡承受能力稍弱的隊友,會更加慌亂,不但不利於解決問題,還可能引發二次事故。

在看淘寶雙十一視頻中,有一段感受特別深,在雙十一初期,雖然技術團隊做了很多的準備,但是在零點過後流量瞬間湧入,服務被打垮,部分用戶投訴刷新不出網頁,緊接著隔壁同事也都反饋網站打不開,在大家都在慌亂中,XX一拍桌子大喊一聲,大家都別動,三分鐘之後再說,過了幾分鐘之後服務慢慢恢復了正常。後來回憶說,當時雖然服務癱瘓,但是監控到有部分業務成功,說明系統並沒有被壓垮,而此時的任何操作都有可能引發更大的問題,從此之後此人一戰成名,成為阿里大將。

互聯網平臺發展大抵都會經歷三個階段:

1.上線初期,此階段問題最為繁多,生產事故不斷,系統快速迭代優化。有人說為什麼不測試到完全沒有問題再投產?說實話在互聯網行業這個很難:

  • 第一,小公司很難做到生產環境和測試環境一致,成本太高;
  • 第二,時間緊迫,一般都是很短的時間內要求上線,上線之後再快速迭代;
  • 第三,互聯網本就是一個快速試錯的行業,錯過半年時間可能風口早過;

2.發展期,此階段主要業務模式已經得到驗證,系統出現問題的頻度較少,低級錯誤減少,但此時是用戶量和交易量不斷爆發的時候,對系統性能、高併發的要求又上來了,所以此時出現的問題大多都是性能的問題;

3.成熟期,發展期過後系統相對比較平穩,用戶量和交易量都已經慢慢穩定下來,生產問題越來越少,出現問題幾乎都是細小的 bug。這個階段也是公司最忽略技術的階段,現在我們公司發展到了這個階段,在這個階段需要靜下心來,做組織架構升級,補齊在初期和發展期所欠下的技術債務,做好公司進入下一個量級的技術儲備。

所有的這些問題幾乎都集中在14年底到15年初的這個階段,15年後半年開始到現在,平臺慢慢穩定了下來,到現在幾乎沒有再出現過類似的問題,也因為幾乎都是兩年前的事情,有很多記的不是特別清楚了,寫的比較粗糙望見諒。

高防專線:13018905120(微信同號)QQ:869784092

公司官網:www.XY3000.com

www.bgpddos.com

小編親身的經歷,互聯網的世界處處存在著不確定性,希望各位在這條路上能越走越好,相信未來我們這些做安防的也會越來越站在科技前沿去發言,實實在在的去為所需要的企業盡最大努力去服務!


分享到:


相關文章: