03.02 互聯網根服務器故障和滯後路由控制致“.net”頂級域名斷網

中新網3月2日電 近日,互聯網頂級域名“.net”在F根服務器(由互聯網基礎軟件研發機構ISC運行)以及E根(由美國國家航空航天局運行)的解析出現了故障。由於“.net”和“.com”(通用頂級域名)以及“.cn”(中國的國家代碼頂級域名)一樣,是互聯網使用範圍最廣的頂級域名之一,有一千三百四十多萬註冊量,其解析故障導致了大量使用“.net”域名的網站和服務器從互聯網“斷開網絡連接”,持續3小時18分鐘。

這次事件在國際互聯網社群造成很大的影響,互聯網域名系統國家工程研究中心主任毛偉研究員,針對此次斷網事件進行了解讀和分析。

覆盤:域名解析故障疊加路由控制失效導致的斷網事件

2月22日,F根的運行機構--互聯網基礎軟件研發機構ISC(Internet System Consortium,DNS開源項目BIND的維護單位) 發佈了一份報告,對此次事件的原因進行了說明。根據該報告披露,此次斷網的原因是:F根部分服務節點部署在美國CDN廠商Cloudflare的網絡中。由於Cloudflare在其網絡基礎軟件進行升級時,出現了故障,不能正常對互聯網返回F根服務器的尋址信息。在故障修復之前,由於Cloudflare沒有及時停止對互聯網廣播F根的服務地址(F根的IP地址),大量用戶流量仍然被路由到Cloudflare運行的故障F根節點訪問,導致無法訪問所有“.net”域名的互聯網服務。1月23日,在收到用戶反饋“斷網”後,Cloudflare停止了對外廣播(BGP)F根的服務地址,互聯網用戶對F根的訪問流量被定位到其他機構運行的F根服務節點上。完成故障修復後,Cloudflare重新對外廣播F根的服務地址,向互聯網用戶提供正常的根區解析服務。(報告原文地址:https://www.isc.org/docs/f-root/incident-2020-01.pdf)

由美國國家航空航天局(NASA)運行的E根的部分服務節點也部署在美國CDN廠商Cloudflare的網絡中,並受此次故障影響,其原因應該是一樣的。

啟示:“路由斷網”和“域名斷網”既相互區別,又有所聯繫

此次斷網事件讓“域名系統”和“路由系統”再次成為高亮詞。回顧互聯網的安全史,大概沒有哪個單一系統故障能像域名系統和路由系統,一旦出現故障就可以造成大面積的網絡癱瘓或服務中斷。但這次事件的原因交織了兩個“斷網”要素:突然出現的“域名斷網”,需要通過“路由斷網”來終止不利影響。

在此次斷網事件中,首先是因為域名系統的解析故障,導致了根服務器(F根)反饋了錯誤的“.net”域名解析結果。ISC官方說此次故障是由於F根節點(Cloudflare公司)的基礎軟件(underlying software)升級導致的:運行在cloudflare的F根節點軟件升級後出了bug,導致返回“.net” 頂級域名的NS 記錄時沒有反饋glue記錄(“.net”權威服務器的IP地址)從而導致用戶無法進行下一步DNS解析。

但這一配置故障並不是決定性的。全球的根服務器系統,早就通過部署“鏡像節點“並以BGP+Anycast的機制保證根服務器的解析,不會因為部分節點失效而出現故障。但是,這一機制的前提是要駕馭好基於BGP的全球互聯網路由控制系統。在發現了Cloudflare運行的F根節點出現問題後,如果第一時間通過路由控制(BGP)停止對全球互聯網廣播服務地址(讓錯誤的F根節點“斷網”),那麼該節點提供的錯誤域名解析就不會影響到用戶。用戶會通過BGP+Anycast機制找到提供正確域名解析的其他F根節點。

延伸:“斷網”是多種因素共同作用的複雜現象,要區別斷網的層次

“互聯網域名系統”(簡稱“域名系統”)和“互聯網路由控制系統”(簡稱“路由控制系統”)在全球網絡的互聯互通中扮演了什麼角色?一般來說,互聯網的用戶終端(電腦、手機等)要想訪問一個網頁(網站服務器),首先需要通過域名系統的“查詢功能”獲取網站的IP地址,然後再在根據路由控制系統提供的“尋址功能”將消息(訪問請求)發送給網站。類比郵政系統,域名系統類似收件人的地址查詢系統,根據收件人的名字反饋收件地址;路由控制系統類似於導航系統,根據收件地址,在實際的道路網中規劃處一條最合理的寄送道路。域名系統故障,稱為“域名斷網”,也即,用戶無法查詢到通信對象的IP地址;路由控制系統故障,稱為“路由斷網”,也即用戶無法根據通信對象的IP地址發起訪問請求。

域名故障容易導致大面積斷網的本質,是因為域名系統是集中層次化管理,單點失效會傳導給所有依賴此服務的網絡。路由故障容易導致大面積斷網,是因為互聯網是以“自治域”為單位互聯互通,路由控制一旦失效,就是一個自治域網絡級別的斷網。同時,路由安全的保護機制RPKI(互聯網碼號資源公鑰基礎設施)使得路由控制系統也同域名一樣,依賴層次化的IP地址認證體系,這是全球互聯網的根本運行機制和資源分配體系決定的。

結束語:

由大量異構網絡互聯互通而成的“全球互聯網”,依舊會依賴 互聯網域名系統提供的“統一命名空間”和互聯網路由系統提供的“統一尋址空間”。此次根服務器故障和滯後的路由控制,導致的是一個“通用頂級域名”無法解析,如果影響的是一個國家代碼頂級域名,將會在國際上引來巨大的爭議。儘管學術界和工業界已經不斷地提出安全解決方案,但在可預見的未來,伴隨著他們運行風險不會消失。域名系統和路由系統的安全保障工作,沒有終點,只有不斷出現的新的更高水平的起點。


分享到:


相關文章: