在超大流量傳輸環境中,交換機之間進行鏈路的端口聚合是一種比較好的解決方式,配置簡單,流量負載均衡,
前一段時間遇到一個端口匯聚的典型故障:聚合組下的各端口間流量不均衡,端口之間的流量差別巨大,這是怎麼回事呢?
本端是華為交換機,對端是華三交換機,用的6條光纖對接,60G的容量,客戶反饋跑55G時已經跑不上去了,發生嚴重丟包,查看交換機,發現流量高的端口跑滿100%,流量低的端口不到70%。
通過配置檢查和日誌檢查,光纖收發功率都正常,未有鏈路故障,於是只有進行聚合端口上進行參數調整來調試處理。
上面配置為正在運行業務時的配置,默認為手工負載分擔模式。
由於是在帶業務模式下操作,需要小心謹慎,
更改為lacp模式後,問題依舊。於是再從hash上進行更改調整
默認為源或目的ip方式,經過數次調整,問題依然得不到解決。
於是決定用現場操作比較麻煩,但設備上不用更改配置的一種方法試一試。這種方法的說法是聚合端口組成員口數量是2的指數冪的時,哈希最為均勻,比如成員口為2,4,8等。說幹就幹,在和客戶商量時,在流量較小的時候,關掉兩個端口,此時成員端口剛好為4個,僅僅幾分鐘時間可以看到流量確實非常均衡了。
在驗證後,安排施工人員將空閒的鏈路中的兩條接入,增加到8鏈路,徹底解決該故障。
本次故障因為全程帶業務操作,且需要兩端同時操作,因此首先嚐試了設備間的對接參數調整,最後在合適條件下進行端口成員數量調整驗證來實施解決方案。
於是可以得到端口聚合下流量不均衡的解決步驟(同廠商和不同廠商間設備對接均可):
首先,聚合端口成員口數量是2的指數次冪時,哈希最為均勻。如果聚合口成員口數量不是2的指數次冪,哈希可能會有少量不均,建議調整成員口數量。
其次,在無法調整鏈路數量時,可以進行hash因子調整,出方向不均可以調整本端選路方式,入方向不均則由對端決定,需要查看並嘗試修改對端設備的選路方式。
最後,幾個特殊場景的調整稍微複雜一些。還是可以按照上述順序來逐一調整。
- 成員口跨設備(設備堆疊)
- 是否存在先ECMP哈希再Eth-Trunk哈希
- 兩級設備是否均有Eth-Trunk哈希
針對不同場景,大部分情況通過調整一個因素就可以,有些情況下就需要同時調整哈希因子、哈希算法、哈希偏移universal-id。
關注+轉發可私信獲取華為HCNA,HCNP,HCIE全套PDF資料和遠程控制軟件微軟RDC電腦版,安卓版以及Teamviewer無限制版。同時歡迎私信交流IXP業務!