網絡運維工程師都要會用什麼軟件?

範範範小軒


個人認為做為一個網絡運維工程師,熟練使用軟件只是一個基本本領,更重要的是在運維過程中學習到哪些新知識新本領以及在這過程中如何去排查網絡故障解決疑難雜症,這才是至關重要的地方。以下將介紹我常用的軟件及網絡故障排查思路、故障處置等方式方法。


1、本人常用的軟件有4款,分別是:SecureCRT、Putty、tftp、子網掩碼計算器;

第一款:SecureCRT

SecureCRT是一款支持ssh登錄網絡設備和服務器設備的終端仿真程序,支持 SSH1,SSH2,Telnet,RLogin,Serial,和 TAPI 等協議。這款軟件基本每天都在用,每天都需要登錄到不同的網絡設備查看設備配置。

第二款:Putty

putty是一款支持Raw、telnet、rlogin、ssh、串口的連接軟件,該軟件完全免費、體積小、操作簡單、方便使用,它可以讓用戶對窗口進行自定義設置,還可以將連接過的設備進行會話保存,方便用戶下次使用無需再次輸入ip地址和或主機名稱即可連接。

第三款:tftp

TFTP全稱是:Trivial File Transfer Protocol即簡單文件傳輸協議,是TCP/IP協議族中的一個用來在客戶機與服務器之間進行簡單文件傳輸的協議,提供不復雜、開銷不大的文件傳輸服務。端口號為69。該軟件使用最多的場景就是對設備進行iOS升級時,時長會用到它,該軟件體積小、操作簡單。

第四款:子網掩碼計算器

該工具可自動劃分A、B、C類IP,可以輸出劃分後的子網掩碼、子網位、最多子網數、主機位、最多主機數以及所有的子網列表,並可以將結果保存到文本文件。

以上四款軟件是個人經常使用的。


接下來將分享個人的一些經驗,有不足之處還請各位指正。

網絡事件發生後,以快速排除故障、儘快恢復業務為最高目標。用戶報障、工程師巡檢或監控時發現網絡設備或線路故障時,網絡工程師應儘快根據事件現象進行故障定位。故障定位後有應急預案的,按應急預案處理;沒有應急預案的,根據分析結果,由所屬團隊出具解決方案,經批准後按方案進行處理。

一、網絡故障排查思路

當故障發生時,遵循以下排查思路:

1、 首先儘可能準確收集故障信息:故障發生時間、故障現象、影響範圍。瞭解故障表現出來的現象,然後才能確定可能產生這些現象的故障根源或癥結,對網絡故障做出完整、清晰的描述是第一步。

2、 根據用戶反映的故障現象,結合網管告警,判斷是個別終端故障還是同時影響多個用戶的網絡故障。

3、 根據網絡故障影響範圍,工程師根據經驗判斷最可能的原因,並進行驗證,如確實為該處故障,立即制定相應解決方法,如果不是,進行系統排障。

4、 系統性網絡排障有三種方法:按照OSI七層模型,有自上而下(應用層到物理層)、自下而上(物理層到應用層)和從中間層(網絡層)入手的排障方法。

5、 明顯屬於應用層故障的,如到DNS服務器網絡可達,但DNS無法解析或解析異常,可從應用層開始從上向下進行排查。

6、 對於明顯屬於物理層故障的,如網卡燈不亮、光模塊不發光、網管告警顯示相關網絡設備存在硬件告警的,可優先從物理層開始,從下至上進行排障。

7、 對於無法確定是物理層故障或應用層故障的,可以先從OSI七層模型的中間層-網絡層開始進行故障定位。

8、 源到目的業務端口不可達:如果業務系統訪問對端不通,可根據源目地址、TCP端口等信息,執行源到目地址和端口的聯通性測試:從源地址telnet目的地址的TCP業務端口,看能否建立連接。如果無法建立連接,可以使用tracert檢查路由是否正確,定位出錯的網絡設備或網段,在該設備上檢查設備CPU、內存利用率是否異常,設備日誌是否有告警信息,路由協議是否正常,ARP信息是否正確,地址轉換是否正常,併發連接數是否正常,雙機是否正常,在路徑中所有防火牆上檢查安全策略是否開放。

9、 源到目的端口可達但傳輸速度慢:如果業務端口可達,但傳輸速度慢,使用ping大包(2000字節)和tracert檢查無規律丟包和明顯延遲的網絡位置,在該設備上檢查設備CPU、內存利用率是否異常,設備日誌是否有告警信息,路由協議和VRRP協議是否正常,地址轉換是否正常,併發連接數是否正常,雙機是否正常,接口有無錯誤計數或專線帶寬是否擁塞,從網絡層往上或往下進行故障原因的分析。

10、 如果業務路徑經過專線,需判斷專線是否異常,點對點連通性丟包率超過萬分之五(注意QOS影響),接口輸入錯誤或CRC出現連續增長,則需要聯繫運營商進行專線排查。

11、 如果連通性、設備性能、鏈路質量安全策略都沒有問題,則需要進一步對業務系統的負載均衡配置情況、業務系統本身情況、DNS解析情況進行分析和排查。

12、 對於疑難故障,則需要聯繫業務部門獲取業務依賴關係,理清數據訪問路徑,通過流量分析工具進行進一步的原因分析。

下面列出一些常見的網絡故障及其處理方式:

二、故障處置

網絡方面常見故障及其處理方法:

1. 普通接入故障。瞭解用戶故障的相關信息,如用戶辦公地點、用戶准入系統認證是否通過、用戶終端是否進入正確的VLAN、能否正確獲取IP地址、用戶網線連接情況、用戶所接入交換機狀態或接入端口狀態等進行排查分析。找到故障原因後,進行相應的故障處理。

2. 網絡設備配置故障。根據用戶反饋的故障現象, 瞭解相關網絡結構或配置是否最近修改過,即問題出現是否與網絡變化有關,是否近期的變更造成,對相關變更方案和變更操作情況進行回溯和排查,對相關訪問策略、路由策略等配置情況進行排查,判斷故障是否因為設備配置原因造成。如是,按照ITIL流程提出變更申請,審批通過後進行配置變更。

3. 鏈路利用率過高。當網絡遭受攻擊或網絡內病毒爆發時,會出現帶寬利用率過高或設備CPU利用率過高等異常現象。此時應通知安全工程師通過安全監控平臺檢查網絡內是否存在網絡攻擊,同時登陸相關的網絡設備,實時分析是否有異常流量,如存在異常流量通知相關團隊進行處理,必要時可以通過斷開網絡端口或使用ACL的方式對該問題主機實施斷網。

4. 設備性能異常。在網絡設備遭受攻擊或網絡內存在環路的情況下會出現此類性能異常。此時應通知安全工程師通過安全監控平臺檢查網絡內是否存在網絡攻擊,同時登陸相關的網絡設備,分析設備性能異常原因,對故障源進行定位,對攻擊主機進行上報,通知相關團隊進行處理,必要時通過關閉網絡端口或斷開的方式對該問題主機或環路端口實施斷網,對引起廣播風暴的接口進行關閉。

5. 設備軟件故障。對設備軟件BUG引起的故障,提出臨時解決方案,根據臨時解決方案,經審批後作為臨時應急措施實施。現場工程師收集故障信息並記錄後,向設備廠商開CASE,和廠商共同分析故障。根據廠商推薦的軟件更新版本,按照ITIL流程進行版本升級。

6. 設備硬件故障。判斷為硬件故障的,收集故障信息,如有備件,使用存放在備件庫房的備件進行故障部件的更換,將配置恢復至新的設備中。對故障信息進行記錄,向設備廠商開case進行硬件的更換。

7. 廣域網線路故障。發現故障後由負責工程師即刻向運營商進行線路故障申告,配合運營商進行故障線路的分析處理。當一條線路發生故障時,該線路上承載的業務會自動迂迴到其他線路上。但是當該線路不停翻轉(端口持續up/down)時,會對業務造成影響,這時應首先關閉該線路端口或斷開該線路的BGP連接,使該線路不再承載流量,然後向運營商進行故障申告,配合運營商進行故障排查,待線路恢復後重新啟用該線路。

8. Internet出口線路流量異常。當Internet出口線路受到DDOS攻擊時,會造成線路流量擁塞而無法訪問internet。網銀線路已購買運營商的防DDOS攻擊服務,應立即通知運營商進行流量清洗。辦公互聯網線路未購買防DDOS攻擊服務,情況嚴重時應考慮關閉該條線路到internet的連接。

9. 雙機故障:查看雙機熱備狀態、查看配置同步狀態,查看物理鏈路,檢查相關配置,如配置正確但主設備異常或出現雙活時,可以在收集完成相關信息後,在行方批准後把應用切換到備機或把主設備重啟或把主設備從網絡隔離。

10. 其他故障。對於非配置引起的無法確定的故障,現場工程師收集故障信息並記錄後,即刻向設備廠商開CASE,和廠商共同分析故障,根據廠商提供的解決方案,按照ITIL流程進行配置變更。


以上是個人在平時工作中的一些經驗總結,有不對的地方,還請指正。讓我們共同學習、共同進步。謝謝大家!


ys0202


曾經我最對口的職業就是網絡工程師、運維工程師之類,並且有一些從事網絡運維工作的小夥伴,因此最這方面比較瞭解。我覺得運維需要會的應該不僅僅是軟件,範圍應該擴大,包括一些程序之類。

運維需要會什麼軟件呢?

1.Nginx、Apache、Tomcat等,很多時候需要運維人員搭建開發環境並進行優化,不過對這些操作一般都需要寫命令。

2.MySQL、SQL server、Oracle、mangodb、redis等數據庫的搭建、優化、維護肯定是必不可少的。

3.LVS(Linux虛擬服務器),可能有的公司要採取LVS實現負載均衡。,

4.Jenkins(持續集成引擎),最近多次看到有運維小夥伴提到這個,用於監控持續重複的工作,聽說非常重要,但也難學。

5.OpenStack雲計算管理平臺,我搭建過類似的CloudStack平臺,不顧在最後分配服務器一直搞不定,這個搭建及操作還是比較麻煩的,不過同上面,也非常重要。

6.zabbix是一個基於WEB界面的提供分佈式系統監視以及網絡監視功能的企業級的開源解決方案。一般公司裡都會用到這個,不過我跟我小夥伴聊過,搭建熟悉使用一個多周即可上手,當然系統監控的軟件不僅僅只有這個。

7.SVN、Git版本控制需要會,不過現在似乎git用的比較多,當然我現在是在用Git。

8.docker、elasticsearch、Kubernetes(k8s)、VMware vSphere等虛擬化的知識,虛擬化還是比較熱的。

9.SaltSack等自動化運維工具,自動化運維是運維進階的方向,當然自動化運維還要會寫腳本。

運維還應該掌握什麼呢?

1.Linux、unix、win server等各種服務器系統必須熟練掌握,不過linux各個版本用的比較多,我比較喜歡CentOs。

2.python、shell等腳本語言,現在運維不僅僅是需要寫命令,而且要求會編程,我看python已經成為運維工程師招聘的必要條件。

暫時想到這些,不足的可以提醒補充。

我是萌新程序猿,科技圈的事情歡迎邀請我來回答!

碼了這麼多字,點個贊關注下再走吧!!!

關注萌新程序猿(本人咯),瞭解更多IT以及程序猿的知識!!


猿見


搞Linux 數據庫 都比網絡運維好 我就是從網絡工程轉到Linux系統運維的,還考了思科的CCNP 搞了幾年Linux 數據庫 去年年底辭職了,去學蘋果手機維修 單純的網絡運維沒有多少技術含量 會配置思科 華為 h3c 常用交換機 防火牆 加一些出口的負載均衡就行 做網絡運維你連ospf 都碰不到


看看噢噢哦


你好。個人覺得,網絡工程師也好,網絡運維工程師也好,真正的實力不在於使用什麼軟件,而在於對網絡運行底層技術的把握,對原理的透徹瞭解,做到這一步,用什麼軟件已經不重要了,就像DOS裡面的幾個常用命令就可以解決很多問題,還有,設備裡面的一些配置命令、協議雖然表面看起來因產品廠家不同,但只要多熟悉、多自已動手,你會現一通百通。

多熟悉、多動手、多歸納、多總結、多反思,技術實力就會上很大臺階,一旦到高處,你會發現原來如此簡單。古代武功高手的最高境界是手中無劍、心中也無劍,要做到這一步,可能要畢一生精力,但一定要堅持、不鬆懈。

共勉。


搞網絡


SecureCRT與Xshell還有FTP工具

SecureCRT是一款支持SSH(SSH1和SSH2)的終端仿真程序,簡單的說是Windows下登錄UNIX或Linux服務器主機的軟件。SecureCRT支持SSH,同時支持Telnet和rlogin協議。SecureCRT是一款用於連接運行包括Windows、UNIX和VMS的理想工具。 SSH的英文全稱是 Secure Shell。

Xshell 是一個強大的安全終端模擬軟件,它支持SSH1, SSH2, 以及Microsoft Windows 平臺的TELNET協議。

FTP工具很多,大家可以百度一下。例如FlashFXP


尛龘24328127


1、先掌握最基礎的。看看你公司是使用的是什麼軟件,然後再根據自己的學校所學的,一一對比學習。一次不懂就倆次,倆次不懂就三次,直到自己懂了為止。天才不可怕,可怕的天才比自己還努力。

2、若有可以用開放系統編程的運維軟件,儘量忘這邊靠攏,畢竟開放的編程好了就是屬於自己的。

3、做什麼工作都要看前景,特別是有關於計算機的,認準一個點,努力鑽研,以帶面,突破自己。

4、多看看前沿的運維思想。


分享到:


相關文章: