网络运维工程师都要会用什么软件?

范范范小轩


个人认为做为一个网络运维工程师,熟练使用软件只是一个基本本领,更重要的是在运维过程中学习到哪些新知识新本领以及在这过程中如何去排查网络故障解决疑难杂症,这才是至关重要的地方。以下将介绍我常用的软件及网络故障排查思路、故障处置等方式方法。


1、本人常用的软件有4款,分别是:SecureCRT、Putty、tftp、子网掩码计算器;

第一款:SecureCRT

SecureCRT是一款支持ssh登录网络设备和服务器设备的终端仿真程序,支持 SSH1,SSH2,Telnet,RLogin,Serial,和 TAPI 等协议。这款软件基本每天都在用,每天都需要登录到不同的网络设备查看设备配置。

第二款:Putty

putty是一款支持Raw、telnet、rlogin、ssh、串口的连接软件,该软件完全免费、体积小、操作简单、方便使用,它可以让用户对窗口进行自定义设置,还可以将连接过的设备进行会话保存,方便用户下次使用无需再次输入ip地址和或主机名称即可连接。

第三款:tftp

TFTP全称是:Trivial File Transfer Protocol即简单文件传输协议,是TCP/IP协议族中的一个用来在客户机与服务器之间进行简单文件传输的协议,提供不复杂、开销不大的文件传输服务。端口号为69。该软件使用最多的场景就是对设备进行iOS升级时,时长会用到它,该软件体积小、操作简单。

第四款:子网掩码计算器

该工具可自动划分A、B、C类IP,可以输出划分后的子网掩码、子网位、最多子网数、主机位、最多主机数以及所有的子网列表,并可以将结果保存到文本文件。

以上四款软件是个人经常使用的。


接下来将分享个人的一些经验,有不足之处还请各位指正。

网络事件发生后,以快速排除故障、尽快恢复业务为最高目标。用户报障、工程师巡检或监控时发现网络设备或线路故障时,网络工程师应尽快根据事件现象进行故障定位。故障定位后有应急预案的,按应急预案处理;没有应急预案的,根据分析结果,由所属团队出具解决方案,经批准后按方案进行处理。

一、网络故障排查思路

当故障发生时,遵循以下排查思路:

1、 首先尽可能准确收集故障信息:故障发生时间、故障现象、影响范围。了解故障表现出来的现象,然后才能确定可能产生这些现象的故障根源或症结,对网络故障做出完整、清晰的描述是第一步。

2、 根据用户反映的故障现象,结合网管告警,判断是个别终端故障还是同时影响多个用户的网络故障。

3、 根据网络故障影响范围,工程师根据经验判断最可能的原因,并进行验证,如确实为该处故障,立即制定相应解决方法,如果不是,进行系统排障。

4、 系统性网络排障有三种方法:按照OSI七层模型,有自上而下(应用层到物理层)、自下而上(物理层到应用层)和从中间层(网络层)入手的排障方法。

5、 明显属于应用层故障的,如到DNS服务器网络可达,但DNS无法解析或解析异常,可从应用层开始从上向下进行排查。

6、 对于明显属于物理层故障的,如网卡灯不亮、光模块不发光、网管告警显示相关网络设备存在硬件告警的,可优先从物理层开始,从下至上进行排障。

7、 对于无法确定是物理层故障或应用层故障的,可以先从OSI七层模型的中间层-网络层开始进行故障定位。

8、 源到目的业务端口不可达:如果业务系统访问对端不通,可根据源目地址、TCP端口等信息,执行源到目地址和端口的联通性测试:从源地址telnet目的地址的TCP业务端口,看能否建立连接。如果无法建立连接,可以使用tracert检查路由是否正确,定位出错的网络设备或网段,在该设备上检查设备CPU、内存利用率是否异常,设备日志是否有告警信息,路由协议是否正常,ARP信息是否正确,地址转换是否正常,并发连接数是否正常,双机是否正常,在路径中所有防火墙上检查安全策略是否开放。

9、 源到目的端口可达但传输速度慢:如果业务端口可达,但传输速度慢,使用ping大包(2000字节)和tracert检查无规律丢包和明显延迟的网络位置,在该设备上检查设备CPU、内存利用率是否异常,设备日志是否有告警信息,路由协议和VRRP协议是否正常,地址转换是否正常,并发连接数是否正常,双机是否正常,接口有无错误计数或专线带宽是否拥塞,从网络层往上或往下进行故障原因的分析。

10、 如果业务路径经过专线,需判断专线是否异常,点对点连通性丢包率超过万分之五(注意QOS影响),接口输入错误或CRC出现连续增长,则需要联系运营商进行专线排查。

11、 如果连通性、设备性能、链路质量安全策略都没有问题,则需要进一步对业务系统的负载均衡配置情况、业务系统本身情况、DNS解析情况进行分析和排查。

12、 对于疑难故障,则需要联系业务部门获取业务依赖关系,理清数据访问路径,通过流量分析工具进行进一步的原因分析。

下面列出一些常见的网络故障及其处理方式:

二、故障处置

网络方面常见故障及其处理方法:

1. 普通接入故障。了解用户故障的相关信息,如用户办公地点、用户准入系统认证是否通过、用户终端是否进入正确的VLAN、能否正确获取IP地址、用户网线连接情况、用户所接入交换机状态或接入端口状态等进行排查分析。找到故障原因后,进行相应的故障处理。

2. 网络设备配置故障。根据用户反馈的故障现象, 了解相关网络结构或配置是否最近修改过,即问题出现是否与网络变化有关,是否近期的变更造成,对相关变更方案和变更操作情况进行回溯和排查,对相关访问策略、路由策略等配置情况进行排查,判断故障是否因为设备配置原因造成。如是,按照ITIL流程提出变更申请,审批通过后进行配置变更。

3. 链路利用率过高。当网络遭受攻击或网络内病毒爆发时,会出现带宽利用率过高或设备CPU利用率过高等异常现象。此时应通知安全工程师通过安全监控平台检查网络内是否存在网络攻击,同时登陆相关的网络设备,实时分析是否有异常流量,如存在异常流量通知相关团队进行处理,必要时可以通过断开网络端口或使用ACL的方式对该问题主机实施断网。

4. 设备性能异常。在网络设备遭受攻击或网络内存在环路的情况下会出现此类性能异常。此时应通知安全工程师通过安全监控平台检查网络内是否存在网络攻击,同时登陆相关的网络设备,分析设备性能异常原因,对故障源进行定位,对攻击主机进行上报,通知相关团队进行处理,必要时通过关闭网络端口或断开的方式对该问题主机或环路端口实施断网,对引起广播风暴的接口进行关闭。

5. 设备软件故障。对设备软件BUG引起的故障,提出临时解决方案,根据临时解决方案,经审批后作为临时应急措施实施。现场工程师收集故障信息并记录后,向设备厂商开CASE,和厂商共同分析故障。根据厂商推荐的软件更新版本,按照ITIL流程进行版本升级。

6. 设备硬件故障。判断为硬件故障的,收集故障信息,如有备件,使用存放在备件库房的备件进行故障部件的更换,将配置恢复至新的设备中。对故障信息进行记录,向设备厂商开case进行硬件的更换。

7. 广域网线路故障。发现故障后由负责工程师即刻向运营商进行线路故障申告,配合运营商进行故障线路的分析处理。当一条线路发生故障时,该线路上承载的业务会自动迂回到其他线路上。但是当该线路不停翻转(端口持续up/down)时,会对业务造成影响,这时应首先关闭该线路端口或断开该线路的BGP连接,使该线路不再承载流量,然后向运营商进行故障申告,配合运营商进行故障排查,待线路恢复后重新启用该线路。

8. Internet出口线路流量异常。当Internet出口线路受到DDOS攻击时,会造成线路流量拥塞而无法访问internet。网银线路已购买运营商的防DDOS攻击服务,应立即通知运营商进行流量清洗。办公互联网线路未购买防DDOS攻击服务,情况严重时应考虑关闭该条线路到internet的连接。

9. 双机故障:查看双机热备状态、查看配置同步状态,查看物理链路,检查相关配置,如配置正确但主设备异常或出现双活时,可以在收集完成相关信息后,在行方批准后把应用切换到备机或把主设备重启或把主设备从网络隔离。

10. 其他故障。对于非配置引起的无法确定的故障,现场工程师收集故障信息并记录后,即刻向设备厂商开CASE,和厂商共同分析故障,根据厂商提供的解决方案,按照ITIL流程进行配置变更。


以上是个人在平时工作中的一些经验总结,有不对的地方,还请指正。让我们共同学习、共同进步。谢谢大家!


ys0202


曾经我最对口的职业就是网络工程师、运维工程师之类,并且有一些从事网络运维工作的小伙伴,因此最这方面比较了解。我觉得运维需要会的应该不仅仅是软件,范围应该扩大,包括一些程序之类。

运维需要会什么软件呢?

1.Nginx、Apache、Tomcat等,很多时候需要运维人员搭建开发环境并进行优化,不过对这些操作一般都需要写命令。

2.MySQL、SQL server、Oracle、mangodb、redis等数据库的搭建、优化、维护肯定是必不可少的。

3.LVS(Linux虚拟服务器),可能有的公司要采取LVS实现负载均衡。,

4.Jenkins(持续集成引擎),最近多次看到有运维小伙伴提到这个,用于监控持续重复的工作,听说非常重要,但也难学。

5.OpenStack云计算管理平台,我搭建过类似的CloudStack平台,不顾在最后分配服务器一直搞不定,这个搭建及操作还是比较麻烦的,不过同上面,也非常重要。

6.zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。一般公司里都会用到这个,不过我跟我小伙伴聊过,搭建熟悉使用一个多周即可上手,当然系统监控的软件不仅仅只有这个。

7.SVN、Git版本控制需要会,不过现在似乎git用的比较多,当然我现在是在用Git。

8.docker、elasticsearch、Kubernetes(k8s)、VMware vSphere等虚拟化的知识,虚拟化还是比较热的。

9.SaltSack等自动化运维工具,自动化运维是运维进阶的方向,当然自动化运维还要会写脚本。

运维还应该掌握什么呢?

1.Linux、unix、win server等各种服务器系统必须熟练掌握,不过linux各个版本用的比较多,我比较喜欢CentOs。

2.python、shell等脚本语言,现在运维不仅仅是需要写命令,而且要求会编程,我看python已经成为运维工程师招聘的必要条件。

暂时想到这些,不足的可以提醒补充。

我是萌新程序猿,科技圈的事情欢迎邀请我来回答!

码了这么多字,点个赞关注下再走吧!!!

关注萌新程序猿(本人咯),了解更多IT以及程序猿的知识!!


猿见


搞Linux 数据库 都比网络运维好 我就是从网络工程转到Linux系统运维的,还考了思科的CCNP 搞了几年Linux 数据库 去年年底辞职了,去学苹果手机维修 单纯的网络运维没有多少技术含量 会配置思科 华为 h3c 常用交换机 防火墙 加一些出口的负载均衡就行 做网络运维你连ospf 都碰不到


看看噢噢哦


你好。个人觉得,网络工程师也好,网络运维工程师也好,真正的实力不在于使用什么软件,而在于对网络运行底层技术的把握,对原理的透彻了解,做到这一步,用什么软件已经不重要了,就像DOS里面的几个常用命令就可以解决很多问题,还有,设备里面的一些配置命令、协议虽然表面看起来因产品厂家不同,但只要多熟悉、多自已动手,你会现一通百通。

多熟悉、多动手、多归纳、多总结、多反思,技术实力就会上很大台阶,一旦到高处,你会发现原来如此简单。古代武功高手的最高境界是手中无剑、心中也无剑,要做到这一步,可能要毕一生精力,但一定要坚持、不松懈。

共勉。


搞网络


SecureCRT与Xshell还有FTP工具

SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,简单的说是Windows下登录UNIX或Linux服务器主机的软件。SecureCRT支持SSH,同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的理想工具。 SSH的英文全称是 Secure Shell。

Xshell 是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET协议。

FTP工具很多,大家可以百度一下。例如FlashFXP


尛龘24328127


1、先掌握最基础的。看看你公司是使用的是什么软件,然后再根据自己的学校所学的,一一对比学习。一次不懂就俩次,俩次不懂就三次,直到自己懂了为止。天才不可怕,可怕的天才比自己还努力。

2、若有可以用开放系统编程的运维软件,尽量忘这边靠拢,毕竟开放的编程好了就是属于自己的。

3、做什么工作都要看前景,特别是有关于计算机的,认准一个点,努力钻研,以带面,突破自己。

4、多看看前沿的运维思想。


分享到:


相關文章: