中共肃北蒙古族自治县委组织部
肃北党建网

快速定位网络故障方法

来源:网络  2016年06月06日  阅:  字体:

今天我就讲讲如何快速定位网络故障的方法。首先,网络故障大致分为如下几种:1、网络完全断线;2、部分机器断线;3、所有机器网络速度变慢;4、部分机器网络速度变慢;5、瞬间断线;这5部分现象都能看明白吧?下面我就一种一种的给你们讲。

一、网络完全断线

网络完全断线的时候我们按照这个故障现象进行划分为内网故障和外网故障,首先我们来确认外网是否有问题,反正也是全断了,那么我们不如找台电脑直接接到光纤收发器或者ADSL猫上进行单机测试,通了证明故障在内网,不通证明故障处在外网,立刻联系ISP进行解决。内网故障的时候也不用惊慌,按照主交换-分交换的顺序进行排查,断开主交换上所有二级交换机,接单机测试,如果通了那么一台交换机一台交换机的接,接到哪个网路故障现象重现那么就可以把范围缩小到那台交换机下所带的24台机器了,这样问题也就排除了。

二、部分机器断线

部分机器断线的时候维修思路从2点入手。(1)观察断线机器是否属于同

 一交换机下所带机器,如果是那么检查这台交换机的上联网线连接是否良好,网线是否有问题,交换机是否故障。(2)如果不是同一交换机下的机器掉线,这个时候就需要重点查内网的病毒了,ARP这个词在这个论坛上已经不属于什么新鲜事了,但仍然每天都会有那么一些人被这种病毒所困扰,怎么查我就不多说了,高手用抓包来查,初学的也可以借助一些工具来查,效果基本上都一样。

三、所有机器网络速度变慢

网吧里最常见的问题也就是这个问题,现象为人少的时候网络速度正常,人越多速度越慢,有一些人碰到这样的问题就蒙了,不知道问题出在哪里,其实也很简单,我说说我碰到这种问题时候的处理办法。一般接到用户投诉网络速度慢的首先我会问是怎么个慢法,因为网络速度慢这个词包含的东西太多,开网页慢还是玩游戏速度慢,还是不管干什么都慢,这种问题分如下几种情况:

(1)开网页慢,玩网络游戏没有喊卡的

网页一般我们都使用域名例如www.txwm.com,我们在输入网站域名以后会通过ISP提供的DNS进行域名解析,域名解析说白了就是把www.txwm.com解释成IP地址的过程,如果DNS服务器解析性能下降或者DNS故障就会现打开网页慢的情况,这个时候我们可以使用ping命令来进行测试,看到这台DNS服务器的网络延时是多少,如果延时很小那么我们进行下一项测试,测试DNS解析速度,在CMD下输入nslookup回车,会看到你当前使用的DNS地址是什么,输入一个域名,例如www.163.com回车,如果很快就出现该服务器的信息,那么就证明你的DNS没有问题,相反,如果半天才出现信息则证明该DNS服务器性能下降或者故障,可以更换一个DNS来进一步测试打开网页是否恢复正常。

(2)打开网页还可以,但玩网络游戏慢

这种现象常发生在双线接入的网吧,无论哪个ISP,总会增加新的IP地址段,人家增加以后不会挨个通知用户,这个时候一些网吧的路由器就出现问题了,本来应该走网通线路的数据却从电信线路进行连接,互联互通问题我就不多说了,不然也不会出现那么多的双线接入网吧了。解决这个问题的办法就是首先查该游戏的服务器IP地址,最简单的办法就是用360当中的网络连接查看来查,直观,可以很清楚的看到某个程序连接的IP地址,有了服务器的IP地址这问题就好处理了,在CMD下使用tracert+空格+IP地址来进行查看,第一跳是你网吧路由器,第二跳就能看到这个数据是从那条线路出去的了,例如明明是网通的地址,用这个命令查看的时候却发现是从电信线出去的,那就是路由器的路由表不全了,处理方法不用我多说了吧?自己添加一条静态路由让这个地址的数据访问从你希望使用的线路出去就行了。

(3)无论是开网页还是玩游戏都慢

这种问题有点复杂,首先我们要查的就是网吧出口流量是否被占满,例如10M电信光纤+10M网通光纤的双线接入网吧,出现这种问题的时候在路由器上看看出口流量是多少,达到95%以上的时候不卡就奇怪了,再查内网到路由器的流量是多大,如果内网流量跟外网流量几乎相等那么查局域网里面的哪台机器占用带宽比较大。如果内网流量很小,但外网流量很大,这个时候就需要检测是否有外网攻击了。平时我们可以对下面的机器进行限速,很多人忽视了NAT的连接数量,NAT的连接数量太大,但流量很小的时候也会大量占用路由器的资源,造成路由器转发性能下降,这个时候的现象是丢包,延时变大,所以我们在做限制的时候需要对每台机器的带宽和NAT连接数同时进行限制,一般NAT连接数限制在600左右就足够了。

四、部分机器网络速度变慢

这种情况经常发生在那种一台一台交换机串下去的网吧里发生,这么个接法有个致命的缺点,越是往前的交换机负担越重,如果这台交换机性能不好,那么内网首先堵了,越是往后的机器速度越是慢。如果是星型结构的网吧首先确定网内所有交换机工作正常,这个时候可以借助抓包软件进行分析,看网络内是否有广播风暴,我曾经见过一个全千M的网吧内网广播包占到总流量的70%,开机速度暴慢,启动系统需要3分钟才能进到桌面,后来查原因是网内500台机器,用了2个段的IP地址,192.168.0192.168.1,掩码255.255.254.0连接到一起,后来划分VLAN后问题解决。那个网吧里的广播风暴是怎么形成的因为时间太紧,没有细查。

五、瞬间掉线

这问题是最让人闹心的,因为故障没有规律,你不知道啥时候就出现了,我一般到网吧碰到这样的问题就开几个CMD窗口,一个ping内网网关,一个ping公网网关,一个ping外网地址,瞬间断线的现象发生的时候看这三个窗口中的数据,内网如果一直很正常那重点查外网问题,夏天光纤收发器或者ADSL猫太热了都可能发生这样的问题。这种情况着急也没用,就是要有耐心。

好啦,我要写的就是这么多了,同样是平时工作中累积的一些经验,喜欢的就看看,技术共享我会一直做到底。平时多学多看,适当的了解一些网络协议对故障处理会很有帮助,至少我是这么认为的。

本文所描述的故障实例是我从6年来接到的故障报修记录中挑选出来的,我认为比较经典的故障,可能有的有一些白痴,但的确具有迷惑性,好了,开始我们的正文吧.

首先给大家写5个故障实例,我认为是网吧里常见的,也是我平时受理故障比较多的几种。

1、网吧内出现频繁断网的情况。(网吧机器60台,100M星型局域网结构,10M电信和8M网通光纤,飞鱼星4500路由器)

故障现象:

接到这个电话的时候时间是凌晨3点,当时网吧内只有10多个人,打车到达现场后询问了网吧业主故障发生前的一些情况,业主反应半夜闲来无事,看见交换机灰尘太多,于是分片进行了除尘,全部干完以后玩了十几分钟后就发生这样的情况了,每次掉线以后重新启动所有设备只能维持一小会,然后就是断网,找了半天原因也没找到,于是打电话报修。

处理过程:

首先观察交换机,发现网吧内所有的交换机网络指示灯都在以相同的频率在闪,断开局域网,使用笔记本直接接在路由器上进行上网测试,一切正常,故障显然出在局域网内,把所有交换机之间的级联线断开,先插上主交换机,无异常,再一台一台的接入分交换机,接到第三台的时候故障出现了,到那个交换机上查网线,为了快速排除故障,那台交换机上的所有网线都被我拔了下来,然后一个一个插回去,最后发现其中一根网线是级联线,被人插在了同一个交换机上造成数据回路,拔掉这根网线后网络恢复正常。

故障总结:

故障处理完之后我问业主为什么这么插,业主说当时也没注意,看见有水晶头的网线就往交换机上插,不知道这根网线是干啥的,唉,我只能一笑了之,告诉业主以后再动网线的时候最好有个技术在场的情况下再动。

2、网吧网络速度慢。(网吧机器120(单核)100M星型局域网结构,10M电信和8M网通光纤,飞鱼星4500路由器)

故障现象:

下午正在办公室里查资料,接到这个网吧业主的电话反应说网吧内玩游戏暴卡,ping自己局域网的网关竟然出现-2ms,重新启动网吧内所有网络设备只能坚持2分钟,然后还是卡,不知道这是怎么回事,请我过去协助处理。

处理过程:

到达现场以后,网吧内因为网络卡的原因在爆满的情况下已经空出了一半的座位,路过收银台的时候,那里已经被要求退款的顾客包围了,让业主带我去机房,并通知网吧内所有顾客暂时停止上网5分钟,这5分钟的时间用来测试网络。首先断开局域网,笔记本直接接在路由器上进行网关的测试,均小于1ms,说明路由器工作正常,恢复局域网的连接后不一会就出现了业主反应的-1ms甚至是-1500ms的情况,并且丢包严重,这个时候已经无法打开路由器的管理界面了,再次断开局域网,登陆路由器,在路由器上设定lan3口为镜像端口,用来监视局域网所有的网络访问情况,使用CommView软件作为网络抓包软件进行局域网的流量监控,恢复网络后发现网络内39号机流量很大,几乎占了整个局域网带宽的80%,下去查的时候发现这个顾客在玩单机游戏,让他退出游戏后发现他挂着迅雷在下东西,任务里面40多个任务在同时下载,并且都是4G以上的文件,问他这是在干什么,对方回答说为了给自己迅雷帐户升级,后面的我就不用说了,这个顾客被老板和网管群K之后赶出网吧。我呢也结束了这次故障处理。

故障总结:

这个故障发生在去年6月,网吧用的全部是AMDCPU,后期工作中发现双核CPU没打补丁的情况下部分机器也会出现ping值为负数的情况,本例故障属于网络故障,出现负值的原因经过分析应该是一个ping报文发出去以后返回结果时间过长,才导致了负数,延时大到超出范围的时候就会出现负值,所以大家在故障的处理过程中发现这样的故障不要惊慌,细心的话故障很快就会处理完毕。

3、网吧频繁断线(300台机器,全1000M星型局域网结构,双40M电信40M网通光纤接入,华为防火墙,什么型号记不清了)

故障现象:

晚上8点多正在家悠闲的看着电视,电话想起,对发很着急的说网吧一个劲的断线,查不出原因,请我去协助处理故障。

处理过程:

打车到达现场以后,网吧内到处都是喊叫的声音,在网吧工作的朋友不用我多说了,都是喊网管掉线了和叫骂的,进入机房,发现主交换机和光纤收发器指示灯都在以极快的频率闪,说明流量很大,使用笔记本直接接在电信的光纤收发器上进行测试,发现笔记本的CPU占用率一下就到了100%,不用测试了,被攻击了。再接到网通光纤收发器上测试没什么异常,于是暂时只接网通光纤,恢复网络,让那些上网的暂时安静一会,然后联系电信中心机房更换IP地址,故障就这么搞定了,前后不到20分钟。

故障总结:

跟业主说被攻击了以后业主不相信攻击会造成这么大的影响,并说我花了好几万购买的防火墙呢,怎么可能被攻击搞的这么惨,我说你的出口带宽是40M,对方如果使用大于40M的流量攻击你,防火墙就什么用都没有了,所以网吧里你买防火墙一点用都没有。业主听了我的话没再说什么,过了1个多月我再次去帮助他们处理故障的时候发现那台防火墙已经消失了,取而代之的是2台用配置很高的机器做的软路由。

4、网吧网络速度不稳定(160台机器,1000M星型局域网结构,20M电信光纤,12M网通光纤,锐捷NBR1100路由器)

故障现象:

下午2点多,接到这家网吧的电话,反应玩游戏的时候经常断线,可以再次重新登陆,但过会还会断线。

处理过程:

到达网吧以后现象正如业主反应的,顾客在进入游戏以后玩了一会就显示已经与服务器失去连接,ping电信的DNS发现延时一会20ms,一会300ms,在CMD下使用tracert命令探测路由路径,发现延时在20ms的时候走的是电信线路,延时在300ms的时候走的是网通线路,问题出在路由器上,向业主要来管理密码,进入路由器的web界面进行检查,发现设置没什么问题,在CMD下使用telnet进入路由器,在超级权限下打入setup重新设置路由,保存后观察路由近2个小时,没有再发生这样的情况,故障处理完毕。

故障总结:

锐捷的路由器在后来的工作中我发现第一次安装的时候最好使用telnet登陆路由器进行配置,配置完以后再进入web管理界面进行双线的设置,我想应该是厂家的问题,并且这个问题一直存在。

5、网络速度慢(40台机器,电信4M单线,树型拓扑结构)

故障现象:

网吧内一部分机器速度正常,一部分机器速度很慢。

处理过程:

到网吧以后仔细观察发现网吧居然使用树型拓扑结构,说白了就是一台一台交换机串接下去的,中间居然还有一个10MHUB,问题就出在这个HUB上了,16口的,下边还串接了一台24口的交换机,告诉业主这样接一定会影响网络速度,建议使用星型网络拓扑结构,但业主告诉我说过去这么接没发现过问题,近期才发现的,我把24口交换机跟16HUB互相调换了一下位置,又一部分机器速度恢复了一些,断开HUB以后网络速度近一步恢复,证实了我的判断,再次跟业主沟通告诉他我的想法,对发对我大发雷霆,说你自己看看我网吧还剩几个人了,你TM折腾啥,我无语走人回单位,这家网吧大概坚持了1个多月就停业了,原因是效益不行。

以上就是部分故障处理的过程,也许对一些人会有一些帮助,下面我来说说发生网络故障以后的排查顺序,按照顺序进行的话基本上可以做到快速的判定故障范围和故障点。

1、掉线故障:

发生掉线故障是网吧网络维护人员最头疼的问题,其实没什么,首先就是冷静,忽视顾客的叫喊,静心观察网络设备的运行情况,例如网络指示灯的闪动频率,频率越高说明流量越大,反之就是没有流量或者流量很小,断网以后要从接入端开始查,例如光纤就从光纤收发器开始查,找台电脑直接接在光纤收发器上,在机器上配置好公网IP进行上网测试,如果正常说明ISP线路正常,问题出在网吧内,不正常就直接报修。

2、频繁断线故障:

频繁断线故障比掉线故障更难查,因为频繁掉线的原因很多,ISP问题和内网问题都有可能引起这样的故障,这个时候还是需要首先从接入端开始查起,用一台电脑单接光纤收发器进行测试,如果一段时间内没有问题说明ISP的线路工作正常,如果接单机都出现这样的情况就需要报修了,现在全国运营商中使用最多的设备就是烽火的,带有K开头型号光纤收发器上都有一个白色的按钮,就是这个按钮害了我很多次,原因是这个按钮开关内部氧化接触不良,造成一些网吧的频繁断线事故不断,经常是大半夜的折腾我,后来这个情况反馈给厂家后厂家为我们维修并更换了这批设备,但现在仍然有很多ISP的机房内在使用,所以大家可以留意一下。

还有一种情况就是内网问题,这个时候首先找一台没有病毒的机器直接接在路由器上进行单机测试,如果正常就需要查内网交换机是否有问题,网线接触是否良好,水晶有是否有氧化迹象,内网机器是否有病毒,按照这个顺序查的话很快就会有结果。有条件的话可以采用替换法进行故障排除。

3、网络速度慢

网络速度慢的原因也有很多,经常碰到业主叽叽歪歪的给我打电话问网吧为什么速度这么慢,更有甚者直接破口大骂,碰到这样的情况首先我表示同情和理解,到网吧接单机进行测试,例如网吧实开带宽是4M,那么在我们公司主页上的测试下载速度就应该在400KB左右,达不到这个速度联系机房处理,达到了就继续查网吧内带宽占用情况,一般这种情况都发生在小网吧内,带宽申请的低,然后还非得一票人在线看电影,或者有几个开下载的,不卡就真的奇怪了。当然个别的时候也是由ISP的骨干线路故障原因造成,这个时候我们能做的就是等待了,没有更好的解决办法了。

作者:佚名 责任编辑:肃北党建
主办单位 中共肃北蒙古族自治县委组织部
电话:0937-8122422 ·地址:甘肃省酒泉市肃北蒙古自治县南街2号
Copyright © 肃北党建网 All Rights Reserved. ·陇ICP备11000134号-2