03.06 在以TCP为连接方式的服务器中,为什么在服务端设计当中需要考虑心跳?

河北解放


“我是哟哟吼说科技,专注于数据网络的回答,欢迎大家与我交流数据网络的问题”

心跳机制是在数据通信连接中,定时发送一个自定义结构的心跳报文,让对端清楚自己还在线,保证连接的有效性。

如题,服务器端在设计心跳的主要目的就是为了探测对端是否还正常在线,两端都可以发送心跳的报文,主要通过此方式去判断用户侧是否在线,若不在线则对服务器端的缓存数据进行清理,即主动对用户进行下线操作。以游戏服务端为例做举例:

当用户登录某游戏进行试玩,因为其它原因长时间挂机,没有操作,这时服务器端与客户端就会交互心跳报文,证明此用户还在线,因此会保证用户连接状态,但也可以设置对应时间段内若没有任何操作进行下线处理;

当用户登录游戏后,因为其它原因造成主机非正常关机,没有根据正常的操作步骤去下线,这时就会通过心跳报文来判断主机是否正常在线,若不在线即可直接进行下线处理。

个人认为,应用层的心跳报文与TCP连接的Keep-alive机制在功能上是一样的效果,但是TCP的的这种机制存在弊端(如:在TCP建立连接后启用定时器,若没到定时器设置的时间点发生中断,那么TCP不能及时将连接断开),而应用层的心跳机制可以设置数据发送的频率,因此心跳报文的功能只是负责告诉对方我在线,而不需要进行其它功能的交互。

欢迎大家多多关注我,在下方评论区说出自己的见解。


哟哟吼说科技


心跳主要目的是探活。应用于移动场合最核心的作用是:防止基站移除私有IP的NAT映射表条目。

原因

NAT(Network Address Translation)的作用你懂的,在互联网上,只有公网IP才能路由无阻,我们的私有IP需要路由器设备代理:有公网IP的路由器用为我们分配一个端口,用这个端口和服务端通信;对于服务端来说,和它建立连接的并不是我们自己的机器,而是路由器。

路由器我们可以暂时不讨论,这个NAT失效的概率很小。我们来看看基站。

假如市中心有一个移动的基站,人来人往,车来车往,大家的手机进入基站区域,通过基站连接到了某些服务器,然后短时间又离开了基站。基站NAT可用的端口有限的,最大65535(理论值)个。如果NAT映射表不清除那些短暂连入基站的条目,一旦映射表满了,后续就无法再提供NAT服务了。

所以,基站一般设置较短的NAT失效时间(3分钟左右),超过这个时间,如果这个端口没有收发数据,就会移除端口,对应的TCP连接就失效了!心跳的作用刚好就可以延长NAT条目保存的时间。

还有问题

即使你使用了心跳也不能100%保证客户端成功接收,只是说成功概率更大了而已。

为什么?因为我们的心跳间隔一般不会太小,否则变相DOS攻击自己的服务器。在心跳间隔期间,连接失效,我们的推送一样失败。最悲伤的情况是刚心跳完,就失效了。

另外你要弱化连接的概念,网络中并不存在一条固定保持的链路,只是双方主机各自为连接保持了一个端口而已。真实网络中,这个数据能不能真正路由到对方,双方只有在收发数据的时候才能确认。所以,我们面向互联网的服务器,有很多的半连接存在(我们的服务认为对方还在线)!这个也是心跳存在的最大理由。而基站nat是面向移动端的最常见的问题!所以面向移动应用保持长链接,我们的心跳时间会略小于基站NAT失效时间!

心跳对资源的消耗比较大,移动端要注意为用户省流量,省电,探活也不能太坑用户。


迁徙de麻雀


心跳

很多应用层协议都有HeartBeat机制,通常是客户端每隔一小段时间向服务器发送一个数据包,通知服务器自己仍然在线,并传输一些可能必要的数据。使用心跳包的典型协议是IM,比如QQ/MSN/飞信等协议。

心跳包之所以叫心跳包是因为:它像心跳一样每隔固定时间发一次,以此来告诉服务器,这个客户端还活着。事实上这是为了保持长连接,至于这个包的内容,是没有什么特别规定的,不过一般都是很小的包,或者只包含包头的一个空包。

在TCP的机制里面,本身是存在有心跳包的机制的,也就是TCP的选项:SO_KEEPALIVE。系统默认是设置的2小时的心跳频率。但是它检查不到机器断电、网线拔出、防火墙这些断线。而且逻辑层处理断线可能也不是那么好处理。一般,如果只是用于保活还是可以的。

心跳包一般来说都是在逻辑层发送空的echo包来实现的。下一个定时器,在一定时间间隔下发送一个空包给客户端,然后客户端反馈一个同样的空包回来,服务器如果在一定时间内收不到客户端发送过来的反馈包,那就只有认定说掉线了。

其实,要判定掉线,只需要send或者recv一下,如果结果为零,则为掉线。但是,在长连接下,有可能很长一段时间都没有数据往来。理论上说,这个连接是一直保持连接的,但是实际情况中,如果中间节点出现什么故障是难以知道的。更要命的是,有的节点(防火墙)会自动把一定时间之内没有数据交互的连接给断掉。在这个时候,就需要我们的心跳包了,用于维持长连接,保活。

在获知了断线之后,服务器逻辑可能需要做一些事情,比如断线后的数据清理呀,重新连接呀……当然,这个自然是要由逻辑层根据需求去做了。

总的来说,心跳包主要也就是用于长连接的保活和断线处理。一般的应用下,判定时间在30-40秒比较不错。如果实在要求高,那就在6-9秒。


IT老记者


心跳机制主要考虑服务器资源及时回收,要知道服务器端并发要求是很高的,每一个TCP链接都会在服务器端分配相应的内存资源,如果客户端已经掉线,但是服务器却不知道,不能及时释放资源,再进来新的链接,由于没有足够的内存资源分配,可能导致拒绝服务的问题


分享到:


相關文章: