TCP/IP重传超时–RTO

概述:本文讨论主机在发送一个TCP数据包后,如果迟迟没有收到ACK,主机多久后会重传这个数据包。主机从发出数据包到第一次TCP重传开始,RFC中这段时间间隔称为retransmission timeout,缩写做RTO。本文会先看看RFC中如何定义RTO,然后看看Linux中如何实现。本文旨在分享:当遇到了TCP层问题改如何去查找、阅读文档,该如何去在Linux源码中寻求答案。

起源

在分析MySQL Semi-sync故障时,我们用Tcpdump+Wireshark(感谢淘宝雕梁)抓住当时的网络包传送细节,观察到了一次TCP重传最终导致了Semi-sync超时:

第一次传输
13:55:11.893291 master => slave	Binlog pos:319890197
重传:
13:55:12.094596	master => slave	Binlog pos:319890197

看到两次传送间隔约201毫秒,即第一次传输201毫秒后,还没有收到ACK响应,TCP认为传输超时,开始重传。

疑问:host和host之间的RTT大约是0.5毫秒,为什么第一次重传需要等200毫秒?(我希望是<20ms)socket程序可以配置吗RTO吗?TCP有参数可配置RTO吗?

Google/书籍/RFC

翻开TCP/IP详解找到关于TCP Retransmission章节,较详细的介绍TCP的超时机制,书中是个概述,于是又找到RFC1122。

RFC1122的4.2.2.15和4.2.3.1都介绍了Retransmission Timeout的处理(说来惭愧,这是第一次阅读TCP相关RFC)。

RFC中搜索Retransmission发现RFC 793 1122 2988 6298都有对重传算法、和初次重传超时的描述。于是开始阅读这个四个RFC,耗时约2小时,了解了大致的重传超时算法。

RFC中如何计算RTO(Retransmission Timeout)

RFC-793如何计算RTO

概述:先根据该socket的RTT计算出SRTT(Smoothed Round Trip Time),然后根据一个最大、最小超时时间确定当前RTO。说明:srtt可以理解为“平滑化”的RTT,即在保持计算简单的情况尽量考虑历史RTT。

详细计算:SRTT = ( ALPHA * SRTT ) + ((1-ALPHA) * RTT)

基于SRTT,我们再来计算RTO:RTO = min[UBOUND,max[LBOUND,(BETA*SRTT)]]

UBOUND是RTO上线,ALPHA是平滑因子(smoothing factor, e.g., .8 to .9),BETA是一个延迟方差因子(BETA is a delay variance factor (e.g., 1.3 to 2.0))。

仔细看这两个公式大概就能理解了RTO的计算了。

这里对上面两个公式做一个简单的注释:公式1中计算SRTT,ALPHA越接近于0,则表示SRTT越相信这一次的RTT;越接近于1,则表示SRTT越相信上次统计的RTT。公式二给RTO分别设置了一个上限和下限。

RTO重传间隔是指数增加的

上面我们介绍的是初次重传时的RTO,如果重传后还没收到另一端的响应,下一次重传RTO则会指数增加,例如第一次重传RTO是1,之后分别2,4,8,16…。

RFC-2988和RFC-6298中的RTO计算

在RFC-2988和RFC-6298中又重新改进了RTO的计算方法,Linux中的实现即使参考RFC-2988。算法核心公式:

初始:
SRTT <- R
RTTVAR <- R/2
RTO <- SRTT + max (G, K*RTTVAR)
where K = 4.

根据RTT计算SRTT:
RTTVAR <- (1 - beta) * RTTVAR + beta * |SRTT - R'|
SRTT <- (1 - alpha) * SRTT + alpha * R'
 
最后RTO:
RTO <- SRTT + max (G, K*RTTVAR)

Linux中的RTO(Retransmission Timeout)

这里说的是RHEL5.4的2.6.18内核,RFC-2988实现参考net/ipv4/tcp_input.c中的tcp_rtt_estimator和tcp_set_rto。可以看到,在Linux中alpha=1/8,RTO最小为TCP_RTO_MIN。因为我们的系统中RTT总是很小,所以RTO取值总是能够取到TCP_RTO_MIN。

在看看TCP_RTO_MIN在Linux中的定义:

123 #define TCP_RTO_MAX     ((unsigned)(120*HZ))
124 #define TCP_RTO_MIN     ((unsigned)(HZ/5))

(这里简单的介绍介绍一下HZ,HZ可以理解为1s,所以120*HZ就是120秒,HZ/5就是200ms。详细的:HZ表示CPU一秒种发出多少次时间中断–IRQ-0,Linux中通常用HZ来做时间片的计算,参考)

其他:Linux中可配置重传参数

/proc/sys/net/ipv4/tcp_retries1 (integer; default: 3)

TCP尝试了3次(tcp_retries1默认3)重传后,还没有收到ACK的话,则后续每次重传都需要network layer先更新路由。

/proc/sys/net/ipv4/tcp_retries2 (integer; default: 15)

TCP默认最多做15次重传。根据RTO(retransmission timeout)不同,最后一次重传间隔大概是13到30分钟左右。如果15次重传都做完了,TCP/IP就会告诉应用层说:“搞不定了,包怎么都传不过去!”

最后

回答前面的问题:即使RTT很小(0.8ms),但是因为RTO有下限,最小必须是200ms,所以这是RTT再小也白搭;RTO最小值是内核编译是决定的,socket程序中无法修改,Linux TCP也没有任何参数可以改变这个值。

好了,不容易。

广告:我们寻找靠谱的人 | 感谢作者

参考文献

1. RFC 1122 … (在哪儿查找RFC) TCP协议相关的RFC:
RFC 675 – Specification of Internet Transmission Control Program, December 1974 Version
RFC 793 – TCP v4
RFC 1122 – includes some error corrections for TCP
RFC 1323 – TCP-Extensions
RFC 1379 – Extending TCP for Transactions—Concepts
RFC 1948 – Defending Against Sequence Number Attacks
RFC 2018 – TCP Selective Acknowledgment Options
RFC 2988 – Computing TCP’s Retransmission Timer
RFC 4614 – A Roadmap for TCP Specification Documents
RFC 5681 – TCP Congestion Control

10 responses to “TCP/IP重传超时–RTO”

  1. 像认真钻研的工程师致敬,尽管最后束手无策,但还是学到了以前不在意,没关注的知识。
    学习。

  2. Silver Bullet

    搜索RTO来到您的博客,感谢您的分享。
    但仍有一个疑问:
    >疑问:host和host之间的RTT大约是0.5毫秒,为什么第一次重传
    >需要等200毫秒?(我希望是吗?TCP有参数可配置RTO吗?
    如果在设计程序的时候加入一条规则,50ms内没有返回数据则自动重新请求,这样能不能减少这个延时等待时间呢?

  3. admin

    200ms是一个经验值 “50ms内没有返回数据则自动重新请求,这样能不能减少这个延时等待时间呢” 可能可以,可能更糟。如果真的是网络出现问题,50ms重试失败,只会造成更多的重试,网络链路上就是各种重试

  4. 我以为重传最大间隔就是TCP_RTO_MAX,也就是两分钟。但是最后说最后一次重传居然长达10多分钟。我觉得两者有矛盾。

  5. […] Linux动态内核模块 Linux内核 TCP源码详解一:拥塞控制算法(tcp.h tcp_cong.c) linux RTO Overriding the default Linux kernel 20-second TCP socket connect timeout linux内核优化 Shaving […]

  6. […] ,而重传时间间隔,间隔增长频率等,是比较复杂的方式计算出来的,见《 TCP/IP重传超时-RTO […]

  7. […] ,而重传时间间隔,间隔增长频率等,是比较复杂的方式计算出来的,见《 TCP/IP重传超时-RTO […]

  8. leo

    解释很全面也很详细,但是最后一次重传间隔大概是13到30分钟左右,应该是不会达到30分钟,内核中是以TCP_RTO_MIN计算出的15次重传的时间作为判断是否超时的时间的

  9. qiuxiafei

    解释得很全面。刚刚遇到了类似的问题,也是神奇的200ms。

  10. 感谢深度解释。

    关于你末尾提到的”因为RTO有下限,最小必须是200ms“观点,我有一种猜测就是TCP协议默认启用捎带(延时)确认算法(Piggybacking ACKs),而捎带确认的等待时间正好是固定值200ms。因此无论怎么在实际环境中测试,得到的结果都会>200ms,就如你在文中开头部分测到的结果201ms。

    因为是系统默认设定,目前还不得知如何关闭捎带确认功能。

Leave a Reply

Your email address will not be published. Required fields are marked *