各位进来讨论一下lwip 常时间停留FIN_WAIT_1状态的bug

发布于 2020-05-07 10:13:05 浏览：2755 订阅该版

最近在测试rt thread 3.1.3 + lwip2.0.3版本的程序，硬件是STM32F429 + LAN8720，即正点原子的阿波罗开发板。
      故障现象：应用程序编写一个tcp服务器的程序，在电脑端启动一个tcp客户端向服务器发送数据，服务器接收到后返回数据，经过几天的测试，通信的稳定性不错了，就是通信速度还待优化提升一下。

![tcp测试.jpg](/uploads/202005/07/094606spm4v8hn7pnkhhns.jpg)
      这时拔下网线，在msh接口，执行命令tcpserver --stop 关闭开发板上的服务器程序连接。再输入netstate 查看lwip链接的状态，发现链接并不能马上关闭，如下图，链接处于FIN_WAIT_1状态，要过很长的时间才能关闭释放。经过查看lwip的源程序，tcp.c程序中的981行 tcp_slowtmr函数完成了tcp连接的超时释放处理，函数处理FIN_WAIT_1状态的链接，根据tcp连接关闭的4次握手操作，服务器（开发板）发送FIN_WAIT_1后，等待客户端（电脑）应答ACK进而转入FIN_WAIT_2，由于网线断开，服务器（开发板）程序收到不ack而处于FIN_WAIT_1状态。tcp_slowtmr函数中处理这个状态的超时是按照tcp数据重发逻辑进行的，即采用超时后指数级时间退让再进行下一次数据发送，这个时间总的算下来，可达10多个分钟或更久。

![dfef.jpg](/uploads/202005/07/095040rqq26rxrn2kprpxx.jpg)    ![20170519213345831.png](/uploads/202005/07/095501lspl3z3i73l3i3fm.png)
       经过查看lwip网站，此问题已经相关开发者在去年就提出过，bug的网址：[http://savannah.nongnu.org/bugs/?func=detailitem&item_id=56161#comment3](http://savannah.nongnu.org/bugs/?func=detailitem&item_id=56161#comment3)
     ![tcpbuf.jpg](/uploads/202005/07/100647uklk0jkexylejj3x.jpg)
     开发者提出的修改建议并没有得到lwip作者的赞同，原因是作者认为这样修改会违背tcpip协议的标准，但是这种bug确实在实际应用中容易出现，并且不能允许这个tcp连接长时间不释放而无法建立新的连接。
     我个人建议采用讨论中修改办法，即在 tcp_slowtmr函数中增加对FIN_WAIT_1状态的超时处理。如下图标示的修改方法。
![modify.jpg](/uploads/202005/07/101132dbnp29buiihd9zbu.jpg)
      请各位进来讨论一下，看看有没有更好的办法能解决此问题？