在Linux中使用 epoll 处理TCP连接断开问题
在Linux中使用 epoll 处理TCP连接时,默认情况下无法直接检测到网线断开这类物理链路故障。
这是因为TCP协议栈的工作机制导致的。当网线断开后,本地TCP协议栈并不能立刻感知到连接已经不可用。在底层网络设备(如网卡)没有向TCP协议栈反馈链路故障的情况下,TCP连接会处于一种看起来仍然“正常”的状态,实际上数据已经无法传输了。
如果要检测这种情况,可以启用TCP的 Keep - Alive 机制。 Keep - Alive 是一种在TCP连接上定期发送探测包的机制。通过设置 SO_KEEPALIVE 套接字选项,可以让内核定期发送探测包来检查连接是否还存活。如果在一段时间内没有收到对方的响应,就可以认为连接已经断开。
示例代码(设置 SO_KEEPALIVE )如下:
int keepAlive = 1;
int keepIdle = 60;
int keepInterval = 5;
int keepCount = 3;
setsockopt(sockfd, SOL_SOCKET, SO_KEEPALIVE, &keepAlive, sizeof(keepAlive));
setsockopt(sockfd, IPPROTO_TCP, TCP_KEEPIDLE, &keepIdle, sizeof(keepIdle));
setsockopt(sockfd, IPPROTO_TCP, TCP_KEEPINTVL, &keepInterval, sizeof(keepInterval));
setsockopt(sockfd, IPPROTO_TCP, TCP_KEEPCNT, &keepCount, sizeof(keepCount));
在上述代码中, sockfd 是套接字描述符。首先开启 SO_KEEPALIVE 选项,然后设置了 TCP_KEEPIDLE (连接空闲多久后开始发送探测包)、 TCP_KEEPINTVL (探测包发送间隔)和 TCP_KEEPCNT (探测失败多少次后认为连接断开)这几个和 Keep - Alive 相关的参数。
这样,当网线断开后,经过一段时间的探测,就可以通过 epoll 检测到连接断开事件(例如 EPOLLERR 或者 EPOLLHUP )。