当前位置: 首页 > article >正文

【负载均衡系列】nginx负载高怎么排查

一、快速定位问题方向

  1. 现象确认
    • 服务器响应变慢、超时或返回 5xx 错误。
    • 系统监控显示 CPU、内存、磁盘 I/O 或网络带宽使用率飙升。
  2. 初步判断
    • Nginx 自身瓶颈:配置不当、连接数超限、日志写入阻塞。
    • 后端服务问题:应用处理慢、数据库阻塞、缓存失效。
    • 外部攻击/异常流量:DDoS、爬虫、API 滥用。

二、系统资源分析

1. 查看全局资源占用
# 查看整体资源使用(按 CPU 排序)
top
htop

# 检查内存使用
free -h

# 磁盘 I/O 分析
iostat -x 1
iotop

# 网络流量监控
nload          # 实时流量
iftop -i eth0  # 按连接排序
2. 定位高负载进程
# 按 CPU 使用率排序
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head

# 按内存使用排序
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head

三、Nginx 自身诊断

1. 检查 Nginx 状态
# 查看工作进程状态
ps aux | grep nginx

# 检查活跃连接数
netstat -ant | grep :80 | wc -l

# 使用 Nginx 状态模块(需提前配置)
curl http://localhost/nginx_status

输出示例

Active connections: 291 
server accepts handled requests
 16630948 16630948 31070465 
Reading: 6 Writing: 179 Waiting: 106 
2. 分析连接数配置
# 检查配置文件中的核心参数
worker_processes auto;         # 应与 CPU 核心数匹配
worker_connections 10240;     # 单进程最大连接数
worker_rlimit_nofile 100000;  # 文件描述符限制
3. 日志分析
# 实时监控错误日志
tail -f /var/log/nginx/error.log

# 高频错误统计
grep "error" /var/log/nginx/error.log | awk '{print $8}' | sort | uniq -c | sort -nr

# 慢请求分析(需配置 $request_time)
awk '{if ($10 > 1) print $7, $10}' /var/log/nginx/access.log | sort -k2 -nr

四、后端服务排查

1. 检查代理超时配置
location / {
    proxy_pass http://backend;
    proxy_connect_timeout 5s;   # 连接后端超时
    proxy_read_timeout 60s;     # 读取响应超时
    proxy_send_timeout 30s;     # 发送请求超时
}
2. 后端服务健康状态
# 手动测试后端响应
curl -v -o /dev/null -s -w "HTTP Code: %{http_code}\nTotal Time: %{time_total}\n" http://backend

# 检查负载均衡状态(需配置 upstream_status)
curl http://localhost/upstream_status
3. 数据库与缓存
# MySQL 进程列表
mysql -u root -p -e "SHOW FULL PROCESSLIST;"

# Redis 监控
redis-cli info stats | grep instantaneous_ops_per_sec

五、网络层排查

1. 连接跟踪
# 查看 TCP 连接状态
ss -s          # 全局统计
ss -tn sport = :80 | awk '{print $1}' | sort | uniq -c  # 按状态分类

# 检查 TIME_WAIT 堆积
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
2. 防火墙与带宽
# 检查防火墙规则
iptables -L -n -v

# 测试带宽瓶颈
iperf3 -c <target_ip> -p 5201

六、攻击与异常流量识别

1. 高频 IP 统计
awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20
2. 封禁恶意 IP
# 动态黑名单(需安装 ngx_http_geoip_module)
geo $block_ip {
    default 0;
    1.2.3.4 1;   # 手动封禁
}

server {
    if ($block_ip) {
        return 403;
    }
}
3. 限流配置
# 请求速率限制
limit_req_zone $binary_remote_addr zone=api_limit:10m rate=100r/s;

location /api {
    limit_req zone=api_limit burst=200;
}

七、性能优化措施

1. 静态资源优化
location ~* \.(jpg|css|js)$ {
    expires 365d;
    add_header Cache-Control "public";
    access_log off;
}
2. 启用 Gzip/Brotli 压缩
gzip on;
gzip_types text/plain text/css application/json application/javascript;
3. 调整内核参数
# 增加端口复用范围
sysctl -w net.ipv4.ip_local_port_range="1024 65535"

# 快速回收 TIME_WAIT 连接
sysctl -w net.ipv4.tcp_tw_reuse=1
sysctl -w net.ipv4.tcp_tw_recycle=1

总结排查流程

  1. 监控定位:确定是 CPU、内存、I/O 还是网络问题。
  2. 日志溯源:分析 error.log 和 access.log 找异常模式。
  3. 链路压测:使用 ab 或 wrk 模拟请求,逐步隔离瓶颈点。
  4. 配置调优:调整 Nginx、系统内核、后端服务参数。
  5. 架构升级:引入缓存、队列、分布式架构。

http://www.kler.cn/a/595615.html

相关文章:

  • pbootcms版AI自动发文插件,自动发布自动配图,支持多任务
  • 存储过程在高并发环境下的重要性
  • 快速入手-基于Django的主子表间操作mysql(五)
  • dockerSDK-Go语言实现
  • DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加导出数据功能示例7,TableView15_07带边框和斑马纹的导出表格示例
  • 【数据库备份】docker中数据库备份脚本——MySql备份脚本
  • C++ 异常 【无敌详细版】
  • 汇川EASY系列之以太网通讯(MODBUS_TCP做主站)
  • 爱普生晶振FC2012AA汽车ADAS主控制系统的理想选择
  • 对接马来西亚、印度、韩国、越南等全球金融数据示例
  • visual studion 2022如何使用PlaySound()
  • 扩展卡尔曼滤波
  • Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持(146)
  • 阅读《Vue.js设计与实现》 -- 03
  • hashMap部分相关知识
  • 未来办公与生活的新范式——智慧园区
  • 二分查找-在排序数组中查找元素的第一个和最后一个位置
  • 【鸿蒙开发】Hi3861学习笔记- 串口
  • Excel online开始支持Copilot高级数据分析:Python提供强大的数据见解
  • 【从零开始学习计算机科学与技术】系统工程概论(二)系统工程方法论