当前位置: 首页 > article >正文

如何找出爬取网站的来源IP呢?

1.背景

最近网站数据库性能很不稳定,查询性能在某段时间很慢,服务器CPU也很高,平常时间很低,感觉被爬虫恶意搞了,因此我分析了一下最近的nginx访问日志

2.方法

找出访问量最大20个ip

[root@100 nginx]# cat liuhaihua.access.log | awk -F " " '{print $1}' |sort |uniq -c |sort -rn|head -n 20
217636 47.76.99.127
217605 47.76.209.138
39006 66.249.74.72
38747 66.249.71.40
33965 216.244.66.244
29643 66.249.74.73
29207 14.153.238.144
28882 129.211.163.247
28485 14.155.183.120
23862 66.249.79.167
21645 14.153.233.199
19477 66.249.74.74
18979 14.155.230.15
17436 66.249.71.41
14782 66.249.69.35
13284 47.94.150.2
12954 66.249.70.71
12742 14.155.204.218
12728 14.153.241.201

解释:uniq的一个特性,检查重复行的时候,只会检查相邻的行。重复数据,肯定有很多不是相邻在一起的;所以需要先进行排序,然后进行统计,再进行逆向排序。

参数解读:
sort:

  -r:逆序输出排序结果

  -n:根据字符串数值比较

uniq:从输入文件或者标准输入中筛选相邻的匹配行并写入到输出文件或标准输出。

  -c:在每行前加上表示相应行目出现次数的前缀编号

查询某个IP的详细访问情况,按访问频率排序

[root@100 nginx]# grep '47.76.99.127' liuhaihua.access.log |awk '{print $7}'|sort |uniq -c |sort -rn |head -n 100
 1641 /archives/497017.html
 1038 /archives/503168.html
 238 /
 156 /js/libs/jquery-confirm.min.js
 147 /js/libs/jquery.lazyload.min.js
 142 /js/libs/nprogress.min.js
 142 /js/libs/jquery.fancybox.min.js
 141 /js/zhyd.js
.....................

查看这个ip今天出现的次数

grep "47.76.99.127" /var/log/nginx/liuhaihua.access.log | grep "$(date +%d/%b/%Y)" | awk -F'"' '{print $2}' | awk '{print $2}'

这个命令的作用是:

  • grep "47.76.99.127":过滤出包含该IP地址的日志行。
  • grep "$(date +%d/%b/%Y)":进一步过滤出包含今天日期的日志行。
  • wc -l:统计这些行的数量。

查看这个IP今天访问的路径

grep "47.76.99.127" /var/log/nginx/liuhaihua.access.log | grep "$(date +%d/%b/%Y)" | awk -F'"' '{print $2}' | awk '{print $2}'

这个命令的作用是:

  • grep "47.76.99.127":过滤出包含该IP地址的日志行。
  • grep "$(date +%d/%b/%Y)":进一步过滤出包含今天日期的日志行。
  • awk -F'"' '{print $2}':提取出请求行(通常是第二个字段)。
  • awk '{print $2}':从请求行中提取出请求的URL路径(通常是第二个字段)。

图形化nginx访问日志神器

安装

yum install goaccess

命令查看

goaccess liuhaihua.access.log

生成静态文件

goaccess liuhaihua.access.log -o report.html --log-format=COMBINED

http://www.kler.cn/a/397884.html

相关文章:

  • 【机器学习导引】ch6-支持向量机
  • Java项目实战II基于微信小程序的电子商城购物平台(开发文档+数据库+源码)
  • 移除元素(leetcode 27)
  • 【网络云计算】2024第46周周考-磁盘管理的基础知识-RAID篇
  • 「Mac玩转仓颉内测版5」入门篇5 - Cangjie控制结构(上)
  • ES6更新的内容中什么是proxy
  • 对接阿里云实人认证
  • UG Motion学习笔记
  • 【AI图像生成网站Golang】JWT认证与令牌桶算法
  • 在 Linux 系统上部署 Oracle 数据库涉及多个步骤
  • AI技术如何助力电商平台提升销售效率与用户体验?——创新应用、挑战与未来发展趋势
  • 【代码随想录回溯算法|子集问题】
  • 排序算法(基础)大全
  • 网络工程实验四:NAT的配置
  • 【MongoDB】MongoDB的核心-索引原理及索引优化、及查询聚合优化实战案例(超详细)
  • 【基于轻量型架构的WEB开发】课程 13.2.4 拦截器 Java EE企业级应用开发教程 Spring+SpringMVC+MyBatis
  • 机器学习:XGBoost模型(升级版)——高效且强大的树形模型
  • 安全见闻4
  • 《C语言程序设计现代方法》note-5 数组
  • 【开源免费】基于SpringBoot+Vue.JS卫生健康系统(JAVA毕业设计)
  • 【C++】OGRE:面向对象图形渲染库配置与示例
  • 2024山西省网络建设运维第十八届职业院校技能大赛解析答案(5. nginx 和 tomcat 服务)
  • 模型压缩相关技术概念澄清(量化/剪枝/知识蒸馏)
  • Pyhon基础数据结构(列表)【蓝桥杯】
  • 永磁同步电机负载估计--降阶龙贝格观测器
  • openai 论文Scaling Laws for Neural Language Models学习