当前位置: 首页 > article >正文

nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

  • https://www.expressjs.com.cn/
  • https://www.npmjs.com/package/request
  • https://www.npmjs.com/package/cheerio

http://www.kler.cn/a/378599.html

相关文章:

  • 安全性测试
  • 基于人脸识别PCA算法matlab实现及详细步骤讲解
  • axios竟态问题
  • django的models使用介绍。
  • 深入学习 Scrapy 框架:从入门到精通的全面指南
  • Rust 力扣 - 643. 子数组最大平均数 I
  • Excel:vba实现批量插入图片批注
  • AI助力医疗:未来的医生会是机器人吗?
  • 使用opencv调用TV_L1算法提取光流
  • MySQL表的增删改查(CRUD1)
  • rk3568 适配 CAN
  • 浏览器、性能优化、前端安全重难点面试题
  • LeetCode 0685.冗余连接 II:并查集(和I有何不同分析)——详细题解(附图)
  • ReactNative Fabric渲染器和组件(5)
  • 【NLP自然语言处理】深入解析Encoder与Decoder模块:结构、作用与深度学习应用
  • 简单题:Base32 编码和解码问题| 豆包MarsCode AI刷题
  • 【多线程奇妙屋】收藏多年的线程安全问题大全笔记(下篇) { 死锁问题 },笔记一生一起走,那些日子不再有
  • STM32 第22章 常用存储器介绍
  • JavaScript 判断数据类型有哪些方法?
  • 1、DevEco Studio 鸿蒙仓颉应用创建
  • Gradient descent algorithm
  • express搭建ts(TypeScript)运行环境
  • ChatGPT、Python和OpenCV支持下的空天地遥感数据识别与计算
  • 关联容器笔记
  • 【天线&空中农业】草莓果实检测系统源码&数据集全套:改进yolo11-HSFPN
  • 【华为HCIP实战课程31(完整版)】中间到中间系统协议IS-IS路由汇总详解,网络工程师