当前位置: 首页 > article >正文

scrapy 爬取微博(四)【最新超详细解析】: 设计篇

一、功能设计

开始开发之前我们先对本文的scrapy微博爬虫工程进行一个功能的设计,包含的功能模块如下:

功能模块具体描述
微博文章爬取根据关键词、时间范围等参数爬取微博文章,获取用户名、ID、微博mid、微博内容、点赞、转发、评论等数据
微博评论爬取通过微博评论接口爬取文章相应的评论内容
重复过滤通过管道过滤掉重复性的微博(mid重复)
情感分析通过管道对微博的文本进行情感分析,分为积极、中性和消极,基于bert利用深度学习进行情感分析
保存数据库爬取结果保存到MySQL数据库中

二、 管道设计

在爬虫公工程内设计了3个管道,首先是重复性检查,其次是情感分析,最后是保存MySQL,可以根据需要激活或者禁用这些管道。
在这里插入图片描述

三、 数据库设计

先给出爬取微博文章的表

CREATE TABLE `tb_weibo` (
  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '自增ID',
  `mid` varchar(20) NOT NULL,
  `bid` varchar(12) NOT NULL,
  `user_id` varchar(20) DEFAULT NULL,
  `screen_name` varchar(30) DEFAULT NULL,
  `text` varchar(2000) DEFAULT NULL,
  `article_url` varchar(100) DEFAULT NULL,
  `topics` varchar(200) DEFAULT NULL,
  `at_users` varchar(1000) DEFAULT NULL,
  `pics` varchar(3000) DEFAULT NULL,
  `video_url` varchar(1000) DEFAULT NULL,
  `location` varchar(100) DEFAULT NULL,
  `created_at` datetime DEFAULT NULL,
  `source` varchar(30) DEFAULT NULL,
  `attitudes_count` int(11) DEFAULT NULL,
  `comments_count` int(11) DEFAULT NULL,
  `reposts_count` int(11) DEFAULT NULL,
  `retweet_id` varchar(20) DEFAULT NULL,
  `user_authentication` varchar(100) DEFAULT NULL,
  `keywords` varchar(100) DEFAULT NULL,
  `ip` varchar(100) DEFAULT NULL,
  `label` varchar(100) DEFAULT NULL COMMENT '情感分析',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=254 DEFAULT CHARSET=utf8;

参考项目

weibo-search 非常好的一个项目,可以下载直接爬取数据的,本文的爬取工程就是在此基础上进行扩展的。


http://www.kler.cn/a/320667.html

相关文章:

  • 帧中继原理与配置
  • 如何在 Ubuntu 上安装 Emby 媒体服务器
  • Win10/11 安装使用 Neo4j Community Edition
  • java数据类型之间的转换|超详解
  • 录的视频怎么消除杂音?从录制到后期的杂音消除攻略
  • SpringBoot+React养老院管理系统 附带详细运行指导视频
  • python学习-13【网络编程】
  • 双端搭建个人博客
  • 安卓中有main函数吗?
  • JavaScript 基础 - 第20天_Node.js入门
  • Python-UnitTest框架
  • 基于springboot的驾校预约管理系统的设计与实现 (含源码+sql+视频导入教程)
  • 【Django5】django的helloworld
  • Hqst 品牌 H81801D 千兆 DIP 网络变压器在光猫收发器机顶盒中的应用
  • 前端——flex布局
  • 全方位洗衣洗鞋小程序系统,重塑干洗店服务新体验;
  • LeetCode 22. 括号生成
  • Vue3使用vue-quill富文本编辑器实现图片大小调整
  • 简单了解Redis(初识阶段)
  • 【STM32】 TCP/IP通信协议(1)
  • 【JavaWeb】二、HTML 入门
  • js-17-对数组、对象进行浅拷贝和深拷贝
  • 四款负载均衡工具Nginx、HAProxy、MetalLB、gobetween 比较
  • 【ARM 嵌入式 编译系列 2.8 -- GCC 编译优化参数 位置无关码】
  • Chat2VIS: Generating Data Visualizations via Natural Language
  • 【Android】BottomSheet基本用法总结(BottomSheetDialog,BottomSheetDialogFragment)