当前位置: 首页 > article >正文

当当网热销书籍数据采集与可视化分析

当当网书籍数据采集与可视化分析


文章目录

  • 当当网书籍数据采集与可视化分析
    • 写在前面
    • 数据采集(PyCharm + Navicat)
      • 1.观察网页内容
      • 2.查看书籍信息
      • 3.连接数据库并创建数据表
      • 4.编写代码采集书籍
    • 数据分析(Jupyter Notebook)
      • 1.安装必要的库
      • 2.导入必要的库
      • 3.数据分析(mysql)
        • 3.1 从mysql数据库导入数据
          • 3.1.1 配置数据库信息
          • 3.1.2 连接数据库并获取数据信息
        • 3.2 数据预处理
          • 3.2.1 修改字段
          • 3.2.2 提取要用到的字段
          • 3.2.3 处理空值
        • 3.3 可视化分析
          • 3.3.1 电子书版本占比
          • 3.3.2 书籍总体价格区间
          • 3.3.3 前10出版社的书籍占比
          • 3.3.4 出版社前10名
          • 3.3.5 各个出版社书籍数量柱状图
      • 4.数据分析(.csv)
    • 完整项目
    • 写在后面


写在前面

目标:采集2021年~2024年 当当网热销图书信息 ,并进行可视化分析。

软件:PyCharmJupyter NotebookNavicat

技术:requestspandaspymysqlsqlalchemypyecharts


数据采集(PyCharm + Navicat)

第一步,需要获取2021~2024年当当网的热销书籍信息。

在这个部分,主要使用 PyCharmNavicat

1.观察网页内容

在采集当当网图书信息前,我们需要了解一下当当网热销图书的页面。

  1. 首先,进入当当网热销图书网页:http://bang.d

http://www.kler.cn/a/503999.html

相关文章:

  • 【汇编】x86汇编编程寄存器资源心中有数
  • SQL面试题1:连续登陆问题
  • 项目概述、开发环境搭建(day01)
  • ue5 蒙太奇,即上半身动画和下半身组合在一起,并使用。学习b站库得科技
  • 为AI聊天工具添加一个知识系统 之32 三“中”全“会”:推理式的ISA(父类)和IOS(母本)以及生成式CMN (双亲委派)之1
  • unity打包sdk热更新笔记
  • 松散比较(PHP)(小迪网络安全笔记~
  • MySQL数据库(SQL分类)
  • WSL报错libcudnn_cnn_infer.so.8
  • 基于Hiperwalk的量子行走Python编程
  • 基于celery的任务管理,本文主要是处理自己的算法,暴露API,管理任务并发,多线程
  • LeetCode 2657. Find the Prefix Common Array of Two Arrays
  • SCDN跟高防IP相比哪个更好
  • 计算机视觉算法实战——实时车辆检测和分类(主页有相关源码)
  • 大语言模型训练的基本步骤解析
  • llama.cpp 模型可视化工具 GGUF Visualizer
  • 提高互联网Web安全性:避免越权漏洞的技术方案
  • 在Visual Studio中编译.c文件和.cpp文件主要有哪些不同
  • 第三篇 Avaya IP Office的架构及其服务组成
  • Mysql--运维篇--安全性(数据库访问控制,最小权限原则,表空间加密,TLS加密,证书签发,SQL注入及防范等)
  • centos 8 中安装Docker
  • [读书日志]8051软核处理器设计实战(基于FPGA)第七篇:8051软核处理器的测试(verilog+C)
  • 多商家入驻商城系统架构与功能分析
  • 《鸿蒙Next旅游应用:人工智能赋能个性化与智能导览新体验》
  • workloadSelector 是一种在服务网格(如Istio)中用于选择特定工作负载实例的机制。
  • Kafka权威指南(第2版)读书笔记