当前位置：首页 > article >正文

当当网热销书籍数据采集与可视化分析

article 2025/1/15 19:31:28

当当网书籍数据采集与可视化分析

文章目录

当当网书籍数据采集与可视化分析
- 写在前面
- 数据采集（PyCharm + Navicat）
- - 1.观察网页内容
  - 2.查看书籍信息
  - 3.连接数据库并创建数据表
  - 4.编写代码采集书籍
- 数据分析（Jupyter Notebook）
- - 1.安装必要的库
  - 2.导入必要的库
  - 3.数据分析（mysql）
  - - 3.1 从mysql数据库导入数据
    - - 3.1.1 配置数据库信息
      - 3.1.2 连接数据库并获取数据信息
    - 3.2 数据预处理
    - - 3.2.1 修改字段
      - 3.2.2 提取要用到的字段
      - 3.2.3 处理空值
    - 3.3 可视化分析
    - - 3.3.1 电子书版本占比
      - 3.3.2 书籍总体价格区间
      - 3.3.3 前10出版社的书籍占比
      - 3.3.4 出版社前10名
      - 3.3.5 各个出版社书籍数量柱状图
  - 4.数据分析（.csv）
- 完整项目
- 写在后面

写在前面

目标：采集2021年~2024年当当网热销图书信息，并进行可视化分析。

软件：PyCharm、Jupyter Notebook、Navicat

技术：requests、pandas、pymysql、sqlalchemy、pyecharts

数据采集（PyCharm + Navicat）

第一步，需要获取2021~2024年当当网的热销书籍信息。

在这个部分，主要使用 PyCharm 和 Navicat。

1.观察网页内容

在采集当当网图书信息前，我们需要了解一下当当网热销图书的页面。

首先，进入当当网热销图书网页：http://bang.d

http://www.kler.cn/a/503999.html

相关文章：

【汇编】x86汇编编程寄存器资源心中有数

SQL面试题1：连续登陆问题

项目概述、开发环境搭建（day01）

ue5 蒙太奇，即上半身动画和下半身组合在一起，并使用。学习b站库得科技

为AI聊天工具添加一个知识系统之32 三“中”全“会”：推理式的ISA（父类）和IOS（母本）以及生成式CMN （双亲委派）之1

unity打包sdk热更新笔记

松散比较（PHP）（小迪网络安全笔记~

MySQL数据库（SQL分类）

WSL报错libcudnn_cnn_infer.so.8

基于Hiperwalk的量子行走Python编程

基于celery的任务管理，本文主要是处理自己的算法，暴露API，管理任务并发，多线程

LeetCode 2657. Find the Prefix Common Array of Two Arrays

SCDN跟高防IP相比哪个更好

计算机视觉算法实战——实时车辆检测和分类（主页有相关源码）

大语言模型训练的基本步骤解析

llama.cpp 模型可视化工具 GGUF Visualizer

提高互联网Web安全性：避免越权漏洞的技术方案

在Visual Studio中编译.c文件和.cpp文件主要有哪些不同

第三篇 Avaya IP Office的架构及其服务组成

Mysql--运维篇--安全性（数据库访问控制，最小权限原则，表空间加密，TLS加密，证书签发，SQL注入及防范等）

centos 8 中安装Docker

[读书日志]8051软核处理器设计实战（基于FPGA）第七篇：8051软核处理器的测试（verilog+C）

多商家入驻商城系统架构与功能分析

《鸿蒙Next旅游应用：人工智能赋能个性化与智能导览新体验》

workloadSelector 是一种在服务网格（如Istio）中用于选择特定工作负载实例的机制。

Kafka权威指南（第2版）读书笔记