当当网热销书籍数据采集与可视化分析
当当网书籍数据采集与可视化分析
文章目录
- 当当网书籍数据采集与可视化分析
-
- 写在前面
- 数据采集(PyCharm + Navicat)
-
- 1.观察网页内容
- 2.查看书籍信息
- 3.连接数据库并创建数据表
- 4.编写代码采集书籍
- 数据分析(Jupyter Notebook)
-
- 1.安装必要的库
- 2.导入必要的库
- 3.数据分析(mysql)
-
- 3.1 从mysql数据库导入数据
-
- 3.1.1 配置数据库信息
- 3.1.2 连接数据库并获取数据信息
- 3.2 数据预处理
-
- 3.2.1 修改字段
- 3.2.2 提取要用到的字段
- 3.2.3 处理空值
- 3.3 可视化分析
-
- 3.3.1 电子书版本占比
- 3.3.2 书籍总体价格区间
- 3.3.3 前10出版社的书籍占比
- 3.3.4 出版社前10名
- 3.3.5 各个出版社书籍数量柱状图
- 4.数据分析(.csv)
- 完整项目
- 写在后面
写在前面
目标:采集2021年~2024年 当当网热销图书信息 ,并进行可视化分析。
软件:PyCharm
、Jupyter Notebook
、Navicat
技术:requests
、pandas
、pymysql
、sqlalchemy
、pyecharts
数据采集(PyCharm + Navicat)
第一步,需要获取2021~2024年当当网的热销书籍信息。
在这个部分,主要使用 PyCharm
和 Navicat
。
1.观察网页内容
在采集当当网图书信息前,我们需要了解一下当当网热销图书的页面。
- 首先,进入当当网热销图书网页:http://bang.d