当前位置: 首页 > article >正文

Python爬虫入门课: 如何实现数据抓取 <文字 图片 音频 视频 文档..>

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

环境使用:

  • Python 3.10 解释器

  • Pycharm 编辑器

模块使用:

  • requests

  • re

  • csv

  • pandas

爬虫实现第一步:

一. 抓包分析

  • 找到对应数据链接地址

  • 套用代码:

    1. 修改链接

    2. 请求方式 (大部分get)

    3. 请求头模拟伪装 (复制)

    4. 根据响应返回的数据, 选择对应数据获取方式

      • 文字: 评论 / 弹幕 / 小说内容 / 房源数据 / 电商平台数据

        保存: txt 表格文件中 (csv / Excel)

二. 代码实现步骤

  1. 发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

代码

# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入csv模块
import csv
# 导入pandas
import pandas as pd

“”“保存csv”“”

csv_file = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer  = csv.DictWriter(csv_file, fieldnames=['链接', '书名'])
csv_writer.writeheader()

“”“保存Excel”“”

content_list = [] # 创建空列表

“”“爬虫代码模板”“”

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
# 请求网址 <可修改>
url = 'https://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1'
# 模拟浏览器 <可修改> 只加ua得不到数据,考虑加其他的内容 cookie
headers = {
    # 'Cookie':'cookie2=1cc1a1d71b55c70f06a967cf6928e38f; t=bd212cd7985fc01620072c32d0c75e63; _tb_token_=f3b1be8e3571e; _m_h5_tk=4864b7435c237379bd0672766256fd82_1700664128902; _m_h5_tk_enc=6d437a80c2f37003b6a959efefe1ee65; cna=UuLkHVk6/GoCAa8N4mgNBHoR; xlly_s=1; _samesite_flag_=true; sgcookie=E100yzzme9pkL0eYBuODsheO6oym4V1a7ylpVuQTOkCGO76sQKdX2qtiPLXKp0Sb8zjJ%2FqStCUkOK1MfrNdepq45tpO3eeak6QWmpUJCskUPy9g%3D; unb=2253332812; uc3=vt3=F8dD3CN7RI1WgzeB9LA%3D&nk2=EFHQgqY%2FYVpGAB3A&lg2=VFC%2FuZ9ayeYq2g%3D%3D&id2=UUpkuyL4JX%2FEYg%3D%3D; csg=6c1f510f; lgc=songlin12355; cancelledSubSites=empty; cookie17=UUpkuyL4JX%2FEYg%3D%3D; dnk=songlin12355; skt=8ae0cfff23ab7492; existShop=MTcwMDY1NjIzMw%3D%3D; uc4=nk4=0%40EohdjXbja%2BcD2pXliwckLCTyc578V0Q%3D&id4=0%40U2guM2WFlHhG0KgHRZNn6toWs%2BQA; tracknick=songlin12355; _cc_=U%2BGCWk%2F7og%3D%3D; _l_g_=Ug%3D%3D; sg=526; _nk_=songlin12355; cookie1=WvZkvpyfdEVhZc7D4YCP4CnB%2BS2ARzymB83V5PHKTvs%3D; isg=BIeH6YlcrkNR5irPvfaakVLtFjtRjFtuCLgwzFl0cZYfyKaKYFniv_nJaoiWIDPm; tfstk=dKODvFa23KWf10jDdmCjgygLZ-DRco11xhFOX1IZUgS7H1HXWNvkRhjx5x1vEGxyqiPxlEKl7hY6Hq6tcP4XZHVTMmMX75fO_DnK9XLbh11tvsAHExgFsrHF4dGplE1_olupUXFMwyTdjYy05QzHMqflxPwY6dvET0sHugVHPQ74GMcC455eaZWD_K6wE8yFOiN1zVdzCR6VPajd_-PZs; l=fBIlxQSlPuu7D7pTBO5CPurza779UIRb8sPzaNbMiIEGa1yPTd8piNCTdGTM7dtjgT50keKyMAhYGdUyrRz38AkDBeYIpIqLALv68eM3N7AN.; mt=ci=68_1; uc1=cookie16=UIHiLt3xCS3yM2h4eKHS9lpEOw%3D%3D&cookie21=V32FPkk%2FgPzW&existShop=false&cookie15=VFC%2FuZ9ayeYq2g%3D%3D&cookie14=UoYelQxCxISYZA%3D%3D&pas=0; thw=cn',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
}
# 发送请求 <请求方式可修改>
response = requests.get(url=url, headers=headers)
"""获取响应数据
    - response.text 获取响应文本数据 (字符串)
        获取html网页数据
    - response.json() 获取响应json数据 (json字典)
        {} 花括号包裹起来数据 <必须是完整json数据格式>
    - response.content 获取响应二进制数据 (保存图片/视频/音频/特定格式文件...)
"""
html = response.text
"""解析数据
    - 数据源: 字符串数据
    - 数据: 需要的数据直接复制粘贴 需要提取内容(.*?)
    re.findall('数据', '数据源')
        比如: info = re.findall('"creativeTitle":"(.*?)","hotSale"', html)

为了防止被封IP 换IP代理 换账号 设置延时
"""
info = re.findall('<div class="name"><a href="(.*?)" target="_blank" title="(.*?)">', html)
"""保存数据
1. txt: 保存字符串数据
    # file 可以修改 <文件路径 / 文件名 / 格式> mode='a' 追加保存 w 写入数据(会覆盖)
    with open(file='demo.txt', mode='a', encoding='utf-8') as f:
        # 写入内容
        f.write(link) # 写入链接
        f.write(title) # 写入标题
        f.write('\n') # 写一个换行符
2. 表格: csv / excel
"""
# for循环遍历
for link, title in info:
    # 创建字典
    dit = {
        '链接': link,
        '书名': title
    }
    # 写入csv
    csv_writer.writerow(dit)
    # 写入Excel 把字典添加到列表中
    content_list.append(dit)
    print(link, title)

# 传入列表
df = pd.DataFrame(content_list)
# 保存Excel
df.to_excel('data.xlsx', index=False)

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇


http://www.kler.cn/a/147312.html

相关文章:

  • 每日一博 - Java的Shallow Copy和Deep Copy
  • g++与gdb简单学习
  • 在Ubuntu22.04上源码构建ROS noetic环境
  • Linux驱动开发第2步_“物理内存”和“虚拟内存”的映射
  • 【第三课】Rust变量与数据类型(二)
  • xcode-select: error: tool ‘xcodebuild‘ requires Xcode, but active developer
  • 通过JDBC连接MySQL实现表的插入和查看语句
  • IDEA断点调试
  • 双通道 12V 直流电机驱动芯片GC8548,12V,大电流,具有短地短电源保护功能,可替代LV8548/LV8549/ONSEMI
  • 浙江启用无人机巡山护林模式,火灾扑救效率高
  • uni-app 离线打包安卓Apk(小白上手)
  • Altium Designer学习笔记13
  • 初学Flink 学后总结
  • MYSQL基础知识之【添加数据,查询数据】
  • 微信小程序 服务端返回富文本,图片无法显示
  • java stream流的执行流程
  • 2019年9月26日: Go生态洞察:发布Go模块
  • java计算积分面积
  • 优化生产制造业流程,提升生产效率,选择ERP管理系统!
  • 单片机学习10——独立按键
  • 推荐6款本周 yyds 的开源项目
  • 国内外的ERP系统存在显著的差异,差在哪?
  • 【数据结构】二叉树之链式结构
  • 希尔伯特和包络变换
  • Redis使用increment方法返回null的原因以及解决方案
  • Django整合回顾