当前位置: 首页 > article >正文

Python爬虫:urllib_ajax的get请求豆瓣电影前十页(08)

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=0&limit=20
import urllib.parse
import urllib.request



# 下载豆瓣电影前10页的数据
# (1)请求对象的定制
# (2)获取响应的数据
# (3)下载数据

def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'

    data = {
        'start':(page - 1) * 20,
        'limit':20
    }

    data = urllib.parse.urlencode(data)

    url = base_url + data


    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

    request = urllib.request.Request(url=url, headers=headers)

    return request


def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content


def down_load(page, content):
    with open('douban_' + str(page) + '.json', 'w', encoding='utf-8') as fp:
        fp.write(content)


#程序的入口
if __name__=='__main__':
    start_page = int(input('请输入起始的页码'))
    end_page = int(input('请输入结束的页码'))
    for page in range(start_page, end_page + 1):
#       每一页都有自己的请求对象的定制
        request = create_request(page)
#       获取响应的数据
        content = get_content(request)
#       下载
        down_load(page, content)





这个就是一个综合型的应用了,这个需要扎实的基本功和对于函数调用的理解,然后根据函数的编写去做一个页面的爬取,我们要先分析好网址域名和后面的参数的组成规律,然后再去爬取,在这里的前提先了解,怎么找到这个网址,到浏览器里面检查的network,往豆瓣网站往下拉,去寻找一个含有list的文件,在里面找请求的url,找到如下

网址已做拆分

豆瓣网站的第一页

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=0&limit=20

豆瓣网址的第二页

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=20&limit=20

豆瓣网址的第三页

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&
# start=40&limit=20

我们发现页面和start是有规律可循的

规律就是 (page - 1)* 20

然后编写代码就好

拆分成三个大部分。


http://www.kler.cn/news/365141.html

相关文章:

  • 如何接受Date范围的数据
  • 使用QT绘图控件QCustomPlot绘制波形图
  • 接口测试(九)jmeter——关联(JSON提取器)
  • 我想电脑批量管理 30 台苹果手机,怎么操作更简单方便呢?
  • 六个方向比较分析:ChatGPT-o1-preview与 ChatGPT-4o在论文写作辅助上的差异
  • 戴维南,叠加,稳态笔记
  • 【C++】用哈希桶模拟实现unordered_set和unordered_map
  • 网络安全中的日志审计:为何至关重要?
  • 35.第二阶段x86游戏实战2-C++遍历技能
  • CPRI与eCPRI的区别
  • 每天5分钟玩转C#/.NET之C#语言详细介绍
  • python-PyQt项目实战案例:制作一个视频播放器
  • 双十一送你一份购物攻略,绿联NAS DXP2800评测
  • 借老系统重构我给jpa写了个mybatis风格的查询模块
  • 【笔记】apt源设置为阿里云源
  • 19.面试算法-树的深度优先遍历(一)
  • Nginx15-Lua扩展模块
  • Zookeeper面试整理-Zookeeper集群管理
  • 简单走近ChatGPT
  • 信息安全工程师(55)网络安全漏洞概述
  • 解决 PHP 上传数据超时 504 错误:
  • 为微信小程序换皮肤之配置vant
  • 流批一体计算引擎-17-[Flink]中的Table API常用算子
  • 【Hive实战】Hive MetaStore升级调研
  • 金融工程--pine-script 入门
  • 软考:缓存击穿和缓存穿透