当前位置: 首页 > article >正文

Python爬虫项目 | 一、网易云音乐热歌榜歌曲

文章目录

  • 1.文章概要
    • 1.1 实现方法
    • 1.2 实现代码
    • 1.3 最终效果
  • 2.具体讲解
    • 2.1 使用的Python库
    • 2.2 代码说明
      • 2.2.1 创建目录保存文件
      • 2.2.2 爬取网易云音乐热歌榜单歌曲
    • 2.3 过程展示
  • 3 总结

1.文章概要

学习Python爬虫知识,实现简单的一个小案例,网易云音乐热歌榜歌曲

1.1 实现方法

本文使用Python中常用的requests库来实现的

1.2 实现代码

以下是本项目全部代码

# author by mofitte
# vx:mofitte 
# date 2024年11月13日

import requests,re,os

filename = 'music\\'
if not os.path.exists(filename):
    os.makedirs(filename)

url = "https://music.163.com/discover/toplist?id=3778678"  # 网易云音乐热歌榜单页面
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

response = requests.get(url, headers=headers)
# print(response.text)
html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
for song_id, song_name in html_data:
    music_url = f'http://music.163.com/song/media/outer/url?id={song_id}.mp3'
    # 对于音乐播放地址发送请求 获取二进制数据内容
    music_content = requests.get(url=music_url, headers=headers).content

    with open(filename + song_name + '.mp3', mode='wb') as f:
        f.write(music_content)
    print(song_id, song_name)
    print('爬虫任务已完成')

1.3 最终效果

爬取结果

2.具体讲解

2.1 使用的Python库

1.requests:一个简单易用的 Python 库,用于发送 HTTP 请求;
2.os: Python 的一个内置库,提供了许多操作文件和目录的功能;
3.re:用于处理正则表达式,它提供了一系列功能强大的函数,用于字符串的搜索、替换、匹配等操作;

2.2 代码说明

2.2.1 创建目录保存文件

# author by mofitte
# vx:mofitte 
# date 2024年11月13日

import requests,re,os
filename = 'music\\'
if not os.path.exists(filename):
    os.makedirs(filename)

在PC上创建filename目录(这里我用的是Windows系统),用于保存后续爬取下来的音乐文件;

2.2.2 爬取网易云音乐热歌榜单歌曲

url = "https://music.163.com/discover/toplist?id=3778678"  # 网易云音乐热歌榜单页面
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

response = requests.get(url, headers=headers)
# print(response.text)
html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
for song_id, song_name in html_data:
    music_url = f'http://music.163.com/song/media/outer/url?id={song_id}.mp3'
    # 对于音乐播放地址发送请求 获取二进制数据内容
    music_content = requests.get(url=music_url, headers=headers).content

爬取音乐核心代码块
url:这里我选择的是热歌榜单,你也可以直接替换为你想要爬取的榜单,直接运行也是可以的;
headers:模拟浏览器行为访问上述url,这个没啥可说的;
response:获取响应,这里是get了url和headers
html_data:获取音乐数据,通过正则表达式匹配音乐id和音乐名称;
music_url:下载音乐路径,可以在浏览器打开试听音乐;

2.3 过程展示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3 总结

本案例是采用了requests库来简单获取数据,下载音乐,过程还是相对简单的;更复杂的内容,可能需要其他技术来实现,继续学习。

看到这里了,我只希望能点个赞,谢谢


http://www.kler.cn/a/394668.html

相关文章:

  • 微信小程序——01开发前的准备和开发工具
  • Android 13 实现屏幕熄屏一段时候后关闭 Wi-Fi 和清空多任务列表
  • 【CVPR2024】2024年CVPR的3D 目标检测的综述(还在补充中)
  • 信号-3-信号处理
  • Leecode热题100-35.搜索插入位置
  • 微服务架构面试内容整理-API 网关-Gateway
  • 基于混沌加密的遥感图像加密算法matlab仿真
  • SQL 分组查询中的非聚合列要求及实例解析
  • JavaScript调用系统自带的打印页面
  • 云服务器端口开放
  • MATLAB保存多帧图形为视频格式
  • 11个简单易用的电商购物车设计案例
  • MATLAB实现最大最小蚁群算法(Max-Min Ant Colony Optimization, MMAS)
  • 动态规划 —— dp 问题-买卖股票的最佳时机IV
  • 从swagger直接转 vue的api
  • Servlet三小时速成
  • request爬虫库的小坑
  • C++ 面向接口编程而不是面向实现编程,其优点和具体措施
  • 线性DP 区间DP C++
  • Cyberchef配合Wireshark提取并解析HTTP/TLS流量数据包中的文件
  • Python中的正则表达式教程
  • 正则表达式那些事儿
  • 融合创新:CNN+LSTM在深度学习中的高效应用,助力科研发表高影响因子文章!
  • Linux之文件和目录类命令详解(2)
  • 在 Windows 11 中使用 MuMu 模拟器 12 国际版配置代理
  • Unity3D高级编程