当前位置: 首页 > article >正文

阿九的python 爬虫进阶课18.3 学习笔记

文章目录

  • 前言
  • 1. 爬取大标题
  • 2. 爬取小标题
  • 3. 证券栏下的标题
  • 4. 某篇文章里的具体内容

前言

  • 网课链接:https://www.bilibili.com/video/BV1kV4y1576b/
  • 新浪财经网址:https://finance.sina.com.cn/
  • 需先下载库:
conda install lxml
  • 布置爬取的一些配置代码
import requests
from bs4 import BeautifulSoup
html = requests.get('https://finance.sina.com.cn/')
html.encoding = 'utf-8'
soup = BeautifulSoup(html.text, 'lxml')

1. 爬取大标题

在这里插入图片描述

## 大标题
bigTitle = soup.select("#blk_hdline_01 h3 a")
for bg in bigTitle:
    print("大标题:", bg.text)
    print("链接:", bg.get('href'))
print("-"*60)

结果:
在这里插入图片描述

2. 爬取小标题

在这里插入图片描述

## 小标题
smallTitle = soup.select("#blk_hdline_01 p a")
for st in smallTitle:
    print("小标题:", st.text)
    print("链接:", st.get('href'))
print("-"*60)

结果:
在这里插入图片描述

3. 证券栏下的标题

“F12” 后通过其中的“class”获得途径(遇到空格就转化为“.”)
在这里插入图片描述

## 证券
zq = soup.select(".m-p1-mb2-list.m-list-container ul li a")
for z in zq:
    print("证券标题:", z.text)
    print("链接:", z['href'])
print("-"*60)

结果:
在这里插入图片描述

4. 某篇文章里的具体内容

id是绝对的,但是class可能会有重复。

## 证券
zq = soup.select(".m-p1-mb2-list.m-list-container ul li a")
for z in zq:
    print("证券标题:", z.text)
    print("链接:", z['href'])
    # 进入连接爬取文本内容
    innerHtml = requests.get(z['href'])
    innerHtml.encoding = 'utf-8'
    soup2 = BeautifulSoup(innerHtml.text, 'lxml')
    articles = soup2.select("div .article p")
    str = ""
    for article in articles:
        str += article.text
    print(str)
    print("-"*30)

结果:
在这里插入图片描述


http://www.kler.cn/a/510474.html

相关文章:

  • python爬虫报错日记
  • 【脑机接口数据处理】 如何读取Trode 的.rec文件 原始数据?
  • 设计模式-单例模式
  • protobuf: 通讯录3.1
  • iOS - Objective-C 底层实现中的哈希表
  • 多种vue前端框架介绍
  • 条件决策树(Conditional Decision Trees)算法详解
  • 基于JavaWeb的宠物救助及领养平台的设计与实现
  • Safari常用快捷键
  • 1166 Summit (25)
  • web前端2--标签
  • C# OpenCV机器视觉:常用滤波算法
  • ASP.NET Core 实战:JWT 身份验证
  • mysql官方文档翻译02-一致性非锁定读与一致性锁定读
  • k8s 容器反复重启
  • 配置管理与动态调整:ShardingSphere 的配置方式与实时调整能力
  • 使用pytorch从头实现一个vit
  • 大数据相关组件介绍
  • 第148场双周赛:循环数组中相邻元素的最大差值、将数组变相同的最小代价、最长特殊路径、所有安放棋子方案的曼哈顿距离
  • 第1章:Python TDD基础与乘法功能测试
  • 数据库高可用方案-09-数据库的灾难恢复演练
  • 【configparser.NoSectionError: No section: ‘versioneer‘】
  • 第3章:Python TDD更新测试用例测试Dollar类
  • 企业级NoSQL数据库Redis
  • 2025年1月19日(振动控制研究历史)
  • 使用通用预训练范式为 3D 基础模型铺平道路