爬虫-获取数据bs4
-
安装lxml
pip3 install lxml
-
用法
import requests
from bs4 import BeautifulSoup
url ='xxxx'
res = requests.get(url).text
soup = BeautifulSoup(res,'lxml')
##---------------------bs4选择器使用方法--------------------------
#1. 根据a标签查找,类型是list,元素是bs4对象
print(soup.find_all('a'))
#2. 返回所有div 和 a 标签
print(soup.find_all(['div','a']))
#3. 根据标签属性定位
print(soup.find_all(attrs={
"clsaa":"xxx"}))
#4. 根据标签和属性定位
print(soup.find_all('div',attrs={
"clsaa":"xxx"}))
##---------------------css选择器使用方法--------------------------
#1. 根据标签
print(soup.select('h1'))
#2. 根据css属性 查找class=xx的数据
print(soup.select(