当前位置：首页 > article >正文

利用爬虫精准获取淘宝商品描述：实战案例指南

article 2025/2/25 21:23:37

在电商领域，商品描述是消费者了解产品细节、做出购买决策的重要依据。精准获取淘宝商品描述不仅能帮助商家优化产品信息，还能为市场研究和数据分析提供丰富的数据资源。本文将详细介绍如何利用Python爬虫技术精准获取淘宝商品描述，并分享关键技术和代码示例。

一、前期准备

（一）环境搭建

确保你的开发环境已安装以下必要的Python库：

requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML页面。
selenium：用于模拟浏览器行为，处理动态加载的内容。
pyquery：用于更便捷地解析HTML。

安装方法如下：

pip install requests beautifulsoup4 selenium pyquery

（二）目标网站分析

淘宝的商品描述通常位于商品详情页，可能需要登录或执行某些操作才能显示完整内容。使用开发者工具（F12）分析目标页面的HTML结构，找到商品描述所在的标签和类名。

二、编写爬虫代码

（一）登录与搜索

使用Selenium模拟浏览器登录淘宝，并搜索目标商品。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

driver = webdriver.Chrome()
driver.get("https://www.taobao.com")
input("请手动登录淘宝后按回车继续...")
search_box = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, "q"))
)
search_box.send_keys("目标商品关键词")
search_button = driver.find_element(By.CSS_SELECTOR, "button.btn-search")
search_button.click()
time.sleep(5)  # 等待搜索结果加载

（二）获取商品详情页链接

从搜索结果页提取商品详情页的链接。

from pyquery import PyQuery as pq

html = driver.page_source
doc = pq(html)
items = doc("div.m-itemlist div.items").items()
for item in items:
    link = item.find("a.J_ClickStat").attr("href")
    print(link)

（三）解析商品描述

访问每个商品详情页，提取商品描述。

import requests
from bs4 import BeautifulSoup

def get_product_description(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    description = soup.find("div", class_="tb-detail-hd").text.strip()
    return description

product_links = [...]  # 从上一步获取的链接列表
for link in product_links:
    description = get_product_description(link)
    print(description)

（四）数据存储

将获取到的商品描述存储到CSV文件中。

import csv

with open("product_descriptions.csv", "w", newline="", encoding="utf-8") as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(["链接", "描述"])
    for link, description in zip(product_links, descriptions):
        writer.writerow([link, description])