当前位置：首页 > article >正文

利用 Python 爬虫从义乌购根据关键词获取商品列表

article 2025/3/3 5:33:00

在当今数字化商业时代，数据是企业获取竞争优势的关键。对于从事国际贸易的商家而言，能够及时、准确地获取商品信息至关重要。义乌购作为知名的国际贸易批发平台，汇集了海量的商品资源。通过 Python 爬虫技术，我们可以高效地从义乌购根据关键词获取商品列表，从而为市场分析、产品调研等提供有力支持。

一、准备工作

（一）环境搭建

Python 安装：确保已安装 Python 环境，推荐使用 Python 3.8 或更高版本，以获得更好的性能和对新特性的支持。可以从 Python 官网下载安装包并安装.
开发工具配置：使用 PyCharm 或 Visual Studio Code 等 Python 开发工具，创建一个新的 Python 项目，以便方便地编写和调试代码。在项目中创建文件夹和文件，组织好代码结构.
依赖库安装：在项目中安装必要的依赖库，包括用于发送网络请求的 requests，用于解析 HTML 的 BeautifulSoup，以及用于数据存储和处理的 pandas。可以通过 pip 命令安装：
```
pip install requests beautifulsoup4 pandas
```

（二）义乌购平台了解

1. 注册账号：在义乌购平台注册一个账号，并登录。部分商品信息可能需要登录后才能查看完整，后续可以考虑模拟登录以获取更多信息.
2. 关键词搜索：在义乌购的搜索框中输入关键词，观察搜索结果页面的 URL 变化，通常 URL 中会包含关键词参数，如 `https://www.yiwugo.com/search?keyword=手机` 中的 `keyword=手机` 即为关键词参数. 记录下关键词参数的格式，用于后续爬虫的构建.

二、编写爬虫代码

（一）发送请求

import requests

def send_request(keyword, page=1):
    url = f"https://www.yiwugo.com/search?keyword={keyword}&page={page}"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print(f"请求失败，状态码：{response.status_code}")
        return None

构建 URL：根据关键词和页码构建完整的搜索结果页面 URL. keyword 参数用于指定搜索关键词，page 参数用于指定页码，默认为第一页.
设置请求头：模拟浏览器访问，设置 User-Agent 避免被网站反爬虫机制拦截，同时可以添加其他必要的请求头，如 Accept-Language 等，以更好地模拟真实用户行为.
发送 GET 请求：使用 requests.get() 方法发送请求，获取响应内容. 若请求成功返回响应文本，否则打印错误信息并返回 None.

（二）解析 HTML

from bs4 import BeautifulSoup

def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    product_list = []

    # 获取商品列表项
    product_items = soup.find_all('div', class_='product-item')
    for item in product_items:
        product_info = {}

        # 获取商品名称
        product_name = item.find('h2', class_='product-name').text.strip()
        product_info['商品名称'] = product_name

        # 获取商品价格
        product_price = item.find('span', class_='price').text.strip()
        product_info['商品价格'] = product_price

        # 获取商品图片
        product_image = item.find('img', class_='product-image')['src']
        product_info['商品图片'] = product_image

        # 获取商品链接
        product_link = item.find('a', class_='product-link')['href']
        product_info['商品链接'] = product_link

        product_list.append(product_info)

    return product_list

创建 BeautifulSoup 对象：传入 HTML 文本和解析器，构建解析树. BeautifulSoup 提供了强大的选择器功能，可以方便地定位和提取 HTML 中的元素.
提取商品信息：通过定位 HTML 元素的选择器，提取每个商品项的名称、价格、图片和链接等信息，并存储到字典 product_info 中，然后将 product_info 添加到列表 product_list 中. 选择器可以根据实际页面结构进行调整，以确保准确获取所需数据.

（三）整合爬虫流程

def main(keyword, pages=1):
    all_products = []
    for page in range(1, pages + 1):
        html = send_request(keyword, page)
        if html:
            products = parse_html(html)
            all_products.extend(products)
        else:
            print(f"获取第 {page} 页商品信息失败")
    return all_products

主函数：定义 main() 函数，接收关键词和页码数作为参数. 使用 for 循环遍历指定页码范围，调用 send_request() 获取每一页的 HTML，再调用 parse_html() 解析 HTML 并提取商品信息，将所有商品信息存储到列表 all_products 中，最后返回 all_products.

三、运行与数据处理

（一）运行爬虫

指定关键词和页码：将 keyword 替换为实际想要搜索的关键词，如 "手机"，将 pages 设置为想要抓取的页码数，如 3 表示抓取前三页的商品信息.
运行爬虫：执行 main() 函数，爬虫会输出获取到的商品信息列表. 如果一切顺利，你将看到包含商品名称、价格、图片和链接等详细信息的商品列表.

（二）数据存储

import pandas as pd

def save_to_csv(products, filename):
    df = pd.DataFrame(products)
    df.to_csv(filename, index=False, encoding='utf-8-sig')

保存到 CSV 文件：将商品信息列表转换为 pandas 的 DataFrame 对象，然后保存到 CSV 文件中，方便后续数据分析和处理. 这样可以将爬取到的数据持久化存储，便于进行进一步的分析和利用.

四、注意事项与优化建议

（一）注意事项

遵守网站协议：在爬取义乌购平台数据时，要遵守其服务协议和使用条款，不得对网站造成过大压力或影响正常用户访问. 爬虫的请求频率应适中，避免频繁请求导致服务器负载过高.
处理反爬虫机制：若遇到反爬虫机制，如请求被拦截、IP 被封等，可以尝试更换请求头、设置请求间隔、使用代理 IP 等方法应对. 需要不断调整和优化爬虫策略，以适应网站的反爬虫措施.
数据准确性：爬取到的数据可能存在格式问题或不完整情况，需对数据进行清洗和校验，确保其准确性. 可以编写数据校验逻辑，对异常数据进行过滤和修正.

（二）优化建议

多线程/异步爬取：对于需要爬取大量商品信息的情况，可以使用 Python 的多线程库（如 threading）或异步请求库（如 aiohttp）提高爬取效率. 但要注意控制并发数量，避免对网站造成过大压力，同时要处理好线程同步和数据一致性问题.
动态加载处理：部分商品信息可能通过 JavaScript 动态加载，可以使用 selenium 等工具模拟浏览器行为，获取动态加载后的页面内容. Selenium 可以模拟用户的各种操作，如滚动页面、点击按钮等，从而获取完整的商品信息.
数据可视化：将爬取到的商品数据进行可视化分析，如绘制价格趋势图、销售量对比图等，更直观地展示商品信息，为决策提供依据. 可以使用 Python 的可视化库，如 matplotlib、seaborn 等，或者将数据导出到 Excel、CSV 等格式，利用其他可视化工具进行分析.

通过以上步骤和方法，我们可以利用 Python 爬虫技术高效地从义乌购根据关键词获取商品列表，为商业决策和市场分析提供有力支持. 同时，也要注意合理使用爬虫，遵守法律法规和网站协议，保护数据安全和隐私.

查看全文

http://www.kler.cn/a/487535.html