当前位置：首页 > article >正文

使用Python爬虫获取孔夫子旧书网已售商品数据：调用item_search_sold接口

article 2025/2/26 23:36:31

在二手书市场中，孔夫子旧书网是国内知名的平台，拥有丰富的古籍和二手书资源。通过其提供的API接口，开发者可以方便地获取已售商品的信息，这对于市场分析、价格研究和书籍收藏等领域具有重要价值。本文将详细介绍如何使用Python爬虫技术调用孔夫子旧书网的item_search_sold接口，通过关键字搜索已售商品，并解析返回的数据。

一、准备工作

1. 注册开发者账号

在使用孔夫子旧书网的API接口之前，需要在孔夫子旧书网的开发者平台注册账号。注册完成后，创建一个新的应用以获取API密钥（key）和调用密钥（secret）。

2. 了解接口文档

孔夫子旧书网提供了详细的API接口文档，其中item_search_sold接口用于获取已售商品的信息。该接口的请求地址为：

https://api-gw.onebound.cn/kfz/item_search_sold

3. 安装必要的Python库

为了实现API调用和数据处理，需要安装以下Python库：

requests：用于发送HTTP请求。
pandas：用于数据处理和存储。

可以通过以下命令安装这些库：

bash

pip install requests pandas

二、调用`item_search_sold`接口

1. 构建请求参数

item_search_sold接口支持通过关键字搜索已售商品，并返回相关的商品信息。以下是常用的请求参数：

参数名称	类型	是否必填	描述
`key`	String	是	调用密钥（API Key）
`secret`	String	是	调用密钥（API Secret）
`q`	String	是	搜索关键字
`page`	Integer	否	页码，默认为1
`sort`	String	否	排序方式（如`normal`、`publish`等）

2. 发送请求并解析响应

以下是完整的Python代码示例，展示如何调用item_search_sold接口并解析返回的数据：

Python

import requests

def fetch_sold_books(keyword, page=1):
    """
    通过关键字获取孔夫子旧书网已售商品信息
    :param keyword: 搜索的关键字
    :param page: 页码，默认为1
    :return: 返回的JSON数据
    """
    api_key = 'YOUR_API_KEY'  # 替换为你的API Key
    api_secret = 'YOUR_API_SECRET'  # 替换为你的API Secret
    url = f"https://api-gw.onebound.cn/kfz/item_search_sold?key={api_key}&secret={api_secret}&q={keyword}&page={page}"

    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        return data
    else:
        print(f"请求失败，状态码：{response.status_code}")
        return None

# 示例：搜索关键字为"鲁迅"的已售书籍
keyword = '鲁迅'
sold_books = fetch_sold_books(keyword)
if sold_books:
    for book in sold_books['items']:
        print(f"书名：{book['title']}, 价格：{book['price']}, 库存：{book['stock']}")
else:
    print("未找到相关已售书籍")

3. 数据解析

API返回的数据通常为JSON格式，包含商品的详细信息，如书名、价格、库存等。以下是一个返回数据的结构示例：

JSON

{
    "items": [
        {
            "title": "书名",
            "price": "价格",
            "stock": "库存",
            "sold_quantity": "已售数量"
        }
    ],
    "page": 1,
    "real_total_results": 100,
    "total_results": 100,
    "page_size": 20,
    "pagecount": 5
}