当前位置: 首页 > article >正文

如何解析返回的商品信息?

解析返回的商品信息是爬虫开发中的关键步骤之一。在获取到API返回的数据后,我们需要将其解析为可操作的格式,以便提取和使用所需的信息。以下是如何解析返回的商品信息的详细步骤和示例,以Java爬虫为例,解析Shopee API返回的商品列表数据。

一、解析JSON数据

Shopee API通常返回JSON格式的数据。我们可以使用GsonJackson等库来解析JSON数据。这里我们使用Gson库作为示例。

二、代码实现

1. 添加依赖

首先,确保你的项目中已经添加了Gson库的依赖。如果你使用Maven,可以在pom.xml文件中添加以下依赖:

xml

<dependency>
    <groupId>com.google.code.gson</groupId>
    <artifactId>gson</artifactId>
    <version>2.8.6</version>
</dependency>
2. 发送HTTP请求并获取JSON数据

发送HTTP请求并获取返回的JSON数据:

java

import com.google.gson.Gson;
import com.google.gson.JsonObject;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class ShopeeCrawler {
    public static JsonObject fetchShopeeProductList(String keyword) {
        String url = "https://shopee.tw/api/v2/search_items/?by=relevancy&keyword=" + keyword + "&limit=100";
        try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36");
            request.setHeader("Accept", "application/json");

            try (CloseableHttpResponse response = httpClient.execute(request)) {
                if (response.getStatusLine().getStatusCode() == 200) {
                    String jsonResponse = EntityUtils.toString(response.getEntity());
                    return new Gson().fromJson(jsonResponse, JsonObject.class);
                } else {
                    System.out.println("请求失败,状态码:" + response.getStatusLine().getStatusCode());
                    return null;
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

    public static void main(String[] args) {
        String keyword = "手机"; // 替换为实际关键词
        JsonObject productData = fetchShopeeProductList(keyword);
        if (productData != null) {
            System.out.println(productData.toString());
        }
    }
}
3. 解析JSON数据并提取商品信息

解析返回的JSON数据并提取商品信息:

java

import com.google.gson.Gson;
import com.google.gson.JsonArray;
import com.google.gson.JsonObject;

import java.util.ArrayList;
import java.util.List;

public class ShopeeCrawler {
    public static class Product {
        public String name;
        public double price;
        public int stock;
        public int sold;
        public String link;

        @Override
        public String toString() {
            return "Product{" +
                    "name='" + name + '\'' +
                    ", price=" + price +
                    ", stock=" + stock +
                    ", sold=" + sold +
                    ", link='" + link + '\'' +
                    '}';
        }
    }

    public static List<Product> parseProductList(JsonObject data) {
        List<Product> products = new ArrayList<>();
        JsonArray items = data.getAsJsonArray("items");

        for (int i = 0; i < items.size(); i++) {
            JsonObject item = items.get(i).getAsJsonObject();
            Product product = new Product();
            product.name = item.get("name").getAsString();
            product.price = item.get("price").getAsDouble() / 100000; // Shopee价格单位为分
            product.stock = item.get("stock").getAsInt();
            product.sold = item.get("sold").getAsInt();
            product.link = "https://shopee.tw/" + item.get("name").getAsString() + "-i." + item.get("shopid").getAsString() + "." + item.get("itemid").getAsString();
            products.add(product);
        }
        return products;
    }

    public static void main(String[] args) {
        String keyword = "手机"; // 替换为实际关键词
        JsonObject productData = fetchShopeeProductList(keyword);
        if (productData != null) {
            List<Product> productList = parseProductList(productData);
            for (Product product : productList) {
                System.out.println(product);
            }
        }
    }
}

三、解析步骤说明

  1. 发送HTTP请求
    使用HttpClient发送HTTP GET请求,获取Shopee API返回的JSON数据。

  2. 解析JSON数据
    使用Gson库将返回的JSON字符串解析为JsonObject

  3. 提取商品信息
    JsonObject中提取商品的名称、价格、库存、销量和链接等信息,并存储到自定义的Product类中。

  4. 保存或处理商品信息
    将提取的商品信息保存到CSV文件或进行进一步的处理。

四、注意事项

  1. 遵守法律法规
    在抓取数据时,请确保遵守相关法律法规,尊重数据的版权和隐私。

  2. 尊重网站规则
    遵循Shopee的robots.txt文件规定,合理设置请求频率,避免对服务器造成过大压力。

  3. 异常处理
    在实际开发中,建议添加异常处理机制,以应对网络请求失败、数据解析错误等情况。

  4. 反爬虫机制
    Shopee可能会有反爬虫机制,例如设置频率限制或验证码等。为了避免被封禁,建议使用代理IP、随机延时等方法。

五、总结

通过上述代码示例,我们可以轻松实现根据关键词获取Shopee商品列表的功能,并解析返回的商品信息。Java爬虫不仅具有强大的功能和稳定性,还可以通过丰富的库支持实现高效的数据抓取和解析。希望这篇文章能为你提供一些启发和帮助。如果你对爬虫开发有更多兴趣,可以尝试探索更复杂的功能,如多线程爬取、数据可视化等。

如果你在实践中遇到任何问题,欢迎随时交流和讨论。让我们一起用技术的力量,解锁更多可能!


http://www.kler.cn/a/592766.html

相关文章:

  • 深度解析扣减系统设计:从架构到实践
  • HAL库编程知识点---Can.c和Driver_can.c分层开发
  • 【论文阅读】Availability Attacks Create Shortcuts
  • Noe.js 原生 http 模块 vs Express 框架对比
  • c语言基础编程入门练习题
  • 蓝桥杯2023年第十四届省赛真题-子矩阵
  • 基于springboot医疗平台系统(源码+lw+部署文档+讲解),源码可白嫖!
  • 麒麟V10 arm cpu aarch64 下编译 RocketMQ-Client-CPP 2.2.0
  • Oracle 19c更换undo表空间操作步骤
  • TCP、UDP协议的应用、ServerSocket和Socket、DatagramSocket和DatagramPacket
  • 2025年PHP框架推荐及对比
  • 【HarmonyOS Next】鸿蒙应用实现弹框DialogHub详解
  • 标准 Git Commit 模板格式指南
  • 【第14节】windows sdk编程:进程与线程介绍
  • Java-泛型总结
  • 如何使用PHP爬虫根据关键词获取Shopee商品列表?
  • 两个docker app调用
  • 2025年2月AGI技术月评|重构创作边界:从视频生成革命到多模态生态的全面爆发
  • 【华为OD-E卷 - 求符合条件元组个数 100分(python、java、c++、js、c)】
  • Django初窥门径-Django REST Framework 基础使用