当前位置：首页 > article >正文

Java爬虫获取速卖通（AliExpress）商品详情

article 2025/2/28 15:33:59

1. 环境准备

在开始编写爬虫之前，需要准备以下环境和工具：

Java开发环境：确保你的计算机上安装了Java开发工具包（JDK）。
IDE：选择一个Java集成开发环境，如IntelliJ IDEA、Eclipse等。

第三方库：为了简化HTTP请求和HTML解析，我们将使用Apache HttpClient和Jsoup库。在你的项目中添加Jsoup和HttpClient的依赖。如果你使用的是Maven，可以在 pom.xml 文件中添加以下依赖：

<dependencies>
  <dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
  </dependency>
  <dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.13</version>
  </dependency>
</dependencies>

2. 分析速卖通商品页面

使用浏览器的开发者工具（如Chrome的Inspect功能）来查看网页的HTML结构，确定商品详情数据在HTML中的位置和格式。这一步是至关重要的，因为页面结构的变化将直接影响爬虫的解析逻辑。

3. 编写爬虫代码

以下是一个简单的Java爬虫程序，用于获取速卖通商品的详细信息：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class AliExpressCrawler {
    public static void main(String[] args) {
        String productUrl = "https://www.aliexpress.com/item/your-product-link.html";
        try {
            String html = sendGetRequest(productUrl);
            Document doc = Jsoup.parse(html);
            Elements productInfo = doc.select("div.product-info");
            for (Element info : productInfo) {
                String name = info.select("h1").text();
                String price = info.select("span.price").text();
                System.out.println("Product Name: " + name);
                System.out.println("Price: " + price);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public static String sendGetRequest(String url) {
        CloseableHttpClient httpClient = HttpClients.createDefault();
        HttpGet httpGet = new HttpGet(url);
        try {
            return EntityUtils.toString(httpClient.execute(httpGet).getEntity());
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                httpClient.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return null;
    }
}