当前位置：首页 > article >正文

【Elasticsearch】管道聚合

article 2025/2/11 13:45:06

管道聚合就是在已有聚合结果之上在进行聚合，管道聚合是针对于聚合的聚合

在 Elasticsearch 中，管道聚合（Pipeline Aggregations）是一种特殊的聚合类型，用于对其他聚合的结果进行进一步的计算和处理，而不是直接从文档集合中提取数据。管道聚合可以基于其他聚合的输出来生成新的聚合结果，从而实现更复杂的数据分析。
管道聚合的主要特点

1. 基于其他聚合的输出：

• 管道聚合不直接处理文档数据，而是对其他聚合的结果进行计算。

• 例如，计算某个聚合结果的导数、移动平均值、最大值等。

2. 链式调用：

• 管道聚合可以链式调用，即一个管道聚合的结果可以作为另一个管道聚合的输入。

• 例如，计算二阶导数（即导数的导数）。

3. 灵活的引用：

• 使用`buckets_path`参数来引用其他聚合的结果。

• 可以引用嵌套聚合的结果，也可以引用同级聚合的结果。

4. 不能有子聚合：

• 管道聚合本身不能包含子聚合，但可以通过引用其他聚合的结果来实现类似的功能。

管道聚合的类型
Elasticsearch 提供了多种类型的管道聚合，每种类型用于不同的计算场景。以下是一些常见的管道聚合类型：

1.导数聚合（Derivative）
计算某个聚合结果的变化率。例如，计算销售额的每日变化率。

```json
{
"aggs": {
"sales_per_day": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"total_sales": {
"sum": {
"field": "sales"
}
},
"sales_derivative": {
"derivative": {
"buckets_path": "total_sales"
}
}
}
}
}
}
```

2.移动平均聚合（Moving Average）
计算某个聚合结果的移动平均值。例如，计算7天的移动平均销售额。

```json
{
"aggs": {
"sales_per_day": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"total_sales": {
"sum": {
"field": "sales"
}
},
"moving_avg_sales": {
"moving_avg": {
"buckets_path": "total_sales",
"window": 7
}
}
}
}
}
}
```

3.累计和聚合（Cumulative Sum）
计算某个聚合结果的累计和。例如，计算销售额的累计和。

```json
{
"aggs": {
"sales_per_day": {
"date_histogram": {
"field": "timestamp",
"calendar_interval": "day"
},
"aggs": {
"total_sales": {
"sum": {
"field": "sales"
}
},
"cumulative_sales": {
"cumulative_sum": {
"buckets_path": "total_sales"
}
}
}
}
}
}
```

4.桶脚本聚合（Bucket Script）
基于多个聚合结果进行自定义计算。例如，计算 T 恤销售额占总销售额的百分比。

```json
{
"aggs": {
"sales_per_month": {
"date_histogram": {
"field": "order_date",
"calendar_interval": "month"
},
"aggs": {
"total_sales": {
"sum": {
"field": "sales"
}
},
"tshirt_sales_sum": {
"sum": {
"field": "tshirt_sales"
}
},
"tshirt_sales_percentage": {
"bucket_script": {
"buckets_path": {
"total": "total_sales",
"tshirt": "tshirt_sales_sum"
},
"script": "params.total > 0 ? (params.tshirt / params.total * 100) : 0"
}
}
}
}
}
}
```

5.最大桶聚合（Max Bucket）
从兄弟聚合中选择最大值。例如，计算每月最大销售额。

```json
{
"aggs": {
"sales_per_month": {
"date_histogram": {
"field": "date",
"calendar_interval": "month"
},
"aggs": {
"sales": {
"sum": {
"field": "price"
}
}
}
},
"max_monthly_sales": {
"max_bucket": {
"buckets_path": "sales_per_month>sales"
}
}
}
}
```