当前位置: 首页 > article >正文

ElasticSearch 入门需要了解的概念

引言:ElasticSearch 的定位与应用

ElasticSearch 是一个分布式搜索和分析引擎。想象它是一个超大的图书馆:

  • 可以快速找到任何书籍(搜索能力)
  • 可以统计各类书籍的数量(分析能力)
  • 可以随时添加新书架(可扩展性)
  • 即使某个书架损坏,其他书架的书仍然可读(高可用性)

主要应用场景:

  1. 网站搜索
  2. 日志分析
  3. 指标监控
  4. 业务数据分析

一、基础概念

1.1 索引(Index)

什么是索引?

把索引理解为一个数据库:

  • 传统数据库:Database → Table → Row → Column
  • ElasticSearch:Index → Type* → Document → Field
    (*注:Type 概念在新版本已弃用)
// 创建索引
PUT /books
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 1
  },
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "author": { "type": "keyword" },
      "publish_date": { "type": "date" }
    }
  }
}
索引命名规范:
  • 只能小写字母
  • 不能包含 , /, *, ?, ", <, >, |, (空格), , #
  • 不能以 -, _, + 开头
  • 不能是 . 或 …

1.2 文档(Document)

文档是索引中的一条记录,类似数据库中的一行数据。

// 添加文档
PUT /books/_doc/1
{
  "title": "ElasticSearch 入门指南",
  "author": "张三",
  "publish_date": "2024-01-01"
}

文档特点:

  • 使用 JSON 格式
  • 每个文档都有唯一的 _id
  • 文档字段可以动态添加

1.3 字段类型(Field Types)

常见数据类型:

{
  "mappings": {
    "properties": {
      "text_field": { "type": "text" },         // 全文搜索
      "keyword_field": { "type": "keyword" },   // 精确值
      "date_field": { "type": "date" },         // 日期
      "long_field": { "type": "long" },         // 长整型
      "double_field": { "type": "double" },     // 浮点型
      "boolean_field": { "type": "boolean" },   // 布尔值
      "object_field": { "type": "object" }      // 对象
    }
  }
}

二、集群相关概念

2.1 节点(Node)与集群(Cluster)

想象一个图书馆系统:

  • 集群 = 整个图书馆系统
  • 节点 = 单个图书馆分馆

节点类型:

# elasticsearch.yml 配置示例
node:
  name: node-1
  # 节点角色配置
  master: true    # 管理员
  data: true      # 图书管理员
  ingest: false   # 图书分类员

2.2 分片(Shard)与副本(Replica)

类比图书管理:

  • 分片 = 将书籍分散存放在不同书架
  • 副本 = 重要书籍的备份
// 设置分片和副本数
PUT /books
{
  "settings": {
    "number_of_shards": 3,    // 分成3个书架
    "number_of_replicas": 1   // 每个书架备份一份
  }
}

三、搜索相关概念

3.1 查询与过滤

两种查询上下文:

  1. Query Context:相关性评分(找最相关的书)
  2. Filter Context:是否匹配(找特定年份的书)
// 查询示例
GET /books/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "elasticsearch" }}  // Query Context
      ],
      "filter": [
        { "term": { "author": "张三" }},         // Filter Context
        { "range": { "publish_date": { "gte": "2024-01-01" }}}
      ]
    }
  }
}

3.2 分词和分析

分析器的组成:

  1. 字符过滤器:清理特殊字符
  2. 分词器:分割单词
  3. Token 过滤器:转换单词(如:大小写转换)
// 分析器示例
PUT /books
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": ["lowercase", "stop"]
        }
      }
    }
  }
}

四、基本操作示例

4.1 CRUD 操作

// 创建文档
POST /books/_doc
{
  "title": "ElasticSearch 实战",
  "author": "李四",
  "publish_date": "2024-02-01"
}

// 读取文档
GET /books/_doc/1

// 更新文档
POST /books/_update/1
{
  "doc": {
    "title": "ElasticSearch 实战(第二版)"
  }
}

// 删除文档
DELETE /books/_doc/1

4.2 简单查询

// 全文搜索
GET /books/_search
{
  "query": {
    "match": {
      "title": "elasticsearch 入门"
    }
  }
}

// 精确查询
GET /books/_search
{
  "query": {
    "term": {
      "author": "张三"
    }
  }
}

4.3 常用运维命令

# 查看集群健康状态
GET /_cluster/health

# 查看索引信息
GET /_cat/indices?v

# 查看节点信息
GET /_cat/nodes?v

五、常见误区和注意事项

  1. 分片数设置误区

    • ❌ 分片越多越好
    • ✅ 根据数据量合理设置,建议单个分片 20-50GB
  2. 字段类型选择

    • ❌ 所有文本都用 text 类型
    • ✅ 精确值匹配用 keyword 类型
  3. 映射设置

    • ❌ 依赖动态映射
    • ✅ 生产环境明确定义映射

六、概念关系图

Cluster
Node 1
Node 2
Index 1
Index 2
Primary Shard
Replica Shard
Document 1
Document 2

七、进阶学习建议

  1. 深入学习路径:

    • 掌握基本 CRUD 操作
    • 学习复杂查询和聚合
    • 理解分布式原理
    • 性能优化和运维
  2. 推荐资源:

    • 官方文档
    • ElasticStack 视频教程
    • 《ElasticSearch 实战》
    • Stack Overflow ES 标签

总结

ElasticSearch 的核心概念构成了一个层次分明的体系:

  • 集群由节点组成
  • 节点存储索引
  • 索引包含文档
  • 文档包含字段

理解这些基本概念是掌握 ElasticSearch 的基础。随着实践的深入,你会逐渐理解这些概念之间的关联和应用。


http://www.kler.cn/a/373058.html

相关文章:

  • 刘艳兵-DBA015-对于属于默认undo撤销表空间的数据文件的丢失,哪条语句是正确的?
  • 关于Android Studio Koala Feature Drop | 2024.1.2下载不了插件的解决办法
  • 华为配置 之 STP
  • Flutter常用三方库
  • Soanrquber集成Gitlab 之 gitlab用户配置和身份验证
  • Spring Boot 创建项目详细介绍
  • 【模型学习之路】手写+分析Transformer
  • 2024第二次随堂测验参考答案
  • 【C++】——高效构建与优化二叉搜索树
  • docker容器和宿主机端口映射
  • Linux 命令行学习:数据流控制、文本处理、文件管理与自动化脚本 (第二天)
  • Python Requests 的高级使用技巧:应对复杂 HTTP 请求场景
  • 《达梦》达梦数据库安装步骤(VMware16+麒麟 10+DM8)
  • 中小企业设备维护新策略:Spring Boot系统设计与实现
  • Tauri(一)——更适合 Web 开发人员的桌面应用开发解决方案 ✅
  • D365 FO开发参考
  • 应对市场变化与竞争对手挑战的策略
  • 分类算法——XGBoost 详解
  • Git 创建新的分支但清空提交记录
  • Linux 中,flock 对文件加锁
  • 智能听诊器:宠物健康监测的新纪元
  • [0260].第25节:锁的不同角度分类
  • 【简道云 -注册/登录安全分析报告】
  • 【STM32 Blue Pill编程实例】-I2C主从机通信(中断、DMA)
  • 1.STM32之定时器TIM---第一部分(基本定时器)(功能最强大结构最复杂的一个外设)(实验基本定时功能)-----定时器定时中断(利用内部时钟72M)
  • OpenCV视觉分析之目标跟踪(7)目标跟踪器类TrackerVit的使用