当前位置: 首页 > article >正文

Elastic Enterprise Search 8.7:新连接器、网络爬虫提取规则和搜索分析客户端测试版

作者:Casey Zumwalt, Aditya Tripathi

Elastic Enterprise Search 8.7 包含旨在改善内容摄取和搜索体验的功能。 在此版本中,MySQL 连接器添加了高级过滤功能,使你能够更有效地过滤和从 MySQL 数据库中提取大量数据。 Elastic Web Crawler 已升级为可自定义的内容提取,使你能够从网页中提取和索引特定信息,改进搜索结果并提供更好的搜索体验。 我们还显着扩展了我们的连接器列表,以包括流行的数据库,如 Postgres、Oracle 和 MS SQL,以及 GCP 和 Azure 上的云 blob 存储格式。

Elastic Enterprise Search 8.7 现已在 Elastic Cloud 上推出 —— 这是唯一一款包含最新版本所有新功能的托管 Elasticsearch 产品。 你还可以下载 Elastic Stack 和我们的云编排产品 Elastic Cloud Enterprise 和 Elastic Cloud for Kubernetes,以获得自我管理的体验。

Elastic 8.7 还有哪些新功能? 查看 8.7 公告帖子以了解更多 >>

连接器框架进入测试阶段

Elastic Enterprise Search 连接器框架最初在 8.4 中作为技术预览版引入,我们很高兴地宣布 Elastic Enterprise Search 连接器框架已在 8.7 中进入测试阶段。 连接器框架允许您使用 Python 等流行语言为任何自定义数据源设计和自定义连接器客户端。 基于此框架的连接器库在此版本中得到了显着扩展,支持流行的数据库,如 Postgres、Oracle 和 MS SQL,以及 GCP 和 Azure 上流行的云 blob 存储格式。

MySQL 连接器的同步规则

此新功能可对你的数据摄取过程进行精细控制,使你能够根据自己的特定需求定制搜索结果。 通过同步规则引入自定义过滤,MySQL 连接器现在可以根据特定条件包含或排除数据。 你可以在工作流中使用查询进行高级过滤,这样您就可以在编制索引之前执行复杂的远程数据转换。 这有可能显着减少网络传输大小,因为文档在源头进行了过滤,并使您在获取 MySQL 数据的方式上更加灵活。

Elastic Web Crawler 的内容提取和调度改进

Elastic Enterprise Search 8.7 对 Elastic Web Crawler 进行了多项激动人心的改进。 随着内容提取规则的引入,你可以使用 HTML 或 CSS 标记、正则表达式模式、URL 等更精确地从网页中提取内容。 支持提取和存储给定 URL 的完整 HTML 输出,使你在获取 Web 内容时更加灵活。 此外,此版本引入了对自定义爬网的编程调度的支持,允许你注册具有不同配置的多个调度以更好地满足你的需求。

引入内容提取规则

借助内容提取规则,你现在可以从 HTML 元素、CSS 类、正则表达式模式、URL 等中过滤和提取网页内容,从而更轻松地提取最重要的内容。 当你需要从吗无法完全访问底层 HTML 源的第三方工具或应用程序中提取 Web 内容时,此功能特别有用。 轻松提取你需要的数据,无论底层 Web 内容的复杂程度如何。

支持完整的 HTML 提取

Elastic Enterprise Search 8.7 还引入了对使用 Elastic Web Crawler 提取给定 URL 的完整 HTML 输出的支持。 此新功能允许你将 URL 的完整 HTML 输出存储在字段中。 当与 Elastic 的摄取管道结合使用时,此功能可为你提供近乎无限的自定义内容提取可能性。 通过使用 Elastic 的摄取管道进一步处理内容,你可以从网页中提取任何数据或信息,从而为你提供更大的灵活性和对你的 Web 内容的控制。

自定义爬网的编程调度

此版本中的另一个新功能是 Elastic Web Crawler 现在支持自定义抓取的编程调度。 此功能使你能够注册具有不同配置的多个计划,从而允许你覆盖爬虫的 “默认” 计划配置。 例如,你可以为不同的网站安排在不同的时间或间隔进行抓取,或者为内容经常变化的页面安排更频繁的抓取。

介绍网络和搜索分析客户端测试版

作为 8.7 中的全新功能,Web 和搜索分析客户端允许你使用 Elastic 通过网站、应用程序和搜索分析来捕获、分析和可视化用户行为,从而为搜索相关性优化和网站改进提供信息。

试试看

在发行说明中了解这些功能以及更多信息。

现有的 Elastic Cloud 客户可以直接从 Elastic Cloud 控制台访问其中的许多功能。 没有利用 Elastic on Cloud? 开始免费试用。

本博文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

原文:https://www.elastic.co/blog/whats-new-elastic-enterprise-search-8-7-0


http://www.kler.cn/news/10337.html

相关文章:

  • Golang数据类型比较
  • MongoDB
  • 使用 ArcGIS Pro 进行土地利用分类的机器学习和深度学习
  • SpringBoot常见的的面试点
  • ArrayList、LinkedList与Vector的区别?
  • 【自用】HTML笔记
  • VS Code 快捷键
  • 【C++11那些事儿(一)】
  • pandas读取Excel核心源码剖析,面向过程仿openpyxl源码实现Excel数据加载
  • 【RabbitMQ】
  • MATLAB算法实战应用案例精讲-【深度学习】多尺度特征融合(论文篇一)
  • Java知识点学习(第13天)
  • springboot零基础到项目实战
  • UI学习路线图2023完整版(适合自学)
  • 使用git log统计代码行数
  • 【K8S系列】深入解析无状态服务
  • 文件访问被拒绝?5个解决方法!
  • 云原生周刊:一文读懂 Pod 网络 | 2023.4.10
  • Jmeter接口测试和性能测试
  • 力扣刷题笔记26——最小的k个数/快速排序学习/快排与冒泡的时间复杂度
  • 信息与计算科学有哪些SCI期刊推荐? - 易智编译EaseEditing
  • 如何用nodejs构造一个网站爬虫
  • 傅盛“追风”GPT,猎户星空春天来了?
  • 【WebGIS实例】(7)MapboxGL绘制不同颜色的Symbol图标
  • 服务(第五篇)Nginx!!!
  • 2023年全国最新道路运输从业人员精选真题及答案48
  • 【Chatgpt4 教学】 NLP(自然语言处理)第十课NLP文本分类应用和卷积神经网络(CNN)
  • BFC理解和应用
  • 【Java EE】-多线程编程(十) HashMapHashTableConcurrentHashMap之间的区别
  • chapter-1数据管理技术的发展