当前位置: 首页 > article >正文

百度二面,MySQL 怎么做权重搜索?

考虑这样一个搜索需求,有一个 MySQL 表,表中很多个列存放着不同的内容,希望用户通过关键词进行搜索的时候,能够模糊匹配多个列,比如有 t1 列、t2 列、t3 列,同时还希望 t1 列的匹配权重最高,t3 列的匹配权重最低。简单说就是如果有一个关键词同时出现在记录 A 的 t1 列 和里记录 B 的 t2 列,那么记录 A 应该优先展示,排序是在前面的。

注意这里是 MySQL,不是 ES,搜索引擎做这种搜索需求当然得天独厚,但是这种在 MySQL 中进行权重搜索的需求也不是没有,业务初期数据量还不大的时候大概率不会考虑上 ES,这时候在 MySQL 中先简单跑通逻辑才是最重要的。

思考下该如何做?

模糊匹配

首先模糊匹配大家最常用的就是 like

SELECT * FROM test 
WHERE t1 LIKE '%标题%' 
 or t2 LIKE '%内容%' 
 or t3 LIKE '%注释%''

当只需要简单的模式匹配时 like 确实往往是更好的选择。而在需要进行复杂匹配,如同一字段中包含多个模式,进行分组匹配等,REGEXP 则表现更为突出,Mysql 支持对列的正则表达式方式查询,使用方式如下:

SELECT  * FROM test 
WHERE t1 regexp '标题'
 or t2 regexp '内容' 
 or t3 regexp '注释'

权重搜索

权重搜索涉及到几个 Mysql 函数。

  • LOCATE('标题', test.t1) : 查询 "标题" 在 test.t1 列出现的位置,0 表示未找到。否则返回 坐标位置,坐标位置从 1 开始。

  • IF( 表达式, 1, 0):判断表达式结果,TRUE 则返回 1,FALSE 则返回 0

下面我们来看如何基于这两个函数来实现文章开头的需求:

SELECT  *, ( 
    IF(LOCATE('标题',test.t1), 1, 0) 
     + IF(LOCATE('内容',test.t2) , 1, 0) 
     + IF(LOCATE('注释',test.t3) , 1, 0) 
 ) AS weight 
FROM test 
WHERE test.t1 regexp '标题'
 or test.t2 regexp '内容' 
 or test.t3 regexp '注释' 
order by weight desc 

上面的查询中,每个关键词的权重都是 1,所以,在这 t1\t2\t3 三列中,关键词出现次数最多的记录将出现在搜索结果的第一位。

如果权重增加,那么权重高的关键词将会影响排序规则。如下例子,将 t1 列的搜索权重改为 7:

SELECT  *, ( 
    IF(LOCATE('标题',test.t1), 7, 0) 
     + IF(LOCATE('内容',test.t2) , 2, 0) 
     + IF(LOCATE('注释',test.t3) , 1, 0) 
 ) AS weight 
FROM test 
WHERE test.t1 regexp '标题'
 or test.t2 regexp '内容' 
 or test.t3 regexp '注释' 
order by weight desc 

http://www.kler.cn/a/465044.html

相关文章:

  • WPS-JS宏快速上手
  • c-动态内存管理 (动态内存管理比较深入的分析和理解博客总结)
  • 大数据系列之:深入理解学习使用腾讯COS和COS Ranger权限体系解决方案,从hdfs同步数据到cos
  • Wend看源码-Java-fork/Join并行执行任务框架学习
  • 每日一学——监控工具(Grafana)
  • 【面试】后端开发面试中常见数据结构及应用场景、原理总结
  • SQL 中的 EXISTS
  • 开源自荐 - NoteGen 一款专注于记录和写作的跨端 AI 笔记
  • Web3的核心理念:去中心化如何改变互联网结构
  • Linux和ROS(Robot Operating System)在底层实现上的差异
  • 记一次 dockerfile 的循环依赖错误
  • 【three.js】场景搭建
  • [极客大挑战 2019]Secret File
  • 小程序组件 —— 22 组件案例 - 轮播区域绘制
  • Ansible Jinja2 语法简介及使用
  • Oracle 数据库使用SPM固定执行计划
  • 在Ubuntu系统中生成授信域名https证件文件
  • 利用Python爬虫获取店铺所有商品:技术实践与应用指南
  • Netty学习 - 编译Netty4.2
  • 【TextIn—智能文档解析与DocFlow票据AI自动化处理:赋能企业文档数字化管理与数据治理的双重利器】
  • C语言笔记之strnlen遇到第一个‘\0‘时会停止计数导致字符串被截断吗?
  • 基于嵌入式无人机UAV通信系统的实时最优资源分配算法matlab仿真
  • WPS计算机二级•数据快速录入
  • GeoTrust True BusinessID Wildcard
  • GO 快速升级Go版本
  • 【Python运维】用Python和Ansible实现高效的自动化服务器配置管理