当前位置: 首页 > article >正文

【王树森搜素引擎技术】概要03:搜索引擎的评价指标

搜索引擎的评价指标

  • 北极星指标:用户规模,留存率。单个策略不容易提升规模的和留存
  • 中间指标:用户的点击等行为,反应搜索质量的好坏。做A/B测试,中间指标很容易显著
  • 人工体验评估:人工评估搜索体验,考察GSB,GCG等指标

用户规模

  • 日活用户数(DAU)
  • 搜索日活,推荐日活
  • 搜索渗透率 = Search DAU / DAU。搜索体验越好,用户越喜欢用搜索功能,则搜索渗透率越高
  • 提升搜索日活,搜索渗透率的方法:搜索的体验优化,可以提升搜索留存,从而提升搜索日活。产品设计的改动,从推荐等渠道向搜索导流,提升搜索渗透率,从而提升搜索日活
    在这里插入图片描述

用户留存

  • APP的次七日留存
    在这里插入图片描述
  • 常用的留存指标:次1留,次7留,次30留
    在这里插入图片描述

中间指标:点击等行为

  • 文档点击率:搜索结果页上,文档被用户看到,算作曝光。文档点击率 = 总点击次数 / 总曝光数
  • 有点比(查询词点击率):搜索结果页上,用户点击任意一篇文档,则本次搜索算有点击。有点比 = 有点击的搜索次数 / 总搜索次数
  • 首屏有点比:点击发生在首屏,本次搜索算有点击。
  • 它们的关联很强,一个指标提升通常其他两个也会提升
  • 平均首点位置:一次搜索后,记录第一次点击发生的位置
  • 如果没有点击,或者首点位置大于阈值 x,则首点位置取 x。对所有搜索的首点位置取平均
  • 平均首点位置小,说明符合用户需求的文档排名靠前,用户体验好,和首屏有点比是一个道理
  • 三个中间指标和留存指标的关联性很强
  • 主动换词率:如果用户搜到需要的文档,通常不会换查询词
    在这里插入图片描述
  • 一定时间间隔内,搜到的两个查询词相似:比如编辑距离小,则被认定为换词
  • 被动换词:比如用户点击搜索引擎给出的修改建议,说明效果好
  • 主动换词:原因是没有找到想要的结果,说明效果不好

交互指标

  • 用户点击文档进入详情页,可能会点赞,收藏,转发,关注,评论
  • 交互通常表明用户对文档非常感兴趣(强度大于点击),因此可以作为中间指标
  • 交互行为稀疏(每百次点击,只有10次点赞,2次收藏),单个交互率波动很大,而且在A/B测试中不容易显著
  • 取各种交互率的加权和作为总体交互指标,权重取决于交互率与留存的关联强弱

中间目标 -> 留存目标

  • 体验优化的策略往往会同时改善多种中间指标:有点比,首屏有点比,平均首点位置,主动换词率,交互指标
  • 单个体验优化的策略很难在短期内显著提升留存指标。(通常微弱上涨,不具有统计显著性)
  • 上述中间指标与留存有很强的关联,长期持续改善中间指标,留存指标会稳定上涨

人工体验评估

  • Side by Side 评估:随机搜一批搜索日治,取其中的搜索词,用户画像,场景。运行新旧两种策略,得到两个搜索结果页(文档列表)
  • 固定查询词,用户,场景,搜索结果的差异只来自于策略
  • 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
  • 对于一条查询词,人工评估两个列表,分别对应新就策略
  • 基于查询词,用户画像,搜索场景,判断卷左右两个列表谁更好
  • 盲评,即新就策略出现在左右的概率都是50%
  • 不是判断哪篇文档更好,而是判断哪个列表整体更好
  • 使用GSB作为评价指标:如果新策略更优,记作Good(G),如果持平记作Same(S),如果旧策略更优,记作Bad(B),例如评300条查询词,GSB为 50: 220: 30
    在这里插入图片描述
  • 月度评估:每个月随机抽取一批搜索日志,每条搜索日志包含查询词 q,用户u,场景c,排名前k的文档 d 1 , ⋅ ⋅ ⋅ , d k d_1, ···, d_k d1,⋅⋅⋅,dk
  • 随机抽样搜索日志时,需要覆盖高频,中频,低频查询词
  • 文档数量 k 取决于平均下滑深度,比如 k = 20
  • 标注员评估每一篇文档,打分 s c o r e ( q . u , c , d i ) score(q. u, c, d_i) score(q.u,c,di),可以单独给相关性,内容质量,或时效性打分
  • 可以只打一个综合满意度分数
  • 用DCG评价每一次搜索的好坏
    在这里插入图片描述
  • 对所有的搜索日志,取DCG的均值,作为月度评估的结果
    • 可以与自我对比,是否由于往期的DCG
    • 可以与竞对对比,是否优于竞对的DCG

总结

北极星指标:用户规模 & 留存

  • 用户规模:APP的总体DAU,搜索的DAU
  • 搜索渗透率:(搜索DAU/APP DAU)
  • 用户留存:次1留,次7留等。LT7, LT30。APP总体的留存,搜索自身的留存
  • 规模和留存指标未必适合评价单个策略:单个策略很显著提升规模和留存
  • 规模和留存指标需要很长时间才能显著
  • 规模和留存更适合作为大盘长期指标观察:评估整个团队的长期表现。长期优化搜索体验,规模和留存会稳步提升,反映在A/B测试的holdout桶上

中间指标:用户的点击等行为

  • 与规模与留存强关联。容易在A/B测试中显著

人工评估

  • Side by Side评价过于主观,评估标准未必与普通用户体验一致
  • 结果噪声大,稳定性不如A/B测试
  • 速度慢于A/B测试,影响开发迭代效率
  • 人工成本比较贵
  • 个性化比较难处理,仅凭用户画像难以判断用户真实需求
  • Side by Side 和月度评估的区别:目的不同,前者决策策略是否推全,后者判断搜索团队整体水平
  • 指标不同:前者是GSB, 后者是 DCG
  • 有无争议:前者争议较大,后者没有缺点和争议

http://www.kler.cn/a/513963.html

相关文章:

  • Element中为什么不使用prop重置无法生效
  • React 表单处理与网络请求封装详解[特殊字符][特殊字符]
  • EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成
  • Bash语言的函数实现
  • jvm_threads_live_threads 和 jvm_threads_states_threads 这两个指标之间存在一定的关系,但它们关注的维度不同
  • OpenCV相机标定与3D重建(63)校正图像的畸变函数undistort()的使用
  • 【ESP32】ESP32连接JY61P并通过WIFI发送给电脑
  • 软件测试 —— Postman(全局变量和环境变量,请求前置脚本,关联)
  • android studio 工具.gradle目录修改
  • 【Go语言圣经】第三节:基础数据类型
  • No. 34 笔记 | Python知识架构与数据类型相关内容 | 实操
  • postgresql清理wal日志
  • k8s的CICD实施项目
  • 基于微信小程序的民宿预订管理系统
  • map和set的使用(一)详解
  • K8s UI工具 Kuboard 安装
  • Mysql视图(学习自用)
  • 记一次 .NET某数字化协同管理系统 内存暴涨分析
  • Day 14 卡玛笔记
  • Java设计模式 十一 外观模式 (Facade Pattern)
  • django使用踩坑经历
  • springboot基于前后端分离的摄影知识网站
  • 新书速览|算法竞赛入门笔记
  • 吴恩达深度学习——建立逻辑回归分类器识别猫
  • html简单项目案例
  • 私有IP、VLAN和VPC,分别适合哪些场景你知道吗?