当前位置: 首页 > article >正文

2.4 自动化评测答疑机器人的表现-大模型ACP模拟题-真题

真题

真题1:哪些是生成阶段的评估指标?哪些是召回阶段的评估指标?
  • 整体回答质量的评估:
    • Answer Correctness,用于评估 RAG 应用生成答案的准确度。
  • 生成环节的评估:
    • Answer Relevancy,用于评估 RAG 应用生成的答案是否与问题相关。
    • Faithfulness,用于评估 RAG 应用生成的答案和检索到的参考资料的事实一致性。
  • 召回阶段的评估:
    • Context Precision,用于评估 contexts 中与准确答案相关的条目是否排名靠前、占比高(信噪比)。
    • Context Recall,用于评估有多少相关参考资料被检索到,越高的得分意味着更少的相关参考资料被遗漏。

单选题

  1. Answer Correctness 指标综合了以下哪两个维度的评估?
    A. 语义相似度和生成速度
    B. 事实准确度和上下文相关性
    C. 语义相似度和事实准确度
    D. 上下文召回率和生成流畅度
    答案:C
  2. Faithfulness 指标主要评估生成答案的哪一特性?
    A. 与问题的相关性
    B. 与检索资料的事实一致性
    C. 生成文本的语法正确性
    D. 答案的简洁性
    答案:B
  3. Context Recall 的核心目标是?
    A. 提高检索文本的排名
    B. 确保所有相关参考资料被检索到
    C. 优化生成答案的语义相似度
    D. 减少生成答案的冗余信息
    答案:B
  4. 以下哪项措施最可能提升 Context Recall?
    A. 调整生成模型的温度参数
    B. 补充知识库中缺失的相关内容
    C. 对生成答案进行人工校验
    D. 使用更短的查询语句
    答案:B
  5. 若 Context Precision 得分低,以下哪种方法最有效?
    A. 增加检索的文本段数量
    B. 引入重排序(Rerank)机制
    C. 降低生成模型的温度参数
    D. 扩充知识库的无关内容
    答案:B
  6. Answer Relevancy 指标关注的是生成答案的哪方面?
    A. 与问题的相关性
    B. 与检索资料的一致性
    C. 生成文本的长度
    D. 答案的多样性
    答案:A
  7. 在 Ragas 中,事实准确度的计算依赖于什么方法?
    A. 直接比较文本字符串
    B. 通过大模型生成观点列表并对比
    C. 计算文本的词频相似度
    D. 使用预定义的规则模板
    答案:B
  8. 若 Answer Correctness 低但 Context Recall 高,可能的问题出现在?
    A. 检索阶段
    B. 生成阶段
    C. 知识库内容不足
    D. 查询改写失败
    答案:B
  9. 语义相似度的计算通常使用以下哪种方法?
    A. 欧氏距离
    B. 余弦相似度
    C. 曼哈顿距离
    D. Jaccard 相似度
    答案:B
  10. 以下哪项是召回阶段的评估指标?
    A. Answer Relevancy
    B. Context Precision
    C. Faithfulness
    D. Answer Correctness
    答案:B

多选题

  1. 生成阶段的评估指标包括哪些?(多选)
    A. Answer Relevancy
    B. Faithfulness
    C. Context Precision
    D. Context Recall
    答案:A, B
  2. 召回阶段的评估指标包括哪些?(多选)
    A. Context Precision
    B. Context Recall
    C. Answer Correctness
    D. Faithfulness
    答案:A, B
  3. 以下哪些方法可能提升 Context Recall?(多选)
    A. 补充知识库内容
    B. 更换更优的 Embedding 模型
    C. 对查询进行改写
    D. 增加重排序机制
    答案:A, B, C
  4. 影响 Answer Correctness 的因素包括哪些?(多选)
    A. 语义相似度
    B. 事实准确度
    C. 检索文本的排名
    D. 知识库的完备性
    答案:A, B
  5. 若 Context Precision 低,可能采取的措施有哪些?(多选)
    A. 引入重排序模型
    B. 优化查询语句
    C. 增加生成答案的长度
    D. 更换 Embedding 模型
    答案:A, B, D
  6. Faithfulness 指标的评估需要对比哪些内容?(多选)
    A. 生成答案与问题
    B. 生成答案与检索资料
    C. 生成答案与知识库
    D. 生成答案与人工标注答案
    答案:B, C
  7. 以下哪些是 Ragas 的评估指标?(多选)
    A. Answer Relevancy
    B. Context Precision
    C. Generation Speed
    D. Context Recall
    答案:A, B, D
  8. 在优化 RAG 系统时,若 Answer Correctness 低但 Context Recall 高,可能需要?(多选)
    A. 调整生成模型的 Prompt
    B. 降低生成模型的温度参数
    C. 补充知识库内容
    D. 更换更强大的生成模型
    答案:A, B, D
  9. 以下哪些技术可能用于提升 Context Precision?(多选)
    A. 查询改写
    B. 重排序(Rerank)
    C. 增加检索文本数量
    D. 优化 Embedding 模型
    答案:A, B, D
  10. Ragas 中的语义相似度计算可能涉及哪些步骤?(多选)
    A. 文本向量化
    B. 余弦相似度计算
    C. 观点列表生成
    D. 事实准确度对比
    答案:A, B

原文链接

aliyun_acp_learning/大模型ACP认证教程/p2_构造大模型问答系统/2_4_自动化评测答疑机器人的表现.ipynb at main · AlibabaCloudDocs/aliyun_acp_learning · GitHub


http://www.kler.cn/a/564695.html

相关文章:

  • 日志分析集群安装部署(ELK) 保姆级教程
  • LLVM - 编译器前端 - 将源文件转换为抽象语法树
  • 大中型虚拟化园区网络设计
  • IDEA入门及常用快捷键
  • 【02】Cocos游戏开发引擎从0开发一款游戏-cocos项目目录结构熟悉-调试运行项目-最重要的assets资源文件认识-场景sense了解-优雅草卓伊凡
  • 3DM转换成STL
  • 解决npm run dev报错
  • JavaScript 作用域与作用域链深度解析
  • 服务器为什么会禁止 Ping?服务器禁止 Ping 的好处
  • nz-upload 手动上传 PDF预览
  • DeepSeek R1 + 飞书机器人实现AI智能助手
  • Linux中子线程会继承父线程对相关变量的可见性
  • docker-compose部署onlyoffice8.3.0并支持ssl,且支持通过nginx代理,关闭JWT配置
  • 【MySQL学习】关系数据库标准语言SQL
  • SC95F8767的学习——新工程的建立
  • WPF学习之Prism(二)
  • 11特殊函数
  • 【数据结构】二叉树(门槛极低的系统理解)
  • Apache Flink:实时数据流处理的终极武器
  • 关于家用 电视盒子[机顶盒] 的捣鼓日志 2025/2/27