当前位置: 首页 > article >正文

『大模型笔记』评估大型语言模型的指标:ELO评分,BLEU,困惑度和交叉熵介绍以及举例解释

评估大型语言模型的指标:ELO评分,BLEU,困惑度和交叉熵介绍以及举例解释

文章目录

  • 一. ELO Rating
    • 大模型的elo得分如何理解
      • 1. Elo评分的基本原理
      • 2. 示例说明
      • 3. 大模型中的Elo得分
      • 总结
    • 3个模型之间如何比较计算,给出示例进行解释
      • 1. 基本原理扩展到三方
      • 2. 示例计算
      • 第一场: A A A对战 B B B
      • 第二场: A A A对战 C C C
      • 第三场: B B B对战 C C C
      • 3. 最终 Elo 得分
      • 4. 总结
    • ELO评分的局限性
  • 二. BLEU (Bilingual Evaluation Understudy,双语评估替代)
      • **BLEU计算步骤概述**
      • **详细解释**
        • **1. n-gram匹配**
        • **2. 计算精确度(Precision)**
        • **3. 平均精确度(Precision Average)**
        • **4. 长度惩罚(Brevity Penalty, BP)**
        • **5. BLEU得分计算**
      • **示例**
      • **总结**
  • 三. 困惑度(Perplexity)
      • **困惑度(Perplexity)的详细解释**
      • **1. 困惑度的定义**
        • **公式中的符号解释**:
      • **2. 困惑度的直观理解**
      • **3. 计算困惑度的步骤**
      • **4. 困惑度的意义**
      • **5. 总结**
  • 四. 交叉熵(Cross Entropy)
      • **交叉熵(Cross Entropy)详细解释**
      • **1. 交叉熵的定义公式**
      • **2. 交叉熵的作用**
      • **3. 示例计算**
      • **4. 在语言模型中的应用**
      • **5. 优化目标:最小化交叉熵**
      • **6. 交叉熵与困惑度的关系**
      • **总结**
  • 三. 参考文献

  • ELO Rating, BLEU, Perplexity and Cross Entropy
  • ELO评分提供了一种动态和相对的LLM性能衡量标准,允许在模型进行训练和微调时进行持续评估和排名。聊天机器人领域使用ELO评分来促进LLM对战,并维护最有效模型的排行榜。

在这里插入图片描述

一. ELO Rating

大模型的elo得分如何理解

Elo得分是一个用于评估棋手或参与者相对能力的评分系统,最初由匈牙利裔美国人阿尔帕德·厄尔&#x


http://www.kler.cn/a/453353.html

相关文章:

  • 机器视觉检测相机基础知识 | 颜色 | 光源 | 镜头 | 分辨率 / 精度 / 公差
  • 网络工程师常用软件之PING测试工具
  • Spring基础分析14-用户认证与授权
  • Triple三倍
  • 汽车免拆诊断案例 | 2011 款奔驰 S400L HYBRID 车发动机故障灯异常点亮
  • springboot使用自定义的线程池 完成 多线程执行网络请求,返回数据后,统一返回给前段
  • 《CS2》提示mss32.dll丢失的根源与应对策略。《CS2》提示mss32.dll丢失是什么原因?mss32.dll丢失怎么办?
  • 包管理工具npm、yarn、pnpm、cnpm详解
  • 报表工具DevExpress Reporting v24.2亮点 - AI功能进一步强化
  • CTF MISC 简单的脚本的撰写 -- 进制转换篇
  • Git_撤销本地commit_查找仓库中大文件
  • 【ETCD】【实操篇(十七)】 etcd 集群定期维护指南
  • springai 简易聊天机器人设计
  • 矩阵碰一碰发视频源码技术解析,支持OEM
  • EXCEL使用宏实现筛选重复项并对该行进行填充内容的操作
  • 配置Beremiz,环境ubuntu:20.04
  • 【Python】基于界面库PyQt5+Qt Dsigner的环境配置和界面绘制
  • Three.js中调整相机视角的方式
  • 【conda】Ubuntu 24.04 安装CUDA 12.04
  • 【AIGC-ChatGPT进阶副业提示词】星际占卜师:探索星象能量的艺术【限时免费阅读,一天之后自动进入进阶课程】
  • js控制文字溢出显示省略号
  • Go快速开发框架2.6.0版本更新内容快速了解
  • Unity设置中文
  • MongoDB深度解析与实践案例
  • 解决PDF.js部署到IIS服务器上后报错mjs,.ftl 404 (Not Found)
  • 【Linux】编写简易shell 深度理解命令行解释器 环境变量 内建命令