当前位置: 首页 > article >正文

Rewar Model的输出(不包含训练)

这里写自定义目录标题

  • 介绍
  • 模型推理的输出过程方案
    • 原始Token输出
    • RM输出(回归任务)

介绍

奖励函数模型 (Reward Model) 是人工智能 (AI) 中的一种方法,模型因其对给定提示的响应而获得奖励或分数。现在的文章清一色的讲解RM的训练,但是没有讲解RM是如何输出一个分数的。本文只讲RM的输出,以补充资料的缺乏。RM通常采用Llama-7B模型,本文也沿用这一模型,同时模型的推理计算过程作为已知的知识,只讲解推理最后的输出部分。本文章先介绍传统Llama模型原始Token输出过程,再讲解RM的输出。以作为对比更好的学习。

模型推理的输出过程方案

  1. 原始Token输出

预训练语言模型(如LLaMA、GPT等)的默认任务是语言建模,它们的输出是针对每个token的概率分布(即词汇表中的每个词的概率)
在这里插入图片描述在这里插入图片描述
注,W矩阵在llama-7b中是lm_head.weight

  1. RM输出(回归任务)

写在前面:回归任务就不需要原始Token输出中的logits矩阵的计算(即图中H*W+B的部分)和softmax的计算。

  • 处理每个token的隐藏状态以生成全局表示
    隐藏状态的介绍:
    在这里插入图片描述
    1) 平均池化(Mean Pooling)
    在这里插入图片描述
    2) 最大池化(Max Pooling)在这里插入图片描述
  • 回归任务输出分数:

在这里插入图片描述


http://www.kler.cn/a/399617.html

相关文章:

  • 小程序-基于java+SpringBoot+Vue的驾校预约平台设计与实现
  • PostgreSQL序列:创建、管理与高效应用指南
  • 2.STM32之通信接口《精讲》之USART通信
  • uniapp自动注册机制:easycom
  • 论文解析:计算能力资源的可信共享:利益驱动的异构网络服务提供机制
  • Python学习笔记(2)正则表达式
  • <有毒?!> 诺顿检测:这篇 CSDN 文章有病毒
  • Gin 框架中的路由
  • PostgreSQL高可用Patroni安装(超详细)
  • datalist 是什么?以及作用是什么?
  • Android 判断当前是否亮灭屏状态或黑屏锁屏状态
  • 小白快速上手 labelme:新手图像标注详解教程
  • 集群聊天服务器(3)muduo网络库
  • 编译sddm 0.18.1 依赖
  • 图像分类之花卉识别实验验证
  • LeetCode59. 螺旋矩阵 II
  • 交换排序——快速排序
  • 网络基础Linux
  • Spring MVC 与 JSP 数据传输
  • Prompt Engineering Guide
  • 理解和选择Vue的组件风格:组合式API与选项式API详解
  • STM32单片机设计防儿童人员误锁/滞留车内警报系统
  • vue项目中使footer始终保持底部的几种实现方法
  • 2024年11月16日 星期六 重新整理Go技术
  • Python_爬虫1_Requests库入门
  • STM32设计电流与温度监控python上位机监控平台设计