RLHF中,人类反馈数据格式是什么样的?
引言
在RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)中,收集人类反馈数据的过程对于训练奖励模型(Reward Model)至关重要。为了有效地训练奖励模型,需要精心设计和组织人类反馈数据的格式。以下是对这些数据格式的详细介绍:
一.总体数据结构
在人类反馈数据集中,每条数据通常包含以下主要部分:
- 提示(Prompt):模型输入的文本,可能是一个问题、指令或对话上下文。
- 模型生成的回复(Responses):针对提示,模型生成的一个或多个候选回复。
- 人类反馈(Human Feedback):人类评估者对模型生成的回复的偏好信息,可能是比较、排序或评分等形式。
- 元数据(Metadata):附加信息,如评估者ID、时间戳、评估环境等。
二.具体的数据格式
根据具体的反馈形式,数据格式可能有所不同。下面分别介绍常见的几种反馈形式的数据格式。
2.1 成对比较(Pairwise Comparison)
概述: 人类评估者在两个模型生成的回复中,选择一个更好的。
数据格式:
json
{
"prompt": "解释光合作用的过程。",
"response_1": "光合作用是植物将阳光转化为能量的过程。",
"response_2": "植物通过光合作用,将阳光、二氧化碳和水转化为葡萄糖和氧气。",
"preferred_response": "response_2",
"annotator_id": "annotator_123",
"timestamp": "2024-10-12T08:30:00Z"
}
解释:
- prompt:模型的输入提示。
- response_1 和 response_2:模型生成的两个候选回复。
- preferred_response:评估者偏好的回复的标识。
- annotator_id:评估者的身份标识。
- timestamp:评估时间。
2. 2 多项排序(Ranking)
概述: 人类评估者对多个回复进行排序,从最优到最差。
数据格式:
json
{
"prompt": "描述水的循环过程。",
"responses": [
{
"id": "resp_1",
"text": "水循环是指水在地球上的循环运动。"
},
{
"id": "resp_2",
"text": "水通过蒸发、凝结和降水的过程在地球上循环。"
},
{
"id":