当前位置: 首页 > article >正文

RLHF(带有人类反馈的强化学习)初探

我的目标是,在决策游戏上学习某人风格,可以让人对战“带有某人风格”的AI,比如你可以在这里对战“sky风格的AI”,这样的效果。

我最开始受到的启发来源于xbox的广告《爸爸的幽灵车》,已故人在游戏中留下的速度记录的固定轨迹。

万般皆是命。感谢这个时代,我如果2020年底那次考研成功了,可能就等不到LLM在2023年的爆发出现,就等不到2024的RLHF的概念的炒热,如果没有我导师的再三问我想做什么题目我也难以转到这个题目上来。

以上于2024-01-14 21:30:01


下图左侧是 监督学习(数据+loss+模型),右侧是强化学习(环境+回报+agent)

RLHF这方面现在在大语言模型LLM中用的比较多,因为文字易于获取,RHLF作为文字的微调手段更加易于操作,就像聊天和打分一样就完成了。

大模型 | 通俗理解RLHF基础知识以及完整流程_大模型rlhf-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/m0_59614665/article/details/141313659

RLHF(人类反馈强化学习)是什么? - 知乎 (zhihu.com)icon-default.png?t=N7T8https://www.zhihu.com/question/644676855/answer/3399879430

RLHF在agent智能体操作上的资料相对LLM来说是极少的,我就找到几篇相关的论文与代码:

opendilab/awesome-RLHF: A curated list of reinforcement learning with human feedback resources (continually updated) (github.com)icon-default.png?t=N7T8https://github.com/opendilab/awesome-RLHF陈传玺.基于RLHF策略的无人车个性化决策控制研究[D].华东交通大学,2023.

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces

还有一点,RLHF提及最多的是PPO算法,需要研究一下

在深入研究和思考后发现,现有的比较接近的解决方案是【强化学习中的“模仿学习”】,但是这需要大量的对战数据。

其次,对战数据是死的。比如用相同的策略“过同一个迷宫”是可以的,但如何在双方都有决策,对双方来说都是“动态迷宫” 的环境,就完全不一样了。

还有,怎么样才叫“拥有某人的操作风格”?这个很难去在复杂的RTS游戏中界定,不像赛车游戏那样有限的操作空间——后来我想到了“策略的提取”,这样能体现一个人的相关思想(比如让某个人年轻时的思维来处理现在的问题,与当下的新思维碰同一个问题,一定很有趣。)

我感觉大数据推荐算法的“同一类人”的方法是十分有效的,这个可否在同一局游戏中找到频繁前后相似的地方来进行数据挖掘?

我又想过过去听说过的“心智模式”,人生道路就是这个处事方式决定的,这种成功学论调难以检验,但放到了计算机中,我现在有了“智能体agnet”作为试验的实体,这些猜想就都可以被证明或证伪了!一些概念对应到“心智模式——模型”,“每次都得到这样结果的心智模式——固定的道路”,实体对应就像遗传因子对应到了DNA上那样找到了实体……

……最后,我一直纠结的是最后的硕士成果应该落实到什么上面,是一个软件?是一个更好的方法?还是一个结论?这个我想不清楚。


http://www.kler.cn/news/289526.html

相关文章:

  • 科研绘图系列:python语言制标准差的直方图(STD histogram plot)
  • 模拟登录页,华为账号一键登录
  • Charles抓包全流程(Mac端+iOS端)
  • SpringBoot学习(3)Redis使用
  • blender中获取虚拟相机渲染图片上每像素对应的纹理上的像素值
  • C_深入理解指针(四) —— 回调函数、qsort使用举例、qsort函数的模拟实现
  • idea问题解决:java: -source 7 中不支持 方法引用 (请使用 -source 8 或更高版本以启用 方法引用)
  • zhidianyun01/基于 ThinkPHP+Mysql 灵活用工+灵活用工源码+灵活用工平台源码
  • EF框架中的修改
  • 利用Spring Boot实现服务降级与熔断机制
  • Spring MVC中的DispatcherServlet:核心调度者
  • 行为型设计模式-备忘录(memento)模式
  • Shell编程基础知识
  • Trm理论 2(Word2Vec)
  • 如何通过k8s来降低运营成本?
  • cuda编程[5]:矩阵乘法--使用静态共享内存优化
  • C/C++语言基础--函数基础(函数定义、调用、生命周期、递归)
  • Linux服务器CPU和IO的监控利器-iostat简介
  • 【重学 MySQL】一、数据库概述
  • 一个好用的Maven依赖冲突解决插件:Maven Helper
  • Flask wtforms组件的作用
  • 【无人机设计与控制】使用 SimMechanics 在 Simulink 中仿真四旋翼飞行器
  • 认识git和git的基本使用,本地仓库,远程仓库和克隆远程仓库
  • 【WPF中的图形(Shape)】
  • 高端控制台使用过程中如何保证用电安全
  • 分类预测|基于蜣螂优化极限梯度提升决策树的数据分类预测Matlab程序DBO-Xgboost 多特征输入单输出 含基础模型
  • vue2———组件
  • 华为云征文|部署RedisStack+可视化操作
  • Echarts可视化
  • 网络通信特刊合集(二)——CMC特刊推荐