当前位置: 首页 > article >正文

ERC论文阅读(01)--BiosERC论文阅读笔记

BiosERC论文阅读笔记

论文中心思想

这篇论文是研究ERC任务的论文,作者提出了微调LLM和训练了自己的基于bert的预训练模型。中心思想是将对话中说话者的性格特征注入模型中,实验证明了其思想的有效性,在常用的数据集MELD、iemocap、emoryNLP上取得了SOTA的效果。

微调LLM

其中微调LLM的部分首先利用Llama-2-70b-chat-hf生成对话中每个说话者的说话者描述(作为说话者性格信息),然后用提示工程、指令微调的技术对Llama-2-7b-hf进行微调,生成话语情绪标签。

基于bert的预训练模型

预训练模型部分作者在论文中指出了模型分为话语向量表示、上下文建模和分类三个部分。然后在上下文建模部分融入了说话者性格信息。这部分作者没有提供代码,我看了论文对于具体如何实现还是不明白,等过一个星期我多看几篇类似论文看看有没有思路,再来补充。

实验效果

基于LLM微调的方法在EmoryNLP和MELD数据集上面都取得了最好的效果,在IEMOCAP数据集上仅次于目前最好的instructERC,并且效果差距很小。

代码复现

作者提供的代码只有微调大语言模型的部分,这部分代码我是在租的GPU上面跑的,配置是租的GPU默认的配置。代码就在base环境中跑,python=3.12.3 torch=2.3.0+cu121 nvcc-V=12.1 这些包都是环境自带的,我没有创建虚拟环境(主要是因为之前创建虚拟环境报了好多错,各种各样的错误,遂放弃创建虚拟环境)所以这里没有按照作者说的python3.9来,但是也可以跑通,目前没有什么问题。然后模型由于国内不能直接用API调用到huggingface的模型,我都是使用下到本地加载的方式,由于显存等的限制,我在抽取说话者特征的时候用的是Llama-2-7b-chat-hf。等之后再debug几遍代码然后考虑升级一下配置再尝试用70b的Llama-2。

其他

笔记都是本人的个人意见和想法,仅供参考,如果您有任何建议也非常欢迎留言指出~
2024-10-21
的的


http://www.kler.cn/news/360060.html

相关文章:

  • 数据结构(8.3_2)——快速排序
  • 校园周边美食探索及分享平台的设计与实现(论文+源码)_kaic
  • 数控机械制造工厂ERP适用范围有哪些
  • STM32-Modbus协议(一文通)
  • ​通过‌组策略编辑器关闭​
  • 计算机毕业设计 基于 Python的考研学习系统的设计与实现 Python毕业设计选题 前后端分离 附源码 讲解 文档
  • Python基础和理论学习
  • IP池与代理池的区别
  • 三品PLM系统解决方案赋能航空制造企业 研发管理升级赢得市场主动
  • 配置nginx服务通过ip访问多网站
  • CISP/NISP二级练习题-第一卷
  • 《逆行人生》观后感
  • 查看台架上已安装的DDH、DE等RPM包
  • Anomalib 1.x 系列之四:输入切片(tiling)
  • WPF 绑定的几种方法详解
  • 软考24.10.15每日一练打卡 - 错题笔记
  • R数据科学1.7练习题
  • 基于SpringBoot的宠物领养系统的设计与实现
  • 【4.10】图搜索算法-BFS和DFS解电话号码的字母组合
  • 鸿蒙网络编程系列25-TCP回声服务器的实现