当前位置：首页 > article >正文

ERC论文阅读(01)--BiosERC论文阅读笔记

article 2024/10/22 11:10:06

BiosERC论文阅读笔记

论文中心思想

这篇论文是研究ERC任务的论文，作者提出了微调LLM和训练了自己的基于bert的预训练模型。中心思想是将对话中说话者的性格特征注入模型中，实验证明了其思想的有效性，在常用的数据集MELD、iemocap、emoryNLP上取得了SOTA的效果。

微调LLM

其中微调LLM的部分首先利用Llama-2-70b-chat-hf生成对话中每个说话者的说话者描述(作为说话者性格信息)，然后用提示工程、指令微调的技术对Llama-2-7b-hf进行微调，生成话语情绪标签。

基于bert的预训练模型

预训练模型部分作者在论文中指出了模型分为话语向量表示、上下文建模和分类三个部分。然后在上下文建模部分融入了说话者性格信息。这部分作者没有提供代码，我看了论文对于具体如何实现还是不明白，等过一个星期我多看几篇类似论文看看有没有思路，再来补充。

实验效果

基于LLM微调的方法在EmoryNLP和MELD数据集上面都取得了最好的效果，在IEMOCAP数据集上仅次于目前最好的instructERC，并且效果差距很小。

代码复现

作者提供的代码只有微调大语言模型的部分，这部分代码我是在租的GPU上面跑的，配置是租的GPU默认的配置。代码就在base环境中跑，python=3.12.3 torch=2.3.0+cu121 nvcc-V=12.1 这些包都是环境自带的，我没有创建虚拟环境（主要是因为之前创建虚拟环境报了好多错，各种各样的错误，遂放弃创建虚拟环境）所以这里没有按照作者说的python3.9来，但是也可以跑通，目前没有什么问题。然后模型由于国内不能直接用API调用到huggingface的模型，我都是使用下到本地加载的方式，由于显存等的限制，我在抽取说话者特征的时候用的是Llama-2-7b-chat-hf。等之后再debug几遍代码然后考虑升级一下配置再尝试用70b的Llama-2。