ERC论文阅读(01)--BiosERC论文阅读笔记
BiosERC论文阅读笔记
论文中心思想
这篇论文是研究ERC任务的论文,作者提出了微调LLM和训练了自己的基于bert的预训练模型。中心思想是将对话中说话者的性格特征注入模型中,实验证明了其思想的有效性,在常用的数据集MELD、iemocap、emoryNLP上取得了SOTA的效果。
微调LLM
其中微调LLM的部分首先利用Llama-2-70b-chat-hf生成对话中每个说话者的说话者描述(作为说话者性格信息),然后用提示工程、指令微调的技术对Llama-2-7b-hf进行微调,生成话语情绪标签。
基于bert的预训练模型
预训练模型部分作者在论文中指出了模型分为话语向量表示、上下文建模和分类三个部分。然后在上下文建模部分融入了说话者性格信息。这部分作者没有提供代码,我看了论文对于具体如何实现还是不明白,等过一个星期我多看几篇类似论文看看有没有思路,再来补充。
实验效果
基于LLM微调的方法在EmoryNLP和MELD数据集上面都取得了最好的效果,在IEMOCAP数据集上仅次于目前最好的instructERC,并且效果差距很小。
代码复现
作者提供的代码只有微调大语言模型的部分,这部分代码我是在租的GPU上面跑的,配置是租的GPU默认的配置。代码就在base环境中跑,python=3.12.3 torch=2.3.0+cu121 nvcc-V=12.1 这些包都是环境自带的,我没有创建虚拟环境(主要是因为之前创建虚拟环境报了好多错,各种各样的错误,遂放弃创建虚拟环境)所以这里没有按照作者说的python3.9来,但是也可以跑通,目前没有什么问题。然后模型由于国内不能直接用API调用到huggingface的模型,我都是使用下到本地加载的方式,由于显存等的限制,我在抽取说话者特征的时候用的是Llama-2-7b-chat-hf。等之后再debug几遍代码然后考虑升级一下配置再尝试用70b的Llama-2。
其他
笔记都是本人的个人意见和想法,仅供参考,如果您有任何建议也非常欢迎留言指出~
2024-10-21
的的