论文浅尝 | TaxoLLaMA: 用基于WordNet的模型来解决多个词汇语义任务(ACL2024)
笔记整理:屠铭尘,浙江大学硕士,研究方向为知识图谱
论文链接:https://arxiv.org/abs/2403.09207
发表会议:ACL2024
1. 动机
探索LLM在解决经典词汇语义任务上的能力。
(1)本文假设:使用hypernym上位词(IS-A关系)来finetune模型,可以提升模型解决分类相关任务(taxonomy-related tasks)的能力。
(2)基本方法:建立了一个基于taxonomy、源于English WordNet的指令集,微调模型TaxoLLaMA。
本文探索的具体词汇语义任务:
(1)Hypernym Discovery: 预测给定下位词的上位词。
(2)Taxonomy Enrichment: 在已有的分类(Taxonomy)中加入一个新的、正确的上位词。
(3)Lexical Entailment: 辨别两个短语对之间的语义关系,是否蕴含。
(4)Taxonomy Construction: 给定一系列领域专业词汇,提取词汇间的上位词-下位词关系,并建立专业领域分类(Taxonomy)
图1 本文所探究的四种词汇语义任务概要
2. 贡献
(1)利用WordNet构建taxonomy指令集、通过上位词预测相关任务来微调LLM,解决词汇语义任务;
(2)提供了一个解决一系列词汇语义任务的统一模型TaxoLLaMA,在11/16个任务上达到SOTA,并在4个任务上排在第二名;
(3)提出了基于WordNet的指令数据集,以及一些输入词汇的定义;
(4)提供了基于人工和ChatGPT的全面的错误分析;
3. 方法
3.1 Data Collection
仿照Are Large Language Models Good at Lexical Semantics? A Case of Taxonomy Learning(LREC2024)的算法,随机从WordNet-3.0中采样出名词和动词,随机选择边组成上位词-下位词对。为避免歧义,通过以下方法获得词语的定义,加入instruction:①从WordNet中获取;②由ChatGPT3.5生成;③从Wikidata中获得。
图2 指令调优集示例
3.2 Training Details
主要训练两种模型:①TaxoLLaMA,在整个WordNet-3.0数据集上训练,后期社区使用,44772 samples;②TaxoLLaMA-bench,保证训练集中没有测试集四种任务的节点,36775 samples。另外训练一种③TaxoLLaMA-Verb,使用WordNet中的verb子树训练,7712 samples。
基座模型LLaMA-2(7B),使用QLoRA方法高效微调。
图3 训练过程
3.3 Task Adaptation
如下图(b)下方所示,”TRUE”和”两点有链接”形式上没有不同,但实际上两个任务又是不同的,因此需要有所设计。
总的来说,对于四个任务,分成两种pipeline:
(1)Generative Approach 给定一个下位词,让模型生成一系列对应上位词。在Hypernym Discovery和Taxonomy Enrichment任务上使用。
(2)Ranking Approach 使用模型困惑度perplexity来评估,困惑度越低表示关系越紧密。同时为了表征上下位关系,互换两个词关系,看困惑度是否变高。用这两个分数的比来衡量排名。比值越低,两者的上下位关系越紧密。在Taxonomy Construction和Lexical Entailment数据集上使用,使用时轻微调整。
图4 四种任务(a)及对应pipeline(b)
4. 实验
4.1 Hypernym Discovery
采用测试集SemEval-2018,包含一个英文子集(通用问题+音乐、医药领域特定问题)和一个意大利西班牙语子集(通用问题)。用Mean Reciprocal Rank (MRR) metric评估。
Finetune后的模型都达到了SOTA(对比方法都finetune过)。
通过Figure3a可以看出,除了2B任务,当用50个例子finetune就能达到SOTA。
在两个非英语任务下用in-context few-shot learning达不到SOTA,认为是压缩模型的原因。
4.2 Taxonomy Enrichment
包括WordNet Noun, WordNet Verb, MAGPSY和MAG-CS四个datasets。每个数据集Sample 1000个节点。Metric:scaled MRR。
①在WordNet Noun和WordNet Verb任务上SOTA;②在MAG-CS和MAG-PSY上达不到SOTA;③在少量数据上训练的bench版本比完整模型表现更好。
4.3 Taxonomy Construction
数据集:TexEval-2 中的子任务,“Eurovoc science”、“Eurovoc environment”和“WordNet food”;评估指标:F1。
特别注意,前述比例在“食品”域的阈值设置为1.8,“环境”域的阈值设置为4.6,“科学”域的阈值设置为1.89。
模型在Environment和Food子集上达到SOTA,在Science子集保持第二。
4.4 Lexical Entailment
Dataset:
①ANT entailment subset 考察相似句子间的关系。(Metric: 刚刚提到的正向Perplexity/f反转后Perplexity的比例用L2范数正则化,衡量两个句子之间的蕴含关系。)
②HyperLex Dataset 考察动词和名词之间的蕴含关系。把perplexity看做模型预测。
ANT Dataset:在Average Precision上达到SOTA,在normalized AUC上第二。
HyperLex Dataset:①在Lexical子集上SOTA;②与过往模型在Random上通常表现比Lexcical相反,这可能说明其他模型通过Random子集的训练对模型有更多的提升。
5. 总结
本文提出了一个基于WordNet、上下位词关系进行指令微调的LLM——TaxoLLaMA,通过提升模型预测上位词的能力,使模型能更好地解决各种经典词汇语义任务。在16项任务中,11项取得了SOTA,在另外4项任务中排名第二。
基于人工和chatgpt的错误分析表明,由于过度拟合特殊的WordNet结构和无法适应目标数据集等原因,75%的错误例子都表现为将概念预测得过于宽泛。与先前研究相同,实验表明指令中加入词汇定义能更好地消除输入单词的歧义,从而有利于在Taxonomy Enrichment任务上的表现。总体而言,最困难的测试数据集是MAGs,这可能是因为该测试集与我们模型训练所用的数据有很大差异。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。