论文翻译 | Legal Prompt Engineering for Multilingual Legal Judgement Prediction
摘要
法律提示工程(LPE)或法律提示是一种过程,用于指导和协助大型语言模型(LLM)执行自然法律语言处理(NLLP)技能。我们的目标是使用LPE与LLMs处理长篇法律文档,以完成法律判决预测(LJP)任务。我们研究了零样本LPE在处理欧洲人权法院(英文)和瑞士联邦最高法院(德语、法语和意大利语)案例文本中的事实时的表现。我们的结果显示,与基线相比,零样本LPE表现更好,但与当前最先进的监督学习方法相比仍有差距。尽管如此,这些结果仍然重要,因为:1)没有使用明确的领域特定数据——因此我们展示了通用目的LLMs向法律领域的转移是可能的;2)LLMs是直接应用的,没有进行任何进一步的训练或微调——这在很大程度上节省了额外的计算成本。
1 引言
在监督分类任务中,机器学习模型接收一个输入,经过训练阶段后,它从一组固定的类别中输出一个或多个标签(Mitchell, 1997)。大型预训练语言模型(LLMs)的最新发展,如BERT(Devlin等人,2019年)、T5(Raffel等人,2020年)和GPT-3(Brown等人,2020年),为这类任务带来了一种新颖的方法,即提示(Liu等人,2021a年)。在提示方法中(见图1),通常不需要进一步的训练(尽管微调仍然是一个选项),而是将模型的输入扩展为特定于任务的额外文本——一个提示。提示可以包含关于当前样本的问题、输入-输出对的示例或任务描述(见图1,长篇法律文档和法律问题为输入)。使用提示作为线索,LLM——一个基础模型(Bommasani等人,2021年)——可以从其隐含知识中以零样本的方式推断出预期的输出(见图1,完成部分)(Yin等人,2019年;Sanh等人,2021年)。
法律提示工程是创建、评估和推荐法律NLP任务提示的过程。它将使法律专业人士能够通过简单地以自然语言查询LLMs来执行NLLP任务,如数据标注、搜索或问答。在本演示中,我们研究了用于法律判决预测任务(Strickson和De La Iglesia, 2020年;Zhuopeng等人,2020年)的提示方法。我们使用来自欧洲人权法院(ECHR;Chalkidis等人(2019年))和瑞士联邦最高法院(FSCS;Niklaus等人(2021年))的数据,并使用多语言LLMs(mGPT来自Shliazhko等人(2022年),GPT-J-6B来自Wang和Komatsuzaki(2021年)以及GPT-NeoX-20B来自Black等人(2022年))以零样本的方式比较了各种提示用于LJP——没有示例以及进一步的训练和微调。我们的结果显示,可以使用LLMs应用零样本LPE进行LJP任务。绝对宏平均F1、精确度和召回率分数优于我们的简单基线,但它们低于文献中当前的监督学习最佳结果。
2 相关工作
本研究建立在两个主要类型的既定研究方向上:第一,法律NLP任务创建和(主要)监督方法的基准测试。第二,关于一般NLP任务的提示工程化研究。
2.1 法律NLP
与许多已建立的NLP任务类似,法律领域具有多种基准,包括二元分类(Alali等人,2021)、多类分类(Hendrycks等人,2021)、多标签分类(Song等人,2022)和序列生成,例如法律摘要(Kornilova和Eidelman, 2019)和判决结果解释(Malik等人,2021)。由于使用的特定语言和(通常)对长输入文档的多步推理(Holzenberger等人,2020)(Dai等人,2022),法律领域对自动化解决方案提出了进一步的挑战。此外,据我们所知,目前还没有办法调查最近在法律领域对这些任务的促进结果。大多数时候,一般NLP任务的(良好的)提示结果是在相当短的、单个到几个句子输入和小目标标签集的情况下实现的(Liu et al, 2022a)。
2.2 提示工程
基于任务和语言模型,某些类型的提示是可能的。这主要包括模型的槽填充目标(Devlin等人,2019)或文本补全(Brown等人,2020)。在研究文献中,已经存在收集、统一和评估不同任务和领域的提示方法的努力。两个更大的项目包括OpenPrompt (Ding等人,2022)——一个用于提示学习的开源框架,以及PromptSource (Bach等人,2022)——一个用于创建、共享和使用自然语言提示的开放工具包。提示由几个部分组成,根据模型、任务和数据具有不同的有用性。这些通常是任务的文本描述,它们可以包含手头任务的输入标签对的几个(few-shot),一个(one-shot)甚至没有(zero-shot)示例(Sanh et al, 2021)。此外,提示可以包含以多项选择答案集的形式提示可能的标签,模型应该从中进行选择。
3 法律判决预测
以下部分描述了我们的目标任务和我们评估法律提示的数据集。
3.1 任务定义
法律判决预测(LJP)任务(Strickson and De La Iglesia, 2020;Zhuopeng等人,2020)被制定为对案件中给定(一组)文件的法院结果的自动预测。
3.2 数据集
我们在实验中使用了以下两个语料库的验证和测试集。
3.2.1 欧洲人权法院
欧洲人权法院(ECHR)语料库由Chalkidis等人(2019年)创建,是一个英文数据集,包含了案件描述中的事实段落。每个文档都映射到被违反的人权条款,如果有任何违反行为的话。这些文档按时间顺序被分为训练集(9千条,2001–2016年)、验证集(1千条,2016–2017年)和测试集(1千条,2017–2019年)。我们使用的是数据集的二值化版本,其中不存在违反行为或存在一个及以上的违反行为(二进制真/假,或者在我们的案例中是是/否)。
3.2.2 瑞士联邦最高法院
Niklaus等人(2021)编写的瑞士联邦最高法院(FSCS)语料库是一个多语言数据集(85K个文档),涵盖瑞士的德语(50k)、法语(31k)和意大利语(4k)案件。每个案件的目标是二值化的判决结果,可以是批准,也可以是驳回。
4 Prompt
在这项工作中,我们依赖于离散的手动法律提示工程。与连续提示(Liu等人,2021b,2022b)相比,离散提示映射到真实的(人类可读的)单词。手动部分指的是离散提示创建和评估的迭代过程。核心任务是将以二值化文本分类任务为LJP的任务转换为自然语言问题模板。我们的迭代过程如下:步骤1:我们只使用长篇法律文档(一次一个)作为模型的唯一输入。结果是文档的延续,包含其他可能的事实,因为这些是有效的补全。然而,这对于我们的任务并没有用。步骤2:我们在文档后包含一个问题,这是对文本分类任务的重新表述。这改善了模型的输出,但在许多情况下仍然不起作用,因为模型继续列出其他问题。步骤3:包括“问题:”和“答案:”指示符再次改善了模型的补全。不幸的是,这也是一种“自由形式”的回应,很难映射到我们两个预期类别(是/否)中的一个。步骤4:我们包括了答案选项“A, 是”和“B, 否”,最后在步骤5中:我们包含了特殊的GPT模型指示符“”,以将文档与提示分开。图2展示了ECHR任务的最终提示模板。我们为其他三种语言(德语、法语、意大利语;附录A)使用了类似的(翻译过的)提示。最大输入长度设置为2048个令牌,我们截断了超过这个长度的案件文本。我们还根据验证集上的表现优化了模型输出序列长度。尽管我们实际上只需要一个令牌作为输出(A或B),但我们发现这并没有得到最好的分数。我们逐步增加了贪婪解码器的输出序列长度,并最终确定50个令牌作为最佳的超参数值。我们计算需求的详细信息在附录B中。
5 结果
我们的两个语料库和四种语言的主要结果分别显示在表1和表2中。由于文档的长度,我们一次向模型提供一个文档,因此选择将这作为我们的零样本结果报告。另一个重要的考虑因素是数据集高度不平衡。ECHR语料库的主要类别占比约为89%,FSCS语料库的主要类别占比约为75%,所以我们建议主要报告宏观平均分数。我们还包括了ECHR任务的微平均、加权和准确度分数。我们的提示方法总是显著优于我们简单的基线,对于宏观平均分数而言。
然而,与监督结果相比——这些结果是在数千个样本上经过多个周期的微调得到的——它们还有很长的路要走。
此外,我们在图3中包括了模型补全的样本。示例1和示例2是我们主要寻求的补全,只有一个输出令牌。然而,正如我们发现的,将模型生成限制为只有一个令牌并没有得到最好的整体性能。模型似乎需要更多的令牌来“表达自己”。示例3是一个正确的输出标签为A的补全,并附有关于哪些条款被违反的额外句子。这实际上是ECHR语料库的原始任务,一个多标签问题。进一步调查确切的条款编号发现,对于一些案例,它们确实是那些条款。不幸的是,我们没有找到一个案例完全匹配所有列出的条款。在这方面,示例4有类似的补全。它包含了一个潜在的说明和一个引用的条款。但同样,通过抽样几个这样的补全,无法找到一个正确解释的例子。更困难的补全如示例5,因为我们不能直接将它们映射到我们的目标标签之一。对这些生成在验证集上的进一步调查发现,它们出现在LJP表示“没有违反行为”的案件文本中。因此,我们给它们分配了B标签。最后但同样重要的是,我们观察到了如示例6的答案。这种生成类型表明,LLMs预训练的数据集包含了考试风格的问答任务和多项选择题。
最后,由于许多句子以A开头,模型可能是出于错误的原因而正确(McCoy等人,2019年)。我们还进行了一个测试,我们交换了答案选项A和B。然而,这得到了几乎相同的分数。例如,对于GPTJ-6B模型,ECHR验证集上的宏观F1为0:530,测试集上的宏观F1为0:526。
6 结论
一方面,我们可以说用LPE解决LJP任务是可能的。另一方面,仍有改进的空间,特别是因为它不是直接找到每个任务、语料库和语言的理想提示(Lu et al, 2022)。有趣的是,我们可以观察到可以提供更多关于LJP信息的补全,特别是那些列出违反条款的补全,或者那些包含对决定的某种形式的解释的补全。对于未来的工作,我们计划与法律领域的主题专家(sme)合作,并调查他们是否可以利用他们的知识来1)提出更好的法律提示,2)完成几个不同的NLLP任务,如法律摘要(Kornilova和Eidelman, 2019)和法律问答(Zhong等人,2020)。