当前位置：首页 > article >正文

论文翻译 | Legal Prompt Engineering for Multilingual Legal Judgement Prediction

article 2025/4/2 10:17:18

摘要

法律提示工程（LPE）或法律提示是一种过程，用于指导和协助大型语言模型（LLM）执行自然法律语言处理（NLLP）技能。我们的目标是使用LPE与LLMs处理长篇法律文档，以完成法律判决预测（LJP）任务。我们研究了零样本LPE在处理欧洲人权法院（英文）和瑞士联邦最高法院（德语、法语和意大利语）案例文本中的事实时的表现。我们的结果显示，与基线相比，零样本LPE表现更好，但与当前最先进的监督学习方法相比仍有差距。尽管如此，这些结果仍然重要，因为：1）没有使用明确的领域特定数据——因此我们展示了通用目的LLMs向法律领域的转移是可能的；2）LLMs是直接应用的，没有进行任何进一步的训练或微调——这在很大程度上节省了额外的计算成本。

1 引言

在监督分类任务中，机器学习模型接收一个输入，经过训练阶段后，它从一组固定的类别中输出一个或多个标签（Mitchell, 1997）。大型预训练语言模型（LLMs）的最新发展，如BERT（Devlin等人，2019年）、T5（Raffel等人，2020年）和GPT-3（Brown等人，2020年），为这类任务带来了一种新颖的方法，即提示（Liu等人，2021a年）。在提示方法中（见图1），通常不需要进一步的训练（尽管微调仍然是一个选项），而是将模型的输入扩展为特定于任务的额外文本——一个提示。提示可以包含关于当前样本的问题、输入-输出对的示例或任务描述（见图1，长篇法律文档和法律问题为输入）。使用提示作为线索，LLM——一个基础模型（Bommasani等人，2021年）——可以从其隐含知识中以零样本的方式推断出预期的输出（见图1，完成部分）（Yin等人，2019年；Sanh等人，2021年）。

法律提示工程是创建、评估和推荐法律NLP任务提示的过程。它将使法律专业人士能够通过简单地以自然语言查询LLMs来执行NLLP任务，如数据标注、搜索或问答。在本演示中，我们研究了用于法律判决预测任务（Strickson和De La Iglesia, 2020年；Zhuopeng等人，2020年）的提示方法。我们使用来自欧洲人权法院（ECHR；Chalkidis等人（2019年））和瑞士联邦最高法院（FSCS；Niklaus等人（2021年））的数据，并使用多语言LLMs（mGPT来自Shliazhko等人（2022年），GPT-J-6B来自Wang和Komatsuzaki（2021年）以及GPT-NeoX-20B来自Black等人（2022年））以零样本的方式比较了各种提示用于LJP——没有示例以及进一步的训练和微调。我们的结果显示，可以使用LLMs应用零样本LPE进行LJP任务。绝对宏平均F1、精确度和召回率分数优于我们的简单基线，但它们低于文献中当前的监督学习最佳结果。

2 相关工作

本研究建立在两个主要类型的既定研究方向上：第一，法律NLP任务创建和（主要）监督方法的基准测试。第二，关于一般NLP任务的提示工程化研究。

2.1 法律NLP

与许多已建立的NLP任务类似，法律领域具有多种基准，包括二元分类（Alali等人，2021）、多类分类（Hendrycks等人，2021）、多标签分类（Song等人，2022）和序列生成，例如法律摘要（Kornilova和Eidelman， 2019）和判决结果解释（Malik等人，2021）。由于使用的特定语言和（通常）对长输入文档的多步推理（Holzenberger等人，2020）（Dai等人，2022），法律领域对自动化解决方案提出了进一步的挑战。此外，据我们所知，目前还没有办法调查最近在法律领域对这些任务的促进结果。大多数时候，一般NLP任务的（良好的）提示结果是在相当短的、单个到几个句子输入和小目标标签集的情况下实现的（Liu et al, 2022a）。

2.2 提示工程

基于任务和语言模型，某些类型的提示是可能的。这主要包括模型的槽填充目标（Devlin等人，2019）或文本补全（Brown等人，2020）。在研究文献中，已经存在收集、统一和评估不同任务和领域的提示方法的努力。两个更大的项目包括OpenPrompt （Ding等人，2022）——一个用于提示学习的开源框架，以及PromptSource （Bach等人，2022）——一个用于创建、共享和使用自然语言提示的开放工具包。提示由几个部分组成，根据模型、任务和数据具有不同的有用性。这些通常是任务的文本描述，它们可以包含手头任务的输入标签对的几个（few-shot），一个（one-shot）甚至没有（zero-shot）示例（Sanh et al, 2021）。此外，提示可以包含以多项选择答案集的形式提示可能的标签，模型应该从中进行选择。

3 法律判决预测

以下部分描述了我们的目标任务和我们评估法律提示的数据集。

3.1 任务定义

法律判决预测（LJP）任务(Strickson and De La Iglesia, 2020；Zhuopeng等人，2020)被制定为对案件中给定（一组）文件的法院结果的自动预测。

3.2 数据集

我们在实验中使用了以下两个语料库的验证和测试集。

3.2.1 欧洲人权法院

欧洲人权法院（ECHR）语料库由Chalkidis等人（2019年）创建，是一个英文数据集，包含了案件描述中的事实段落。每个文档都映射到被违反的人权条款，如果有任何违反行为的话。这些文档按时间顺序被分为训练集（9千条，2001–2016年）、验证集（1千条，2016–2017年）和测试集（1千条，2017–2019年）。我们使用的是数据集的二值化版本，其中不存在违反行为或存在一个及以上的违反行为（二进制真/假，或者在我们的案例中是是/否）。

3.2.2 瑞士联邦最高法院

Niklaus等人（2021）编写的瑞士联邦最高法院（FSCS）语料库是一个多语言数据集（85K个文档），涵盖瑞士的德语（50k）、法语（31k）和意大利语（4k）案件。每个案件的目标是二值化的判决结果，可以是批准，也可以是驳回。

4 Prompt

在这项工作中，我们依赖于离散的手动法律提示工程。与连续提示（Liu等人，2021b，2022b）相比，离散提示映射到真实的（人类可读的）单词。手动部分指的是离散提示创建和评估的迭代过程。核心任务是将以二值化文本分类任务为LJP的任务转换为自然语言问题模板。我们的迭代过程如下：步骤1：我们只使用长篇法律文档（一次一个）作为模型的唯一输入。结果是文档的延续，包含其他可能的事实，因为这些是有效的补全。然而，这对于我们的任务并没有用。步骤2：我们在文档后包含一个问题，这是对文本分类任务的重新表述。这改善了模型的输出，但在许多情况下仍然不起作用，因为模型继续列出其他问题。步骤3：包括“问题：”和“答案：”指示符再次改善了模型的补全。不幸的是，这也是一种“自由形式”的回应，很难映射到我们两个预期类别（是/否）中的一个。步骤4：我们包括了答案选项“A, 是”和“B, 否”，最后在步骤5中：我们包含了特殊的GPT模型指示符“”，以将文档与提示分开。图2展示了ECHR任务的最终提示模板。我们为其他三种语言（德语、法语、意大利语；附录A）使用了类似的（翻译过的）提示。最大输入长度设置为2048个令牌，我们截断了超过这个长度的案件文本。我们还根据验证集上的表现优化了模型输出序列长度。尽管我们实际上只需要一个令牌作为输出（A或B），但我们发现这并没有得到最好的分数。我们逐步增加了贪婪解码器的输出序列长度，并最终确定50个令牌作为最佳的超参数值。我们计算需求的详细信息在附录B中。

5 结果

我们的两个语料库和四种语言的主要结果分别显示在表1和表2中。由于文档的长度，我们一次向模型提供一个文档，因此选择将这作为我们的零样本结果报告。另一个重要的考虑因素是数据集高度不平衡。ECHR语料库的主要类别占比约为89%，FSCS语料库的主要类别占比约为75%，所以我们建议主要报告宏观平均分数。我们还包括了ECHR任务的微平均、加权和准确度分数。我们的提示方法总是显著优于我们简单的基线，对于宏观平均分数而言。
然而，与监督结果相比——这些结果是在数千个样本上经过多个周期的微调得到的——它们还有很长的路要走。

此外，我们在图3中包括了模型补全的样本。示例1和示例2是我们主要寻求的补全，只有一个输出令牌。然而，正如我们发现的，将模型生成限制为只有一个令牌并没有得到最好的整体性能。模型似乎需要更多的令牌来“表达自己”。示例3是一个正确的输出标签为A的补全，并附有关于哪些条款被违反的额外句子。这实际上是ECHR语料库的原始任务，一个多标签问题。进一步调查确切的条款编号发现，对于一些案例，它们确实是那些条款。不幸的是，我们没有找到一个案例完全匹配所有列出的条款。在这方面，示例4有类似的补全。它包含了一个潜在的说明和一个引用的条款。但同样，通过抽样几个这样的补全，无法找到一个正确解释的例子。更困难的补全如示例5，因为我们不能直接将它们映射到我们的目标标签之一。对这些生成在验证集上的进一步调查发现，它们出现在LJP表示“没有违反行为”的案件文本中。因此，我们给它们分配了B标签。最后但同样重要的是，我们观察到了如示例6的答案。这种生成类型表明，LLMs预训练的数据集包含了考试风格的问答任务和多项选择题。
最后，由于许多句子以A开头，模型可能是出于错误的原因而正确（McCoy等人，2019年）。我们还进行了一个测试，我们交换了答案选项A和B。然而，这得到了几乎相同的分数。例如，对于GPTJ-6B模型，ECHR验证集上的宏观F1为0:530，测试集上的宏观F1为0:526。

6 结论

一方面，我们可以说用LPE解决LJP任务是可能的。另一方面，仍有改进的空间，特别是因为它不是直接找到每个任务、语料库和语言的理想提示（Lu et al, 2022）。有趣的是，我们可以观察到可以提供更多关于LJP信息的补全，特别是那些列出违反条款的补全，或者那些包含对决定的某种形式的解释的补全。对于未来的工作，我们计划与法律领域的主题专家（sme）合作，并调查他们是否可以利用他们的知识来1)提出更好的法律提示，2)完成几个不同的NLLP任务，如法律摘要（Kornilova和Eidelman， 2019）和法律问答（Zhong等人，2020）。