当前位置：首页 > article >正文

【大语言模型】ACL2024论文-13 透过分裂投票的镜头：探索法律案例结果分类中的分歧、难度和校准

article 2024/11/23 23:36:55

【大语言模型】ACL2024论文-13 透过分裂投票的镜头：探索法律案例结果分类中的分歧、难度和校准

论文：
https://arxiv.org/pdf/2402.07214

【大语言模型】ACL2024论文-13 透过分裂投票的镜头：探索法律案例结果分类中的分歧、难度和校准
- **在这里插入图片描述** 论文： https://arxiv.org/pdf/2402.07214
- 目录
- 摘要
- 研究背景
- 问题与挑战
- 如何解决
- 创新点
- 算法模型
- 实验效果
- 重要数据与结论
- 推荐阅读指数：★★★★☆
- 后记

透过分裂投票的镜头：探索法律案例结果分类中的分歧、难度和校准

摘要

在法律决策中，当法官们无法达成一致意见时，就会出现分裂投票（SV），这给必须理解多样化法律论点和观点的律师带来了困难。在高风险领域，理解人类与人工智能系统之间感知难度的一致性对于建立信任至关重要。然而，现有的自然语言处理（NLP）校准方法专注于分类器对其预测性能的认识，这是以人类多数类为衡量标准的，忽视了固有的人类标签变异（HLV）。本文探索了分裂投票作为自然可观察的人类分歧和价值多元性。我们从欧洲人权法院（ECHR）收集了法官的投票分布，并提出了一个包含SV信息的案例结果分类（COC）数据集SV-ECHR。我们构建了一个具有SV特定子类别的分歧分类体系。我们进一步评估了模型与人类之间感知难度的一致性，以及COC模型的置信度和人类校准。我们观察到与法官投票分布的一致性有限。据我们所知，这是在法律NLP中首次系统性地探索与人类判断的校准。我们的研究强调了进一步研究的必要性，即测量和增强考虑法律决策任务中HLV的模型校准。

研究背景

在高风险领域，如法律和医疗决策，模型预测的置信度或不确定性的量化尤为重要。不确定性估计的纳入使专家能够做出更明智的决策，特别是在模型可能不确定或误诊后果严重的情况下。评估模型是否意识到其局限性被称为校准。然而，现有的NLP研究主要关注预测置信度和校准，以评估分类器对其预测性能的认识，通常以人类多数类为衡量标准。但近期的NLP研究揭示了固有人类标签变异（HLV）的普遍性，观察到在各种任务中的分歧。学者们主张承认和接受HLV，因为它反映了人类价值的多样性和多元性。值得注意的是，Baan等人（2022）已经证明，广泛使用的校准指标可能不适用于固有人类分歧特征的数据集。鉴于这些发现，我们认为模型不仅应该校准以认识自己的不确定性（性能校准），还应该能够辨别人类表现出不确定性的实例（人类校准）。这种双重关注旨在促进最终用户之间的信任，并减轻模型可能造成的伤害。因此，我们研究了法院判决中的分裂投票（SV）。
在这里插入图片描述