大模型基本能力评测---知识利用
文章目录
-
- 闭卷问答
- 开卷问答
- 知识补全
- 主要问题
知识利用(Knowledge Utilization)能力对于大语言模型非常关键,它赋予了模型执行知识密集型任务的能力,如回答常识性问题或基于知识信息进行相关推理。为了充分发挥这一能力,大语言模型需要在预训练阶段学习到丰富的世界语义知识,同时也可在必要时从外部数据源中检索并整合相关知识信息。问答和知识补全是评估知识利用能力的两种主要任务类型。根据任务的不同和评测设定的差异,可以将现有的知识利用任务划分为三个主要类别:闭卷问答、开卷问答以及知识补全。闭卷问答主要依赖模型内部的编码知识来回答问题,不依赖于外部知识资源。开卷问答则不同,它要求模型能够根据外部知识库提供的上下文信息来回答问题。这种设定更接近于真实世界的应用场景,因为在实际应用中,模型往往需要从外部数据源中获取必要的信息来辅助决策或完成任务。知识补全任务主要关注模型对于事实知识的理解与整合能力,通常要求模型在给定的上下文中补全缺失的信息或事实。
闭卷问答
闭卷问答(Closed-Book QA)任务主要用来评估大语言模型内在的知识理解与利用能力。在此类任务中,模型需要基于自身掌握的知识来回答问题,不借助外部资源提供的背景信息。为了全面而准确地衡量大语言模型在闭卷问答方面的能力,研究人员通常采用一系列标准问答数据集进行评估,包括Natural Questions、Web Questions和 TriviaQA等。在评估过程中