当前位置: 首页 > article >正文

Re54:读论文 How Context Affects Language Models‘ Factual Predictions

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:How Context Affects Language Models’ Factual Predictions

ArXiv网址:https://arxiv.org/abs/2005.04611

2020年AKBC论文,作者来自脸书和UCL。

本文主要关注zero-shot cloze-style question answering任务,使用LM+无监督检索,考察需要检索出什么样的上下文。

用DrQA检索器(TF-IDF检索维基百科)检索的结果,LM在QA上的指标就能和无监督场景相媲美。

open-domain QA的传统做法是retriever+reader(生成回答)

文章目录

  • 1. 数据集
  • 2. LM
  • 3. baseline
  • 4. 上下文设置
  • 5. 主实验结果

1. 数据集

在这里插入图片描述

2. LM

BERT
RoBERTa(削减了LAMA数据集以使其全部在RoBERTa的词表中)

3. baseline

DrQA:TF-IDF检索维基百科→抽取答案
将完形填空格式问题改成QA对:"X was born in [Mask]" to "Where was X born?"

4. 上下文设置

在BERT中用不同的segment embeddings区分问题(0)和上下文(1),中间再加个[SEP]
RoBERTa用EOS
后面的实验证明这个操作能提升效果。这可能是因为利用了BERT的NSP任务。

限长512

  1. oracle上下文:Wikipedia snippet

Wikipedia Snippet 是从 Wikipedia 页面上提取的一小段文本,通常用于快速展示相关条目的主要内容或概述。这种摘要可以帮助用户快速了解某个主题的核心信息,无需阅读整个条目。在搜索引擎结果中,Wikipedia Snippet 常常出现,以便用户在点击进入 Wikipedia 网站之前,就能获得关键信息。例如,如果你搜索一个历史人物、科学概念或者任何其他主题,搜索引擎可能会显示来自 Wikipedia 的简短摘要,这就是所谓的 “Snippet”。

  1. 相关上下文:检索或生成
  2. 对抗上下文:信息不足版(从同关系别的问题的oracle上下文中随机抽取)

5. 主实验结果

在这里插入图片描述

在这里插入图片描述
a:结果token经常不出现在检索上下文中
b:结果token是否出现在上下文中,如何影响模型预测结果。确实影响

每种上下文相比无上下文的改变量,是否加separation的效果对比:
在这里插入图片描述

证明NSP起作用:
不同方案在不同数据集上的NSP率
在这里插入图片描述

LM概率的变化与NSP概率的关系
在这里插入图片描述
↑这个图的纵坐标差别这么大还画成这样,感觉不好。虽然我知道是为了表现趋势相似,但是纵坐标完全不在一个量级上啊!

案例分析:
在这里插入图片描述


http://www.kler.cn/a/145115.html

相关文章:

  • 【C语言】动态内存管理
  • [EAI-026] DeepSeek-VL2 技术报告解读
  • Python从0到100(八十六):神经网络-ShuffleNet通道混合轻量级网络的深入介绍
  • Git进阶之旅:.gitignore 文件
  • 详解python的修饰符
  • 芯片AI深度实战:进阶篇之vim内verilog实时自定义检视
  • 梯度详解与优化实战
  • Android 一键屏锁的实现
  • RabbitMQ之发送者(生产者)可靠性
  • Linux常用命令——bg命令
  • MyBatis的功能架构,MyBatis的框架架构设计,Mybatis都有哪些Executor执行器,Mybatis中如何指定使用哪一种Executor执行器
  • ctfshow刷题web入门--1--ljcsd
  • 【版本管理 | Git】Git rebase 命令最佳实践!确定不来看看?
  • P14 C++局部静态变量static延长生命周期
  • ubuntu下配置qtcreator交叉编译环境
  • 企业编码生成程序Python毕业设计
  • js中判断一个变量是数组的方式有哪些
  • [DFS深度优先搜索]集合里的乘法
  • 如何使用nginx部署静态资源
  • 脸爱云一脸通智慧管理平台未授权访问
  • 【web】Fastapi自动生成接口文档(Swagger、ReDoc )
  • 智安网络|如何最大限度地提高企业网络安全水平
  • GPT、GPT-2、GPT-3论文精读笔记
  • oracle rac环境归档日志清除
  • 数据结构与算法【B树】的Java实现+图解
  • el-table表格排序(需要后端判别),el-table导出功能(向后端发送请求)