当前位置: 首页 > article >正文

文本表示方法

词向量

独热编码模型和分布式表征模型

独热编码分布式表征
固定长度的稠密词向量
优点一个单词一个维度,彼此之间构成标准正交向量组数字化后的数值可以表示语义上的关系
缺点稀疏,词向量维度大导致计算效率低

独热编码会根据语料库中的单词个数,来确定词向量的维度

分布式表征,预先确定词向量的维度,生成的词向量

文本表示方法

基于统计的词向量

词袋模型 Bag of words, BOW

忽略文本中词语的顺序和语法结构,将文本视为词的集合,通过词汇表中每个单词在文本中出现的次数来表示文本。

TF-IDF

单词在特定文本中的重要性得分表示为:单词在文本出现的频率和出现改单词的文本数量在语料库中的频率。

基于神经网络的词向量

Word2Vec

Word2Vec 有两种架构:CBOW(Continuous Bag of Words) 和 Skip-Gram。其中,CBOW 是根据上下文来预测中心词,而 Skip-Gram 是根据中心词来预测上下文。

例如:you say goodbye and i say hello.

如果上下文窗口为 1,对于 CBOW 来说,you say goodbye 中的目标预测词为 say,上下文为 you goodbye。

CBOW
训练过程

构建训练集和测试集。

you say goodbye and i say hello.设定上下文窗口为 1.

上下文目标词
you goodbyesay
say andgoodbye
goodbye iand
and sayi
i hellosay
  1. 文本预处理。假设词汇表大小为 V,词向量为 d

word2vec连续词袋模型CBOW详解,使用Pytorch实现 - 知乎

Glove

基于单词的共现矩阵来学习词向量。其中,共现矩阵记录两个单词在语料库中共现的次数。


Transformer 相较于 RNN 的改进

  1. 并行计算
  2. 因为 attention 机制能一次获取全局信息,所以最长计算路径短
  3. 可以捕捉长距离依赖关系

http://www.kler.cn/a/547253.html

相关文章:

  • 变相提高大模型上下文长度-RAG文档压缩-2.带早停机制的map-refine
  • CAS单点登录(第7版)9.属性
  • CAS比较并交换
  • 《Python全栈开发:构建高并发物联网数据中台实战》
  • 使用 playwright 自定义 js 下载的路径和文件名
  • 智能编程助手功能革新与价值重塑之:GitHub Copilot
  • Word正文中每两个字符之间插入一个英文半角空格
  • Myplater项目
  • 【Linux】详谈 进程控制
  • Python 爬虫中的异常处理
  • 探索Hugging Face:开源AI社区的核心工具与应用实践
  • NVIDIA 开发者社区第十一届Sky Hackathon训练营实验手册---AWS Sagemaker AI部分
  • 【无线感知会议系列-22 】Vivisecting Mobility Management in 5G Cellular Networks
  • 使用Java爬虫获取1688商品评论:实战案例指南
  • 基于STM32的智能家居安防系统
  • 蓝桥杯备考:贪心算法之纪念品分组
  • 网络安全初级实战笔记(一):owasp zap 暴力破解
  • 深入理解Linux网络随笔(一):内核是如何接收网络包的(下篇)
  • 25动科畜牧研究生复试面试问题汇总 动科畜牧专业知识问题很全! 动科畜牧复试全流程攻略 动科畜牧考研复试真题汇总
  • 【愚公系列】《Python网络爬虫从入门到精通》009-使用match()进行匹配