当前位置: 首页 > article >正文

自然语言处理-词嵌入 (Word Embeddings)

词嵌入(Word Embedding)是一种将单词或短语映射到高维向量空间的技术,使其能够以数学方式表示单词之间的关系。词嵌入能够捕捉语义信息,使得相似的词在向量空间中具有相近的表示。

📌 常见词嵌入方法

  1. 基于矩阵分解的方法

    • Latent Semantic Analysis (LSA)
    • Latent Dirichlet Allocation (LDA)
    • 非负矩阵分解 (NMF)
  2. 基于神经网络的方法

    • Word2Vec(Google 提出)
      • CBOW(Continuous Bag of Words):通过上下文预测目标词
      • Skip-gram:通过目标词预测上下文
    • GloVe(Stanford 提出)
      • 结合全局共现矩阵局部窗口信息,优化词向量质量
    • FastText(Facebook 提出)
      • 采用子词(Subword)表示,能更好处理未登录词(OOV, Out of Vocabulary)
  3. 基于 Transformer 预训练模型的方法

    • ELMo(Embeddings from Language Models)
    • BERT(Bidirectional Encoder Representations from Transformers)
    • GPT(Generative Pre-trained Transformer)
    • T5(Text-To-Text Transfer Transformer)

http://www.kler.cn/a/527487.html

相关文章:

  • C++ list
  • AI-System 学习
  • DFS(深度优先搜索)与回溯算法详解
  • 【DeepSeek-V3】AI Model Evaluation Framework and index schedule AI模型能力评价指标及对比
  • C++ 堆栈分配的区别
  • 灰色预测模型
  • git笔记-简单入门
  • C++ memset设置数组内容和memcpy拷贝数组内容的介绍与使用
  • 洛谷 P10288 [GESP样题 八级] 区间 C++ 完整题解(STL二分法)
  • MySQL为什么默认引擎是InnoDB ?
  • 【Leetcode算题记录】枚举技巧(枚举右,维护左)
  • VisionMamba安装
  • Java小白入门教程:三种注释+快捷方式
  • 三傻排序的比较(选择,冒泡,插入)
  • C++——类和对象(下)
  • js基础(黑马)
  • 基于Scrapy采集豆瓣电影Top250的详细数据
  • Java小白入门教程:类?方法?变量?
  • 【LLM-agent】(task1)简单客服和阅卷智能体
  • Hugging Face 推出最小体积多模态模型,浏览器运行成为现实!
  • 学习Python编程,需要哪些编程语言基础?如何开始学习Python?
  • 概述、 BGP AS 、BGP 邻居、 BGP 更新源 、BGP TTL 、BGP路由表、 BGP 同步
  • Python微服务框架Nameko | python 小知识
  • 实现使用K210单片机进行猫脸检测,并在检测到猫脸覆盖屏幕50%以上时执行特定操作
  • Koa 基础篇(二)—— 路由与中间件
  • 事务04之死锁,锁底层和隔离机制原理