当前位置: 首页 > article >正文

神经网络通俗理解学习笔记(5) 自然语言处理

自然语言处理

    • 词嵌入和word2vec
    • 词义搜索和句意表示
    • 预训练模型
    • Hugging Face库介绍
    • 经典NLP数据集
    • 代码案例-电影评论情感分析

词嵌入和word2vec

词嵌入是一种 将高维的数据表示映射到低维空间的方法

word embedding 是将语言中的词编码成向量便于后续的分析和处理
词嵌入和词向量基本上是同一个东西

独热编码 one hot
独热编码是一种对分类数据进行编码的方法
独热编码给每种类别分配了一列,属于该类别的该列为1,其他列为0

在这里插入图片描述

独热编码的缺陷
词袋模型,丢失了词的顺序信息
词间正交,难以表示词义
大词表导致矩阵稀疏

在这里插入图片描述

更好的词向量表示方法
Word2Vec 方法
《Efficient Estimation of Word Representations in Vector Space》

在这里插入图片描述
CBOW 是上下文预测当前词
Skip是当前词预测上下文

连续词袋模型!CBOW

在这里插入图片描述
跳元模型 Skip-Gram
在这里插入图片描述
近似训练技巧
在这里插入图片描述

代码实现

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

词义搜索和句意表示

文本搜索方法

在这里插入图片描述

正则搜索

优点

  • 匹配精准
  • 代码简洁
    问题
  • 难以理解语义·
  • 可读性差
  • 性能较低
  • 维护困难
  • 灵活性低

在这里插入图片描述

词义搜索

  • 基于词嵌入
  • 相似度搜索
  • 类比搜索
    在这里插入图片描述
    相比传统关键词搜索,词义搜索可以更加准确理解文本的内容,无需人工配置规则或者 同义词典,可以很好实现信息的检索,文本分类 机器翻译等NLP任务

距离计算方法

在这里插入图片描述

句子向量 Doc2vec

加权平均法
PV-DM
PV-DBOW

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
按句号 叹号 问号来换行

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
训练代码看之前的博客
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

应用:
搜索引擎
推荐系统
机器翻译

在这里插入图片描述

预训练模型

word2vector和doc2vector并不是当前最佳解决方案
对一词多义 和上下文信息把握并不好
对长难句也难以学到全部信息

随着transformer的发展
效果更好的词嵌入训练方法更好

比如gpt、bert、t5模型

预训练和迁移学习

迁移学习
特征转移:将有效的特征表征引入到目标任务中
参数传递:将知识编码进共享模型参数中

在这里插入图片描述
在这里插入图片描述
自回归语言模型主要用于文本生成任务
根据上下文生成下一个词,从而实现对语言的理解和生成
自回归模型优势在于可以生成 流畅自然的文本适合于文本生成对话系统等任务
但生成时需要一步步生成每一个词,计算量比较大,不太适合实时应用场景

自编码语言模型主要用于文本编码和表示学习
将文本输入编码进行转化成固定维度向量从而实现对语言的理解和表示
优势在于可以捕获文本和句子的语义信息,适合文本分类、文本相似度的计算等任务
但不擅长生成任务
而且对于较长的文本输入可能出现信息损失的情况

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GPT4 多模态

在这里插入图片描述

存在的问题

  • 模型架构设计
  • Finetune的知识迁移·
  • 可解释性
  • 结果可靠性

在这里插入图片描述

Hugging Face库介绍

方便调用预训练模型

Transformers 模型库·

  • AutoModel模型库
  • AutoTokenizer 工具库
    Datasets 数据集库

在这里插入图片描述
在这里插入图片描述
一种代码直接调用,另一种克隆项目

在这里插入图片描述

数据集

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

经典NLP数据集

预训练语料集

  • Penn Treebank
  • WikiText
    下游任务数据集
  • Glue
  • Super glue
  • Kaggle数据集

Penn Treebank数据集
语料来源:华尔街日报(1989)·
语料规模:1M+
中文树库:
中文宾州树库
清华树库
台湾中研树库

在这里插入图片描述

在这里插入图片描述

代码案例-电影评论情感分析

情感分析
分类任务
负面·
正面
(中性 | 偏正面 | 偏负面)

用途
舆情监控
投资决策
产品口碑
电影评价

在这里插入图片描述
hugging face提供

在这里插入图片描述
预训练模型效果已经很不错
但一般还需要根据实际业务场景对模型进行加训或者微调

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.kler.cn/news/307690.html

相关文章:

  • Git bash使用
  • 解决RabbitMQ设置TTL过期后不进入死信队列
  • Java之线程篇四
  • 蓝桥杯—STM32G431RBT6(LCD的液晶显示,由原理及实践,配置及lcd函数)
  • 超高速传输 -- Fixed Grid与Flexible Grid
  • 除了C# 、C++,C++ cli 、还有一个Java版的 db
  • Python中的“Try...Except...Finally”:掌握异常处理的艺术
  • Linux - 探秘/proc/sys/net/ipv4/ip_local_port_range
  • 电基础理解
  • 5.基础漏洞——文件上传漏洞
  • 【论文阅读】RVT: Robotic View Transformer for 3D Object Manipulation
  • 47.面向对象综合训练-汽车
  • 【激活函数】Activation Function——在卷积神经网络中的激活函数是一个什么样的角色??
  • 从Prompt到创造:解锁AI的无限潜能
  • 解决Linux服务器上下载pytorch速度过慢的问题
  • 如何通过OceanBase的多级弹性扩缩容能力应对业务洪峰
  • 独孤思维:主动辞职的人,又杀回来了
  • Chrome远程桌面安卓版怎么使用?
  • leetcode - 分治思想
  • HAL库学习梳理——时钟树
  • 07 vue3之组件及生命周期
  • Linux: fs:支持最大的文件大小 limit file;truncate
  • 在 PyCharm 中配置 Anaconda 环境
  • HJ11 数字颠倒
  • 深度剖析去中心化存储:IPFS、Arweave 和 BNB Greenfield 的技术革新与生态系统演进
  • SEGGERS实时系统embOS推出Linux端模拟器
  • 腾讯百度阿里华为常见算法面试题TOP100(3):链表、栈、特殊技巧
  • Double Write
  • ElementUI大坑Notification修改样式
  • 无人机飞行时状态详解!!!