当前位置: 首页 > article >正文

【人工智能学习笔记】6_自然语言处理基础

自然语言处理基本介绍

自然语言:指人类使用的在社会生活中自然形成的语言;
自然语言处理:指计算机识别、理解、计算分析、生成自然语言的过程。
包含自然语言理解和自然语言生成两部分的两大研究方向。

自然语言理解:所有支持机器理解文本内容的方法模型或任务的总称,是推荐、问答、搜索等系统的必备模块
自然语言生成:将非语言格式的数据转换成人类可以理解的语言格式,是翻译、写作等系统的必备模块。

  • 自然语言的发展趋势:
    1. 智能人机交互:不同语言、领域下的人机交互提升;多语言交互从不同语言理解上升到不同文化理解。
    2. 多模态融合:视频、图像、文本、语音等模态的全面融合;
    3. 解决方案建设:每种场景领域都有特定的需求及其相应的场景数据;模型结合场景数据训练能够更好的满足场景需求。
    4. 形成行业知识库:结合已有的知识和技术提高非结构化数据的理解能力;基于过去已知知识进行推理,理解行业事件知识。

数据基础

在这里插入图片描述

自然语言处理的预料库

  • 大量已知语料数据的集合,在自然语言处理模型的定型过程中起到基准的作用;
  • 在自然语言的实际使用中真实出现过的语言材料,通常经过整理,具有既定格式与标记;
  • 若要获得最小单位的字词,需要由外而内一层多层剥开。

在这里插入图片描述

常见的语料库

现代汉语与英语的主要区别在于汉语中名词、动词、形容词的语法功能是相互交错的;一类词往往充当多种句子成分,一种成分往往也不是某一类词专有的。例如:

  • 名词作谓语:八月一日建军节
  • 名词作状语:我明天下午很忙。

在这里插入图片描述

现代汉语与英语的区别

在这里插入图片描述

现代汉语的一些特点

自然语言处理的技术体系

在这里插入图片描述

自然语言处理的技术体系

自然语言处理的基础技术

词法分析

主要作用:将句子、段落、文章这种长文本分解为以字词为单位的数据结构,方便后续的分析和处理工作。
所需知识:分词;词性标注。

分词

将句子、段落、文章等长文本分解为以字词为单位的数据结构;
常见的方法包括最大匹配分词算法和最短路径分词算法。
在这里插入图片描述


http://www.kler.cn/a/305876.html

相关文章:

  • 相机光学(四十)——2x2 Adjacent Pixel Binning
  • linux上海康SDK安装并设置环境变量
  • Docker 的安装与使用
  • 一文窥见神经网络
  • catchadmin-webman 宝塔 部署
  • 图论-代码随想录刷题记录[JAVA]
  • 借老系统重构我准备写个迷你版apiFox
  • <Linux> 进程间通信
  • 医疗机构关于DIP/DRG信息化建设
  • 【linux】cat 命令
  • 什么是MIPI接口?MIPI相机是如何工作的?
  • 算法_优先级队列---持续更新
  • mysql组合键唯一
  • HTTP 四、HttpClient的使用
  • 一文带你全面了解RAID技术:从基础到进阶的全景解析
  • 大厂硬件梦:字节、腾讯“向首”,华为、小米“向手”
  • 设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】)
  • MSYS vs MSYS2:功能、兼容性与易用性全面比拼,助你挑选最佳Windows开发伴侣
  • SpringBoot集成Thymeleaf模板引擎,为什么使用(详细介绍)
  • 【CSS in Depth 2 精译_031】5.3 Grid 网格布局的两种替代语法
  • TCP Analysis Flags 之 TCP ZeroWindow
  • 【机器学习】7 ——k近邻算法
  • npm install报错,gyp verb `which` failed Error: not found: python
  • 第十六节:学习Springboot 的自定义资源路径(自学Spring boot 3.x的第四天)
  • 鸿蒙之Hello Word 遇坑总结 mac系统 不能预览 提示 Only files in a module can be previewed 解决办法
  • [Mdp] lc3290. 最高乘法得分(二维dp+状态定义+状态转移+LCS问题+好题+周赛415_2)