当前位置: 首页 > article >正文

跟李沐学AI:语言模型

语言模型定义

假设在给定长度为T的文本序列中的词元依次为x_1,x_2,\dots ,x_tx_t可被人做文本序列在时间步t处的观测或标签。在给定这样的文本序列是,语言模型的目标是估计序列的联合概率P(x_1,x_2,\dots ,x_t)

一个理想的与语言模型能够在一次抽取一个词元x_t\sim P(x_t \mid x_{t-1},\dots ,x_1)的情况下基于模型本身生成自然文本。

学习语言模型

基于语言模型的基本规则,一个包含了四个单词的文本序列的概率是:

为了训练语言模型,我们需要计算单词的概率, 以及给定前面几个单词后出现某个单词的条件概率。 这些概率本质上就是语言模型的参数。

马尔可夫模型与n元语法

当文本序列很长、文本量不够时,使用计数方法进行建模可能效果不佳。因此,可以在语言模型中引入马尔可夫模型以缓解这个问题。

涉及一个、两个和三个变量的概率公式分别被称为 一元语法(unigram)、二元语法(bigram)和三元语法(trigram)模型。 

n元语法对应马尔可夫模型中的tau=n。一元语法认为每个token都是独立的。二、三元语法认为每个token与当前token的前两个token相关。


http://www.kler.cn/a/296914.html

相关文章:

  • 《深入浅出WPF》读书笔记.11Template机制(上)
  • 酒茶香链接心灵——探寻现代人幸福生活
  • C#中的控件和组件
  • SprinBoot+Vue动漫交流与推荐平台的设计与实现
  • Java Native Interface (JNI) 简介
  • 2024全球广播摄像机市场前景如何?IP网络化云端融合趋势加强
  • 使用图论技巧——有遍数限制的最短路
  • 【LabVIEW学习篇 - 18】:人机界面交互设计02
  • Rust语言初探:WebAssembly 入门
  • 【C++】std::list
  • C语言新手小白详细教程(8)ASCll编码和字符串
  • linux下oracle启动及关于pfile和spfile启动参数文件的配置
  • 数据类型与赋值
  • java开发,记录一些注解和架构 pojo、entity、respository
  • AI跟踪报道第55期-新加坡内哥谈技术-本周AI新闻: GPT NEXT (x100倍)即将在2024推出
  • 仕考网:考公务员有什么好处?
  • 大庆企业信息安全再升级,定级备案助力三级等保测评攻略
  • 【Python】PyPandoc:批量文件格式转换
  • 使用gdb跟踪调试linux内核
  • Level3 — PART 3 — 自然语言处理与文本分析