【大模型原理与技术】1.2基于学习的语言模型
机器学习的要素:
训练数据
假设类
归纳偏置
学习算法
学习范式
机器学习的过程:
在某种学习范式下,基于训练数据,利用学习算法,从受归纳偏置限制的假设类中选取出可以达到学习目标的假设,该假设可以泛化到未知数据上。
训练数据
训练数据(Training Data,记为S)是可用于训练模型的数据。训练数据的数量和质量都会影响机器学习的性能。对于语言模型,训练数据可选用公开语料数据。
假设类
假设类(Hypothesis Class,记为H)是指所有可能机器学习模型的集合,其中的元素为假设(Hypothesis)。实践中,通常指定候选模型的参数空间为假设类。当前大语言模型主要选用神经网络作为假设空间。
归纳偏置
归纳偏置(Inductive Bias)限制对某些假设进行选择。对于语言模型而言,常用的归纳偏置是上下文间存在关联。
学习范式
广义的学习范式包括监督学习、无监督学习、强化学习。大语言模型通常采用自监督学习范式(基于自动构建的标签进行的监督学习)。
学习目标
不同机器学习范式具有不同的学习目标。经验风险最小化(Empirical Risk Minimization)是最为常见的学习目标之一,其旨在最小化模型在训练集上的错误。
损失函数(Loss Function)
用以衡量模型在对应样本上的错误程度。大多数损失函数是错误程度的代理损失(Surrogate Loss)。损失函数在训练集上的结果的加权和称为训练损失(TrainingLoss)。
学习算法
学习算法旨在对损失进行优化。其背后的理论基础为最优化理论。
泛化偏差
机器学习的目的在于减小泛化误差(Generalization Error),即真实误差(Ture Error).相当于一种对结果的一种数学期望。
PAC理论——概率近似正确
当样本数量符合一定的条件时,机器学习模型可以以一定概率达到近似正确。
没有免费午餐定律(No-Free-Lunch Theorem)
指出:没有放之四海皆优的机器学习方法。总存在场景,让一个机器学习方法表现不佳。
机器学习的发展历程
当前机器学习的发展主要从统计学习时代,到表征学习时代,再到大模型时代。