当前位置: 首页 > article >正文

第1节 线性回归模型

1. 模型概述

        对于收集到的数据 ( x i , y i ) (x_i,y_i) (xi,yi),建立线性回归模型 y i = θ T x i + ε i ( 1 ) y_i=\theta^{^T} x_i +\varepsilon_i (1) yi=θTxi+εi(1)
        需要估计的参数为 θ T \theta^{^T} θT,我们的目的是让估计的参数 θ T \theta^{^T} θT x i x_i xi组合后,得到的估计值 y ^ i \hat{y}_i y^i与实际值 y i y_i yi越接近越好,也就是随机误差项 ε i \varepsilon_i εi越小越好。

2. 模型求解

        由于假设模型的误差项是服从独立同分布(独立:数据之间互相不影响,同分布:保证模型使用于某一类数据)的高斯分布(标准正态分布)1,即 ϵ ∼ N ( 0 , σ 2 ) \epsilon \sim N(0, \sigma^2) ϵN(0,σ2),则其概率密度函数为
p ( ϵ i ) = 1 2 π σ e x p ( − ε i 2 2 σ 2 ) ( 2 ) p(\epsilon_i)=\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{\varepsilon_i^2}{2\sigma^2})(2) p(ϵi)=2π σ1exp(2σ2εi2)(2)

        对(1)式进行变形,则有 ε i = y i − θ T x i \varepsilon_i=y_i-\theta^{^T} x_i εi=yiθTxi,将其带入(2)式,得
p ( y i ∣ x i , θ ) = 1 2 π σ e x p ( − ( y i − θ T x i ) 2 2 σ 2 ) p(y_i|x_i,\theta)=\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2}) p(yixi,θ)=2π σ1exp(2σ2(yiθTxi)2)

        因为我们的目的是让求解得出的参数 θ \theta θ和和 x i x_i xi组合后,得到的估计值 y ^ i = θ T x i \hat{y}_i=\theta^{^T} x_i y^i=θTxi是真实值 y i y_i yi的概率越大越好,也就是让这个概率越大越好。
        由于以上只是单个的样本数据,假设我们有 m m m个样本数据,样本之间互相独立,则所有的样本的概率等于单个样本的概率的乘积,我们将所有样本的概率记为似然函数 L ( θ ) L(\theta) L(θ),则
L ( θ ) = ∏ i = 0 m 1 2 π σ e x p ( − ( y i − θ T x i ) 2 2 σ 2 ) L(\theta)=\prod \limits_{i=0}^m\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2}) L(θ)=i=0m2π σ1exp(2σ2(yiθTxi)2)

由于多个式子相乘难以求解,我们可利用对数将其转化为加法。两边同时取对数,得到对数似然函数 l n L ( θ ) lnL(\theta) lnL(θ),
l n L ( θ ) = l n ∏ i = 0 m 1 2 π σ e x p ( − ( y i − θ T x i ) 2 2 σ 2 ) lnL(\theta)=ln\prod \limits_{i=0}^m\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2}) lnL(θ)=lni=0m2π σ1exp(2σ2(yiθTxi)2)

l n L ( θ ) = m l n 1 2 π σ − 1 σ 2 1 2 ∑ i = 1 m ( y i − θ T x i ) 2 lnL(\theta)=mln\frac{1}{\sqrt{2\pi}\sigma }-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y_i-\theta^{^T} x_i)^2 lnL(θ)=mln2π σ1σ2121i=1m(yiθTxi)2

         要对上述式子求最大值,则相当于对 1 2 ∑ i = 1 m ( y i − θ T x i ) 2 \frac{1}{2}\sum_{i=1}^m(y_i-\theta^{^T} x_i)^2 21i=1m(yiθTxi)2求最小值,我们将其记为 J ( θ ) J(\theta) J(θ),并取名为目标函数,则目标函数为
J ( θ ) = 1 2 ∑ i = 1 m ( y i − θ T x i ) 2 J(\theta)=\frac{1}{2}\sum_{i=1}^m(y_i-\theta^{^T} x_i)^2 J(θ)=21i=1m(yiθTxi)2

        那么,求解这个目标函数所使用的方法就是最小二乘法,最小二乘法的代数法解法就是对 θ i \theta_i θi求偏导数,令偏导数为0,再解方程组,得到 θ i \theta_i θi的估计值。矩阵法比代数法要简洁,下面主要讲解下矩阵法解法。
        由于

J ( θ ) = 1 2 ∑ i = 1 m ( y i − θ T x i ) 2 = 1 2 ∑ i = 1 m ( θ T x i − y i ) 2 = 1 2 ( X θ − Y ) T ( X θ − Y ) J(\theta)=\frac{1}{2}\sum_{i=1}^m(y_i-\theta^{^T} x_i)^2=\frac{1}{2}\sum_{i=1}^m(\theta^{^T} x_i-y_i)^2=\frac{1}{2}(X\theta-Y)^{^T}(X\theta-Y) J(θ)=21i=1m(yiθTxi)2=21i=1m(θTxiyi)2=21Y)T(Y)
        我们需要对其求偏导, ∂ J ( θ ) ∂ θ = 1 2 ∂ ( θ T X T X θ − θ T X T Y − Y T X θ + Y T Y ) ∂ θ = 1 2 ( 2 X T X θ − 2 X T Y ) \frac{\partial J(\theta)}{\partial \theta}=\frac{1}{2}\frac{\partial (\theta^{^T}X^{^T}X\theta-\theta^{^T}X^{^T}Y-Y^{^T}X\theta+Y^{^T}Y)}{\partial \theta}=\frac{1}{2}(2X^{^T}X\theta-2X^{^T}Y) θJ(θ)=21θ(θTXTθTXTYYT+YTY)=21(2XT2XTY),令其等于0,得 θ ^ = ( X T X ) − 1 X T Y \hat \theta=( X^{^T}X)^{-1}X^{^T}Y θ^=(XTX)1XTY

        这里,需要用到矩阵求导的公式2.


  1. 在了解正态分布之前,我们需要先了解一个概念——概率分布。概率分布是指:经过大量的重复试验,将随机事件的所有可能的出现结果的次数分布记录下来,并在坐标系中做出一条曲线,这条曲线就是数据的概率分布曲线,由概率分布曲线可以估算变量的概率。正态分布就是一种常见的概率分布,它的概率分布曲线是一个钟形曲线,生活中大量的变量都服从正态分布,例如:人群的身高、鞋码、学生成绩等。正态分布只依赖于数据的两个特征:均值和方差。标准正态分布的均值为0,方差为 σ 2 \sigma^2 σ2. ↩︎

  2. ∂ X T A ∂ A = ∂ A T X ∂ X = A , ∂ X T A X ∂ X = A X + A T X \frac{\partial X^{^T} A }{\partial A}=\frac{\partial A^{^T} X }{\partial X}=A, \frac{\partial X^{^T} A X}{\partial X}=AX+ A^{^T} X AXTA=XATX=A,XXTAX=AX+ATX ↩︎


http://www.kler.cn/a/3498.html

相关文章:

  • c#配置config文件
  • 重构(4)
  • SSM开发(二) MyBatis简介
  • 基于微信小程序的健身管理系统设计与实现(LW+源码+讲解)
  • 汇编与逆向(二)-汇编基础
  • Axios HTTP库基础教程:从安装到GET与POST请求的实现
  • try-with-resource
  • mysql的limit查询竟然有坑?
  • C/C++中for语句循环用法及练习
  • 【机器学习面试总结】————特征工程
  • 蓝桥杯冲刺 - Lastweek - 你离省一仅剩一步之遥!!!(掌握【DP】冲刺国赛)
  • Python和Excel的完美结合:常用操作汇总(案例详析)
  • SIP协议及其简单介绍
  • 香橙派5使用NPU加速yolov5的实时视频推理(二)
  • 异或相关算法
  • [JAVA]一步接一步的一起开发-图书管理系统(非常仔细,你一定能看懂)[1W字+]
  • art 虚拟机相关
  • 不做孔乙己也不做骆驼祥子
  • ESP8266WiFi模块与Android APP实现数据传输(一)---硬件接线
  • 基于 PyTorch + LSTM 进行时间序列预测(附完整源码)
  • 在Linux下常见压缩文件的解压命令:
  • 面试官:rem和vw有什么区别
  • RTL8201 以太网PHY芯片 调试记录
  • 242. 一个简单的整数问题
  • 面试官:vue2和vue3的区别有哪些
  • PMP项目管理-【第一章】引论