当前位置: 首页 > article >正文

多类特征(Multiple features)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

缩放

在这里插入图片描述

均值归一化

在这里插入图片描述
在图中, μ 1 = 600 \mu_1 = 600 μ1=600 是用来做均值归一化(mean normalization)的平均值。是数据集中所有房屋面积的平均值。

计算 μ 1 \mu_1 μ1 的方法:

  1. 收集所有样本的房屋面积数据。假设有 n n n 个样本,房屋面积分别为 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn
  2. 计算样本的总和
    总和 = x 1 + x 2 + ⋯ + x n \text{总和} = x_1 + x_2 + \dots + x_n 总和=x1+x2++xn
  3. 计算平均值 μ 1 \mu_1 μ1
    μ 1 = 总和 n \mu_1 = \frac{\text{总和}}{n} μ1=n总和

μ 1 = 600 \mu_1 = 600 μ1=600 是通过计算房屋面积的平均值得出的。这个值用于标准化每个样本的房屋面积,使其在进行机器学习或其他分析时更易处理。

先计算均值 μ 1 \mu_1 μ1=600

x 1 x_1 x1是 size in f e e t 2 feet^2 feet2
x 2 x_2 x2是 bedrooms
x 1 = x_1= x1= x 1 − μ 1 x m a x − x m i n \frac{x_1-\mu_1}{x_{max}-x_{min}} xmaxxminx1μ1

x m a x = 2000 , x m i n = 300 x_{max}=2000,x_{min}=300 xmax=2000,xmin=300, μ 1 = 600 \mu_1 = 600 μ1=600

300<= x 1 x_1 x1<=2000

300 − 600 2000 − 300 \frac{{300-600}}{2000-300} 2000300300600 ≤ \leq x 1 x_1 x1 ≤ \leq 2000 − 600 2000 − 300 \frac{2000-600}{2000-300} 20003002000600

− 300 1700 \frac{{-300}}{1700} 1700300 ≤ \leq x 1 x_1 x1 ≤ \leq 1400 1700 \frac{1400}{1700} 17001400

− 0.18 -0.18 0.18 ≤ \leq x 1 x_1 x1 ≤ \leq 0.82 0.82 0.82
同理计算 x 2 x_2 x2

0 ≤ \leq X 2 X_2 X2 ≤ \leq 5

-0.46 ≤ \leq x 2 x_2 x2 ≤ \leq 0.54

Z-score normalization(Z-分数归一化 / 标准化得分归一化)

Z-score normalization 可以翻译为 Z-分数归一化标准化得分归一化。它是数据预处理中的一种标准化方法,用于将数据转换为均值为 0、标准差为 1 的标准正态分布。

介绍:

Z-score normalization 是一种通过减去数据的平均值(mean)并除以标准差(standard deviation)来对数据进行归一化的方法。这种方法有助于将不同尺度的数据转换到一个相同的尺度上,特别是在特征具有不同量纲时很有用。

公式:

对于给定的一个数据点 x i x_i xi,其 Z-score 归一化后的值 z i z_i zi 计算公式为:
z i = x i − μ σ z_i = \frac{x_i - \mu}{\sigma} zi=σxiμ
其中:

  • μ \mu μ 是所有数据的平均值(mean)。
  • σ \sigma σ 是所有数据的标准差(standard deviation)。

优点:

  • 在特征值存在不同量纲或单位时,Z-score normalization 有助于统一尺度,使得算法(如梯度下降)能更有效地收敛。
  • 特别适用于数据近似服从正态分布的情况。

示例:

假设我们有一个数据点 x = 70 x = 70 x=70,数据的平均值 μ = 50 \mu = 50 μ=50,标准差 σ = 10 \sigma = 10 σ=10。使用 Z-score normalization,我们可以计算出:
z = 70 − 50 10 = 2 z = \frac{70 - 50}{10} = 2 z=107050=2
这个归一化后的值 2 表示数据点 70 相对于均值 50,距离标准差的 2 倍。

这种归一化方式在许多机器学习算法中都很常用,特别是在需要统一数据尺度的情况下,如支持向量机(SVM)、k-最近邻(KNN)等。

在这里插入图片描述
μ 1 \mu_1 μ1 σ 1 \sigma_1 σ1 分别是数据的均值和标准差。

1. 均值( μ 1 \mu_1 μ1)的计算

均值 μ 1 \mu_1 μ1 是所有样本值的平均值,其计算公式为:
μ 1 = 1 n ∑ i = 1 n x i \mu_1 = \frac{1}{n} \sum_{i=1}^{n} x_i μ1=n1i=1nxi
其中:

  • n n n 是样本的数量。
  • x i x_i xi 是每个样本值。

计算步骤:

  • 将所有的样本值相加。
  • 将总和除以样本数量 n n n

示例:

假设有 5 个样本值:300, 400, 600, 800, 2000。均值的计算如下:
μ 1 = 300 + 400 + 600 + 800 + 2000 5 = 4100 5 = 820 \mu_1 = \frac{300 + 400 + 600 + 800 + 2000}{5} = \frac{4100}{5} = 820 μ1=5300+400+600+800+2000=54100=820

2. 标准差( σ 1 \sigma_1 σ1)的计算

标准差 σ 1 \sigma_1 σ1 描述数据的离散程度,其计算公式为:
σ 1 = 1 n ∑ i = 1 n ( x i − μ 1 ) 2 \sigma_1 = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_1)^2} σ1=n1i=1n(xiμ1)2
其中:

  • μ 1 \mu_1 μ1 是均值。
  • x i x_i xi 是每个样本值。
  • n n n 是样本的数量。

计算步骤:

  • 对每个样本值 x i x_i xi 减去均值 μ 1 \mu_1 μ1,计算差值的平方。
  • 将所有平方差值相加。
  • 将总和除以样本数量 n n n
  • 最后对结果开平方根。

示例:

继续使用前面的样本值,假设 μ 1 = 820 \mu_1 = 820 μ1=820,计算每个样本的平方差:
( 300 − 820 ) 2 = 270400 (300 - 820)^2 = 270400 (300820)2=270400
( 400 − 820 ) 2 = 176400 (400 - 820)^2 = 176400 (400820)2=176400
( 600 − 820 ) 2 = 48400 (600 - 820)^2 = 48400 (600820)2=48400
( 800 − 820 ) 2 = 400 (800 - 820)^2 = 400 (800820)2=400
( 2000 − 820 ) 2 = 1392400 (2000 - 820)^2 = 1392400 (2000820)2=1392400
将它们相加:
270400 + 176400 + 48400 + 400 + 1392400 = 1888000 270400 + 176400 + 48400 + 400 + 1392400 = 1888000 270400+176400+48400+400+1392400=1888000
然后除以 5:
1888000 5 = 377600 \frac{1888000}{5} = 377600 51888000=377600
最后开平方根:
σ 1 = 377600 ≈ 614.5 \sigma_1 = \sqrt{377600} \approx 614.5 σ1=377600 614.5

μ 1 = 600 \mu_1 = 600 μ1=600 σ 1 = 450 \sigma_1 = 450 σ1=450,说明使用了一组特定的数据来得出这些值。可以通过类似的计算方法得到这些结果。

图中最后的不等式表示 Z-score 归一化后的值的范围。让我们详细解释这些不等式是如何计算出来的。

1. 原始数据范围

  • 对于特征 x 1 x_1 x1(房屋面积),原始范围是 300 ≤ x 1 ≤ 2000 300 \leq x_1 \leq 2000 300x12000
  • 对于特征 x 2 x_2 x2(卧室数量),原始范围是 0 ≤ x 2 ≤ 5 0 \leq x_2 \leq 5 0x25

2. Z-score 归一化公式

Z-score 归一化的公式是:
z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ
其中:

  • x x x 是原始数据点。
  • μ \mu μ 是均值。
  • σ \sigma σ 是标准差。
  • z z z 是归一化后的值。

3. 对于 x 1 x_1 x1 的归一化

给定:

  • 均值 μ 1 = 600 \mu_1 = 600 μ1=600
  • 标准差 σ 1 = 450 \sigma_1 = 450 σ1=450
  • 原始范围 300 ≤ x 1 ≤ 2000 300 \leq x_1 \leq 2000 300x12000

使用 Z-score 归一化公式:
z 1 = x 1 − μ 1 σ 1 z_1 = \frac{x_1 - \mu_1}{\sigma_1} z1=σ1x1μ1
将边界代入公式:

  • 对于 x 1 = 300 x_1 = 300 x1=300
    z 1 = 300 − 600 450 = − 300 450 = − 0.67 z_1 = \frac{300 - 600}{450} = \frac{-300}{450} = -0.67 z1=450300600=450300=0.67
  • 对于 x 1 = 2000 x_1 = 2000 x1=2000
    z 1 = 2000 − 600 450 = 1400 450 ≈ 3.1 z_1 = \frac{2000 - 600}{450} = \frac{1400}{450} \approx 3.1 z1=4502000600=45014003.1
    所以,归一化后的 x 1 x_1 x1 范围是 − 0.67 ≤ z 1 ≤ 3.1 -0.67 \leq z_1 \leq 3.1 0.67z13.1

4. 对于 x 2 x_2 x2 的归一化

给定:

  • 均值 μ 2 = 2.3 \mu_2 = 2.3 μ2=2.3
  • 标准差 σ 2 = 1.4 \sigma_2 = 1.4 σ2=1.4
  • 原始范围 0 ≤ x 2 ≤ 5 0 \leq x_2 \leq 5 0x25

使用 Z-score 归一化公式:
z 2 = x 2 − μ 2 σ 2 z_2 = \frac{x_2 - \mu_2}{\sigma_2} z2=σ2x2μ2
将边界代入公式:

  • 对于 x 2 = 0 x_2 = 0 x2=0
    $ z_2 = \frac{0 - 2.3}{1.4} = \frac{-2.3}{1.4} \approx -1.6$
  • 对于 x 2 = 5 x_2 = 5 x2=5
    $ z_2 = \frac{5 - 2.3}{1.4} = \frac{2.7}{1.4} \approx 1.9$
    所以,归一化后的 x 2 x_2 x2 范围是 − 1.6 ≤ z 2 ≤ 1.9 -1.6 \leq z_2 \leq 1.9 1.6z21.9

总结:

归一化后的不等式范围是通过将原始数据的最小值和最大值代入 Z-score 归一化公式计算出来的。这种方法将数据标准化,使得每个特征的归一化后数据范围与标准正态分布的范围相一致。

检查梯度下降是否收敛

在这里插入图片描述

选择学习率

在这里插入图片描述
在这里插入图片描述

常用希腊字母的 LaTeX 命令

在 Overleaf(或 LaTeX 文档)中,可以使用命令输入希腊字母。以下是一些常用希腊字母的 LaTeX 命令:

小写希腊字母:

  • \alpha : α
  • \beta : β
  • \gamma : γ
  • \delta : δ
  • \epsilon : ε
  • \zeta : ζ
  • \eta : η
  • \theta : θ
  • \iota : ι
  • \kappa : κ
  • \lambda : λ
  • \mu : μ
  • \nu : ν
  • \xi : ξ
  • \pi : π
  • \rho : ρ
  • \sigma : σ
  • \tau : τ
  • \upsilon : υ
  • \phi : φ
  • \chi : χ
  • \psi : ψ
  • \omega : ω

大写希腊字母:

  • \Gamma : Γ
  • \Delta : Δ
  • \Theta : Θ
  • \Lambda : Λ
  • \Xi : Ξ
  • \Pi : Π
  • \Sigma : Σ
  • \Upsilon : Υ
  • \Phi : Φ
  • \Psi : Ψ
  • \Omega : Ω

只需在文档中使用这些命令,希腊字母就会正确显示。例如,输入 \alpha 会显示为 α。

你可以将这些命令用于数学模式,例如在 $...$\[...\] 环境中。


http://www.kler.cn/a/488510.html

相关文章:

  • 基类指针指向派生类对象,基类指针的首地址永远指向子类从基类继承的基类首地址
  • Linux 系统下磁盘相关指令:df、du、fdisk、lsblk
  • Linux 文件的特殊权限—ACL项目练习
  • 【2024华为OD-E卷-100分-boss的收入】(题目+思路+JavaC++Python解析)
  • Web应用安全-漏洞扫描器设计与实现
  • 内网基础-防火墙-隧道技术
  • 什么是端口
  • Python 数据建模完整流程指南
  • LeetCode LCP17速算机器人
  • Python标准库之SQLite3
  • 【再谈设计模式】模板方法模式 - 算法骨架的构建者
  • 【游戏设计原理】53 - 解决问题的障碍
  • SOLID原则学习,接口隔离原则
  • AI赋能服装零售:商品计划智能化,化危机为转机
  • SQL Server查询计划操作符——查询计划相关操作符(3)
  • 【HTML+CSS+JS+VUE】web前端教程-16-HTML5新增标签
  • C#Halcon找线封装
  • 关于地平线开发板使用nhwc格式的前向传播输出格式的理解
  • 【FlutterDart】tolyui_feedback组件例子效果(23 /100)
  • vue3 初体验
  • 学习通过几何约束从单个图像预测 3D 车道形状和相机姿态 | 论文解读
  • 前端哪些内容最好添加专属前缀?
  • 嵌入式系统 tensorflow
  • HarmonyOS开发:ArkTS初识
  • Windows使用AutoHotKey解决鼠标键连击现象(解决鼠标连击、单击变双击的故障)
  • package包机制详解