当前位置: 首页 > article >正文

标准化欧氏距离公式

标准化欧氏距离(Standardized Euclidean Distance)通过对每个维度的差异进行标准化处理,消除不同量纲或方差的影响。其公式如下:

d ( x , y ) = ∑ i = 1 n ( x i − y i σ i ) 2 d(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^n \left( \frac{x_i - y_i}{\sigma_i} \right)^2} d(x,y)=i=1n(σixiyi)2

其中:

  • x \mathbf{x} x y \mathbf{y} y 是两个数据点;
  • x i x_i xi y i y_i yi 是第 i i i 个维度的值;
  • σ i \sigma_i σi 是第 i i i 个维度的标准差。

简单案例

假设有两个二维点 A ( 1 , 2 ) A(1, 2) A(1,2) B ( 3 , 5 ) B(3, 5) B(3,5),两个维度的标准差分别为 σ 1 = 2 \sigma_1 = 2 σ1=2 σ 2 = 1 \sigma_2 = 1 σ2=1。计算步骤如下:

  1. 第一维度
    差值为 3 − 1 = 2 3 - 1 = 2 31=2,标准化后为 2 2 = 1 \frac{2}{2} = 1 22=1,平方为 1 2 = 1 1^2 = 1 12=1

  2. 第二维度
    差值为 5 − 2 = 3 5 - 2 = 3 52=3,标准化后为 3 1 = 3 \frac{3}{1} = 3 13=3,平方为 3 2 = 9 3^2 = 9 32=9

  3. 求和并开平方
    d = 1 + 9 = 10 ≈ 3.16 d = \sqrt{1 + 9} = \sqrt{10} \approx 3.16 d=1+9 =10 3.16

相比之下,普通欧氏距离为:
d 普通 = ( 3 − 1 ) 2 + ( 5 − 2 ) 2 = 4 + 9 = 13 ≈ 3.61 d_{\text{普通}} = \sqrt{(3-1)^2 + (5-2)^2} = \sqrt{4 + 9} = \sqrt{13} \approx 3.61 d普通=(31)2+(52)2 =4+9 =13 3.61


关键区别

  • 标准化处理:每个维度的差值除以该维度的标准差,弱化高方差维度的影响。
  • 适用场景:当特征量纲不同或方差差异较大时(如身高 vs 体重),标准化欧氏距离能更合理地度量距离。

标准差与方差(补差知识)

以下是关于 方差(Variance)标准差(Standard Deviation) 的简明解释和案例:


1. 方差(Variance)

定义
方差衡量一组数据的离散程度,即数据点与均值的平均平方偏差。
公式(总体方差):
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2 σ2=N1i=1N(xiμ)2
其中:

  • ( N ) 是数据总数,
  • ( x_i ) 是第 ( i ) 个数据点,
  • ( \mu ) 是数据的均值。

2. 标准差(Standard Deviation)

定义
标准差是方差的平方根,用于将离散程度还原到原始数据的量纲。
公式(总体标准差):
σ = σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2} σ=σ2 =N1i=1N(xiμ)2


3. 简单案例

假设某班级 5 名学生的数学成绩为:( 70, 80, 85, 90, 95 ),计算方差和标准差。

步骤 1:计算均值((\mu))

μ = 70 + 80 + 85 + 90 + 95 5 = 420 5 = 84 \mu = \frac{70 + 80 + 85 + 90 + 95}{5} = \frac{420}{5} = 84 μ=570+80+85+90+95=5420=84

步骤 2:计算每个数据与均值的差,平方后求和
数据 ( x_i )( x_i - \mu )( (x_i - \mu)^2 )
70-14196
80-416
85+11
90+636
95+11121
求和370
步骤 3:计算方差((\sigma^2))

σ 2 = 370 5 = 74 \sigma^2 = \frac{370}{5} = 74 σ2=5370=74

步骤 4:计算标准差((\sigma))

σ = 74 ≈ 8.60 \sigma = \sqrt{74} \approx 8.60 σ=74 8.60


4. 关键区别

指标意义单位用途
方差数据与均值的平均平方偏差原始单位的平方衡量离散程度
标准差方差的平方根,反映数据的实际波动幅度与原始数据单位一致更直观地解释数据波动

5. 为什么需要标准差?

方差虽然能衡量离散程度,但单位是原始数据的平方(如“分²”),难以直接解释。
标准差通过开方还原单位(如“分”),更符合实际意义。
例如,案例中标准差为 8.6 分,表示学生成绩平均偏离均值约 8.6 分。


6. 扩展应用

  • 数据分布分析:标准差越小,数据越集中;越大则越分散。
  • 标准化(Z-Score):公式 ( z = \frac{x - \mu}{\sigma} ),用于消除量纲差异(如标准化欧氏距离)。
  • 质量控制:判断生产数据是否偏离正常范围(如“3σ原则”)。

希望这个解释和案例能帮到你!


http://www.kler.cn/a/594333.html

相关文章:

  • 移动端医疗AI诊断系统的设计思路与技术展望——多模态生理数据分析的理论框架探讨
  • uniapp配置代理解决跨域问题
  • C#入门学习记录(五)轻松掌握条件分支与循环语句
  • uniapp 实现的下拉菜单组件
  • 第四课:Python数组与链表(动态数据结构的深度探索)
  • 单台openEuler24.03 LTS下的开源大数据环境搭建
  • Spring 如何创建 Bean 实例的?
  • 智慧楼宇:科技编织的未来生活图景
  • 服务器数据恢复—服务器raid故障导致上层分区不可用的数据恢复案例
  • 下一代代币技术白皮书:合规化智能合约与零知识证明隐私协议
  • Android 和 Linux 之间关联和区别
  • FPGA 以太网通信(一)
  • AI鸟类识别技术革新生态监测:快瞳科技如何用“智慧之眼”守护自然?
  • 自定义Spark启动的metastore_db和derby.log生成路径
  • Java 项目 IntelliJ IDEA 多环境配置详解
  • 第58天:Web攻防-SQL注入二次攻击堆叠执行SQLMAPTamper编写指纹修改分析调试
  • 时间语义与窗口操作:Flink 流式计算的核心逻辑
  • 学习笔记 ASP.NET Core Web API 8.0部署到iis
  • 【软件工程】01_软件工程的概述
  • LCCI ESG 中英联合认证国际分析师适合的岗位