当前位置：首页 > article >正文

【AI知识点】置信区间（Confidence Interval）

article 2024/10/6 6:47:33

置信区间（Confidence Interval, CI） 是统计学中用于估计总体参数的范围。它给出了一个区间，并且这个区间包含总体参数的概率等于某个指定的置信水平（通常是 90%、95% 或 99%）。与点估计不同，置信区间通过区间估计给出了参数的可能范围，从而提供了更可靠的信息。

1. 定义

置信区间是用于估计总体参数（如均值、比例等）的一个区间。与点估计（即单个估计值）不同，置信区间提供了一系列可能包含总体参数的值，并伴随着一定的置信水平。

置信区间可以看作是一个范围，表示我们对这个范围包含真实参数值的信心程度。例如，给定 95% 的置信水平，置信区间表示我们有 95% 的信心认为该区间包含总体参数。

2. 置信水平

置信水平（Confidence Level） 表示区间包含总体参数的概率。通常使用的置信水平有 90%、95%、99% 等。置信水平越高，置信区间越宽，表示我们更有把握认为总体参数落在该区间内。

3. 置信区间的计算

对于总体均值 $\mu$ ，当样本量较大且样本均值服从正态分布时，置信区间可以通过以下公式计算：

$\text{置信区间} = \left( \overline{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right)$

其中：

$\overline{X}$ 是样本均值。
$\sigma$ 是总体的标准差，若不知道 $\sigma$ ，可以用样本标准差 $s$ 代替。
$n$ 是样本量。
$z_{\alpha/2}$ 是对应置信水平的标准正态分布的临界值。例如，对于 95% 置信水平， $z_{\alpha/2} = 1.96$ 。
- 临界值：在标准正态分布中，临界值是位于分布尾部的那个点，使得在该点外的面积（即尾部面积）等于 $\text{置信水平}) / 2$ 。例如，在 95% 的置信水平下，左右两侧各留出 2.5% 的尾部面积，因此 95% 的置信区间在 $z$ 轴上对应的临界值是 1.96。1.96 是标准正态分布 $x$ 轴上的一个点，它表示距离均值 1.96 个标准差的位置。

图示如下：

在这里插入图片描述
图片来源：https://analystprep.com/cfa-level-1-exam/quantitative-methods/confidence-intervals-2/

4. 置信区间的例子

假设我们从某个城市中抽取了 100 人的样本，测量他们的年收入，计算出样本均值为 $\overline{X} = 50,000$ 美元，样本标准差为 $s = 10, 000$ 美元。我们希望以 95% 的置信水平来估计该城市居民的平均年收入。

根据 95% 置信水平，对应的 $z_{\alpha/2} = 1.96$ ，样本量 $n = 100$ ，置信区间为：

$\text{置信区间} = \left( 50,000 - 1.96 \cdot \frac{10,000}{\sqrt{100}}, 50,000 + 1.96 \cdot \frac{10,000}{\sqrt{100}} \right)$

$= (50, 000 - 1, 960, 50, 000 + 1, 960)$

$= (48, 040, 51, 960)$

因此，我们可以说我们有 95% 的信心认为该城市的平均年收入在 $48, 040$ 美元到 $51, 960$ 美元之间。

5. 不同类型的置信区间

a. 总体均值的置信区间

适用于推断总体均值时的置信区间，通常使用 $z$ 检验（样本量较大）或 $t$ 检验（样本量较小，且总体方差未知）。

b. 总体比例的置信区间

当研究总体的某种比例（如支持率）时，可以用置信区间来推断总体比例的范围。

c. 差异的置信区间

用于比较两个总体均值或比例的差异时，可以计算差异的置信区间来确定总体间差异的可能范围。

6. 置信区间的应用

a. 医学研究

在临床试验中，置信区间常用于估计治疗效果的大小。例如，研究某种药物的疗效是否显著，置信区间可以帮助研究者判断药物的有效性。

b. 市场调研

在市场调研中，置信区间可以用于估计市场份额、顾客满意度等参数的范围。例如，估计某品牌在市场中的份额，置信区间可以帮助估计该份额的上限和下限。

c. 质量控制

在制造业中，置信区间常用于监控产品质量，估计产品在某个规格范围内的比例。

7. 置信区间与假设检验的关系

置信区间和假设检验都是用于统计推断的工具，但它们在使用方式和目标上有所不同：

置信区间：用于估计总体参数的范围。它告诉我们总体参数落在某个区间内的可能性。
假设检验：用于判断某一特定假设是否成立。它告诉我们是否可以拒绝某个假设。

假设检验的结果与置信区间的一致性：

如果我们通过假设检验拒绝了某个值作为总体参数，那么这个值通常不会出现在相应的置信区间内。
反之，如果某个值落在置信区间之外，那么我们会拒绝这个值作为总体参数，在对应的假设检验中也会拒绝零假设。

8. 总结

置信区间是统计推断中的重要工具，它提供了总体参数的一个估计范围，并通过置信水平反映了对该估计范围的信心程度。置信区间结合了样本数据和统计理论，帮助我们在不确定性中做出更有依据的推断和决策。

http://www.kler.cn/news/334215.html

相关文章：

如何将git 远程仓库update新建分支同步test到个人own仓库

【PostgreSQL】实战篇——使用 PostgreSQL 进行数据分析与报表生成

Python时间戳转日期

arm-伪指令

如何安全地大规模部署 GenAI 应用程序

【科普】什么是apt和yum？它们之间有什么异同？

3、练习常用的HBase Shell命令+HBase 常用的Java API 及应用实例

资源《Arduino 扩展板4-单游戏摇杆》说明。

Prompt技巧总结和示例分享

linux网络编程实战

Hive数仓操作（九）

算法笔记（十一）——优先级队列(堆)

云原生（四十八） | Nginx软件安装部署

Linux基础命令su详解

MKV转MP4丨FFmpeg的简单命令使用——视频格式转换

VSCode debug模式无法跳转进入内置模块

HTB：Mongod[WriteUP]

MAC备忘录空白解决方案

通过PHP获取商品详情

微信小程序使用scroll-view 加上enable-flex之后高度变得特别长