当前位置：首页 > article >正文

【小白学机器学习19】什么是统计里的定量分析

article 2024/10/22 10:20:59

1 定性分析和定量分析

1.1 两种分析方式

人类有两种认识世界上的事物的方式

定性分析：通过发掘问题、理解事件现象，去研究事物的属性，事物之间的关系等。
定量分析：用数学工具，用数字为形容词/名字去描述和记录某些个体的属性的分析方式

下面是百科里来的

定性研究（Qualitative research）是与定量研究（Study on measurement，Quantitative research）相对的概念，也称质化研究，是社会科学领域的一种基本研究范式，也是科学研究的重要步骤和方法之一。

定性研究是指通过发掘问题、理解事件现象、分析人类的行为与观点以及回答提问来获取敏锐的洞察力。几乎每天在每个工作场所和学习环境下都会进行定性研究。

定量研究（Study on measurement，Quantitative research）是与定性研究（Qualitative research）相对的概念，要考察和研究事物的量，就得用数学的工具对事物进行数量的分析，这就叫定量的研究，也称量化研究，是社会科学领域的一种基本研究范式，也是科学研究的重要步骤和方法之一。

1.2 定性分析

很多相似名字，差不多意思

定性研究 qualitative research
质性研究，质性分析，质化研究等
缺点：

无法证伪，可能导致大量的错的，假的混杂在真的一起。

1.3 定量分析

1.3.1 定义

量化分析：就是把要分析的一个真实事物/理念中概念：变项，进行数字化，从而成为一个变量 variable,然后分析这个变量。
建模：简单的就是建一个函数表达式 /一个方程等，复杂的，很多函数和方程组联立等等超过我的描述能力

1.3.2 名字

有很多相近的名字，大概都是差不多的意思

定量分析，量化分析：quantitative analysis
统计分析，统计方法：statistical analysis
优点
缺点

有时候会因为数据错误，而结论也肯定错误，“错误输入导致错误的输出”
有时候会得出一些肤浅的结论，比如关联度过高，可能本身就是存在共线性的关系等。

1.4 特点和差异

定性分析，可以教基本路数，思维方式，但具体细节，其他靠悟，更接近艺术
定量分析，可以教基本路数，还可以具体步骤，套路，招式，可证伪得思维方式

1.5 两者的关系

两种分析方式没啥好鄙视得，
做定量研究之前，一般需要先有理念，设想等，也就是先有定性的分析。
而不做定量分析，定性研究很难证伪，无法落地

所有定量分析之前都需要定性分析吗？
反例：机器学习里的无监督学习是不是已经是不需要先做定性分析的例子？根据算法去自动分类，形成最终的结果，是研究人员事前并没有设想到的一些结论等？

3 测量的4个尺度

1 定类
2 定距
3 定比
4 定量

4 总体和样本

4.1 总体，母体，population

是一种理想化的东西，可以说永远无法真正的/完全的认识，可以部分认知

样本和整体的关系，不是局部和整体的关系
而是微缩结构和整体结构的关系

4.2 样本 Sample

必须尽量和高度形似母体，结构相同
尽量是1比1的缩略最好
但是因为母体不可被真正完全认识，只能部分认识，所这个不可绝对验证，只能逼近。

5 如何保证样本和总体同结构呢

如何保证样本和总体同结构呢：无法最终保证
也就是结果的正确/正义无法保证
只能从过程的正确/正义上去保证

随机抽样
有规律的往往就是非随机的
除非是随机抽取的，比如编号后随机
至少程序上保证每个个体都有被平等抽到的可能。

也说明了，公平也一样，只有过程的公平，没有结果的公平。
但是这个又在变化，继续下一次的过程。

正态分布/自然分布也说了这个问题，一定是中间大，两头小。
而且钟形曲线是无限的，天网恢恢，苏而不漏。

随意抽样，

Vary variable变项----变量

现有的理论模型
例外是机器学习的无监督学习
量化之前，我们已经假设了
总体是符合什么样的分布了，比如是正态分布
正态分布的规律我们是知道的，但是不清楚每个具体的总体的正态分布的，均值，方差等具体参数！

6 量化

2 什么叫显著

显著，只是说两者存在，非随机的关系。
不等于重要，或者其他

个体两方面
1 多个个体
2 多个属性/特征，每个属性都有1 名字 2尺度

个体
二维表
横向，一个个体的多个属性（只挑一些）
纵向，一个属性的组成的线/

量化与数据
数据种类一，界面数据
数据种类2，时序类数据

7 量化的对象

1 第1层级，个体 case individual
2 第2层级，样本 sample
3 第3层级，总体，母体的（认为的那个模型里）参数的具体参数 population
4

样本统计值
1 均值
2 回归系数
3 偏回归系数，净回归系数. 前期是其他参数不变时，这个参数作为自变量和因变量之间的关系。

http://www.kler.cn/news/360010.html

相关文章：

YOLOv11模型改进-注意力-引入简单无参数注意力模块SimAM 提升小目标和遮挡检测

基于Springboot个性化图书推荐系统的设计与实现

Java学习教程，从入门到精通，Java 基本数据类型详解（5）

【JVM】—深入理解ZGC回收器—背景概念回收流程

Android中使用bottomnavigation实现底部导航栏

PyTorch 中 12 种张量操作详解

7、Vue2(三) element-ui+less

15分钟学 Go 第 13 天：数组

springboot 读取配置的方式

基于Lambda架构的大数据处理详解

洛谷刷题 P1008 [NOIP1998 普及组] 三连击

深入剖析CAS：无锁并发编程的核心机制与实际应用

MySQL 的系统函数

快速了解Python流程控制语句基本使用

【C++】在Windows中使用Boost库——实现TCP、UDP通信

Moectf-week1-wp

ENSP环回路由的配置

深度学习基础—神经风格迁移

PCL 基于中值距离的点云对应关系(永久免费版)

我常用的两个单例模式写法（继承Mono和不继承Mono的）