【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法
目录
参考书,学习书
0 统计学知识大致脉络
1 个体---抽样---整体
1.1 关于个体---抽样---整体,这个三段式关系
1.2 要明白,自然界的整体/母体是不可能被全部认识的
1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的
1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识
1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。
1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的
2 数据的来源
2.1 数据的来源
2.2 数据的层级
2.3 样本是什么sample?
3 如何获得样本数据?
3.1 随机抽样不是随意调查
3.2 等距抽样
3.3 分层抽样
3.4 群抽样
3.5 混合多阶段抽样
参考书,学习书
- 日本,图解统计学,今野纪雄
- 日本,新手小白学统计,本丸谅
- 《从零开始学统计》 归璐
- 《戏说统计》李连江
0 统计学知识大致脉络
- 需要对统计学有个大致脉络
- 不至于完全陷入到细节里去,时刻清楚自己在地图的哪儿
1 个体---抽样---整体
1.1 关于个体---抽样---整体,这个三段式关系
- 个体---抽样---整体/母体
- case---sample---polulation
- 普通----特殊----整体
- 这个类黑格尔的三段式逻辑的内涵:
- 我们想从个别例子认识到整体,总结到一般规律,中间必须要借用1个逻辑步骤:抽样样本。
- 也就是用1个命题+另外1个命题→得到结论的一种推理方式
黑格尔式三段论逻辑:
人都要吃饭
男人是人
所以男人要吃饭
科学网—“三段论(Syllogism)”简介 - 柳渝的博文
在传统逻辑中,“三段论(Syllogism)”指从两个命题(“大前提”和“小前提”)推导出“结论”的一种推理形式,是数学证明、科学研究及日常沟通交流中常用的一种推理。
在希腊语中,syllogism由syn(与)和logos(语言)组成,本意指“(一个命题)与(另一个命题)相连”,引申义指“推理”。亚里士多德在“工具论(Organon)”中第一次将三段论系统化。
例子:
- 所有人都是必死的。(大前提)
- 苏格拉底是人。(小前提)
- 苏格拉底是必死的。(结论)
1.2 要明白,自然界的整体/母体是不可能被全部认识的
1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的
- 我们自己当然可以自己定义一个我们全知的“整体”
- 在这个角度,我们就是上帝
- 但是这个知识“题目”“模型”“思想试验” ,我们可以在我们定义的世界里有上帝视角,这不奇怪。
- 就和做题 != 解决社会上的真实问题一样,这些整体,一般并不是我们要面对的生活中的自然的/社会上的真正整体。
类比的例子
- 定距数据里,比如摄氏度,身高,我们也可以进行* /,因为我们预设了一个0点,温度0,身高0。那为什么说定距数据里,进行* /运算没有意义?
- 是因为别人可以设置 -10度,-20作为温度和身高的起点,这样计算乘除的结果就完全不同了。所以是没有意义的。
- 只有用绝对0度当0度的华氏温度才有 */的意义。
1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识
大整体/母体的特点
- 理论都是无穷的,无法穷尽数量的,所以我们不可能认识真正的全部集合里的所有元素!
- 获得巨大量的数据,成本是很高的。
- 等等原因
1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。
- 从柏拉图等观点来看
- 因为真正的母体/总体我们无法认识,其实这些是概念,不存在于现实世界,只存在于彼岸世界,是所谓的“形而上”
- 而我们所有的现实生活的一个个集合,都是对这个概念的一个拙劣的投射/模仿(反正就是这个意思吧,我水平就只能描述道这)
1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的
- 哲学里对立的观点本来就很多
- 有“形而上”的观点,也有 纯经验的观点,比如经验主义,现象学等等
- 这个不说了,作为普通人的我把握不住。
我认为
- 真正的整体也许确实永远不可能被全部认识
- 整体是部分可知的
- 或者说,整体的一些现实投射是可知的。
- 我们的日常经验就是对整体的一些认识,这些就是我们认识的材料。
2 数据的来源
2.1 数据的来源
- 调查,问卷等
- 统计
2.2 数据的层级
- 个体:case ,特殊化
- 整体/母体:不可知
- 进行普查:几乎不可能
- 进行全面调查,很难,成本很高
- 所以我们要通过样本取认识整体,样本是什么?
2.3 样本是什么sample?
- 样本是整体的一部分
- 样本不是整体的随便一部分
- 样本是整体的微缩/结构相同/类似/缩小版
但是问题来了
- 我们连整体都不能全知,我们怎么知道样本是否和总体是结构类似的?
- 我们不能保证(因为我们确实验证不了)
- 我们最多只能从过程中保证
3 如何获得样本数据?
- 我们最多只能从过程中保证,样本类似整体,怎么做?
- 只能从过程上尽量保证随机:每个个体均等机会被抽中。
- 取样的原则1:公平
- 取样的原则2:成本可控时,抽样数量要尽可能多一点
保证总体中每个case有相同的概率被抽取到!
这需要考虑到很多
这些case 在各个属性维度上,都要是相同,平等的概率
比如人口调查,需要让人口从年龄,学历,地域,,,,各个维度都平等的抽到
- 具体的手段:随机抽样/等距抽样,等等
3.1 随机抽样不是随意调查
- 抽样调查
- 正确:比如给每个个体编号,然后取随机抽取这些编号
- 错误:比如给每个个体编号,挑选编号前100个
3.2 等距抽样
- 比如给每个个体编号,然后按一定距离比如相距10个抽1个
- 1,11,21,等等
3.3 分层抽样
- 如果我们知道数据是分层的
- 并且,我们可以用一些辅助数据可以区分这些分层
- 那么我们可以在不同的分层中分别抽取数据
数据分层:(有点像聚类分析,不同的类别)
- 分层间,数据差异大
- 分层内,数据差异比较小
3.4 群抽样
- 从直接抽个体,变成直接抽群
- 群抽样的特点例子,比如学校学生等天然就是分群的
群抽样和分层抽样差异
- 群抽样,每个群体之间差异小,群里尽量是差异很大,每个群内部都类整体分布
- 分层抽样相反,层之间差异大,层内差异小。
3.5 混合多阶段抽样
比较复杂,我没仔细看~~
反正就是利用上面各种抽样的优点