机械学习—零基础学习日志(概率论总笔记1)
概率论的起源
在历史上有明确记载的最早研究随机性的数学家是帕斯卡和费马。帕斯卡就是最早发明机械计算机的那位数学家,他并不是赌徒,但是他有些赌徒朋友,那些人常常玩一种掷骰子游戏,游戏规则是由玩家连续掷4次骰子,如果其中没有6点出现,玩家赢,如果出现一次6点,则庄家赢。
在这个赌局中,由于双方的赢面差不多,不是大家能够凭直觉判断准的,因此玩家并不觉得吃亏,甚至还觉得赢面大一些。但是,只要时间一长,庄家总是赢家,玩家注定是输家。1654年,一位赌徒朋友就向帕斯卡请教,是否能证明庄家的赢面更大?
帕斯卡经过计算,发现庄家的赢面还真是稍微大一点,大约是52%vs48%。大家不要小看这多出来的四个百分点,累积起来,能聚敛很多财富。在研究赌局概率的过程中,帕斯卡和费马有很多通信,今天一般认为他们二人创立了概率论。
概率论的发展
著名的启蒙学者伏尔泰是当时最精通数学的人之一,他算出了法国政府彩票的漏洞,找到了一些只赚不赔的买彩票的方法,赚了一辈子也花不完的钱。伏尔泰一生没有担任任何公职,或者做生意,但是从来没有为钱发过愁。这让他能够专心写作,研究学问。
从18世纪末到19世纪,数学家们对概率论产生了浓厚的兴趣,像法国的伯努利、拉普拉斯和泊松等人,德国的高斯,以及俄罗斯的切比雪夫和马尔可夫等人,都对概率论的发展有很大的贡献。经过他们共同的努力,概率论的基础理论逐渐建立起来,很多实际的问题也得到了解决。
在这些人中,划时代的人物是拉普拉斯。拉普拉斯是一位了不起的科学家,但是却又热衷于当官。他有一个著名的学生叫做拿破仑,靠这层关系他后来当上了政府的部长。不过,他的政绩不太好,因此拿破仑讲,他是一个伟大的数学家,但却是一个不太称职的部长。不过,拉普拉斯一生在科学上的贡献还是非常大的,比如关于宇宙构成的星云说,就是由他完成的。
当然他最为人所知的是以他的名字命名的拉普拉斯变换。在概率论方面,拉普拉斯定义了什么是概率,以及它该如何计算。在拉普拉斯之前,人们对“有可能”和“概率大”是分不清的。其实你今天问一些人,买彩票中彩的概率是多少?他依然会说50%,因为只有中彩和不中彩两种情况。
拉普拉斯是如何定义概率的呢?他先定义了一种可能性相同的基本随机事件,也称为单位事件。
古典概率计算公式
每一种不可再分,都是单位事件。单位事件的概率称为原子概率
拉普拉斯对于概率论的描述其实有不少漏洞,比如在现实中是否存在着可能性完全相等的单位事件,这本身就是一个大问号。
为了说明一个随机事件A的概率,用了等可能性的单位事件这个说法。但是在没有概率的定义之前,等可能性又从何谈起?
现代概率论发展
统计学的规律只有经过了大量随机试验才能得出,也才有意义。但是随机试验得到的结果,和我们用古典概率算出来的结论可能是两回事。不仅你掷10次硬币大部分时候不可能得到五次正面朝上的结果,你做其它随机试验也是如此。
抛硬币,每次正面朝上的概率是1/2;掷骰子,事件A是“六点朝上”,它出现的概率每次也是1/6。当然事件B就是其它点朝上,每次的概率是5/6。在一般情况下,出现A的概率是p,B的概率是1-p。这类试验后来被称为伯努利试验。
如果我们把从0次正面朝上,也就是说全部是背面朝上,到10次全是正面朝上的可能性的图像画出如下。
中间高两头低的曲线,满足这种曲线的概率分布,被称为伯努利分布,也称为二项式分布,因为每一次试验的结果有两种。
所有有一个重要结论:有关不确定性的规律,只有在大量随机试验时才显现出来,当试验的次数不足,它则显现出偶然性和随意性。
第一个概念就是平均值或者叫做数学期望值,也就是N*p,因为概率是p的事件进行N次试验后,平均发生的次数,也是最可能发生的次数,好,这是N*p。接下来我们再用平方差(简称方差)这个概念来描述曲线的“鼓”与“平”。
方差其实是对误差的一种度量,既然是误差,就要有可对比的基点,在概率中,这个基准点就是数学期望值(简称期望值),也就是我们通常说的平均值。
如果我们做10次试验只出现4次正面朝上的情况,就有了误差,误差是1。如果9次正面朝上,那么误差就大了,就是4。好了,接下来我们就把各种误差,和产生那些误差的可能性一起考虑,做一个加权平均,算出来的“误差”就是平方差。
之所以使用“平方”这个词,是因为计算方差这种误差时用到了平方,为了进一步方便误差和平均值的比较,我们通常会对方差开根号一次,这样得到的结果被称为标准差(严格来讲,方差开根号后和标准差还是略有差别,但是这个差别很小,为了便于理解,我们就假定标准差是方差开根号的结果)。
什么是理想呢?我们进行N次伯努利试验,每一次事件A发生的概率为p,N次下来发生了N*p次,这就是理想。那么什么是现实呢?由于标准差的影响,使得实际发生的次数严重偏离N*p,这就是现实。
就是越是小概率事件,你如果想确保它发生,需要试验的次数比理想的次数越要多得多。
从生活的角度来看,提高单次成功率要远比多做试验更重要。
很多人喜欢赌小概率事件,觉得它成本低,大不了多来几次,其实由于误差的作用,要确保小概率事件发生,成本要比确保大概率事件的发生高得多。
什么是泊松分布?
泊松分布是这样定义的:如果随机事件A发生的概率是p,进行n次独立的试验,恰巧发生了k次,则相应的概率可以用这样一个公式来计算:
假如说公司门口有10个停车位,公司有100个上班的员工,每个员工早上8点钟之前开车来上班的概率是10%。当然,正如我们昨天所说,他们每天什么时候来公司不仅是随机的,而且彼此无关,不存在两个人商量之后一起到的情况,而且也不存在头一天来晚了没抢到停车位,第二天早到的可能性。
现在,你是这家公司的新员工,早上8点整开车到了公司,请问停车场还有车位的概率是多大?
根据泊松分布的计算,积累的概率是0.46.
很多人投资总是失败,判定一件事发生的可能性总是有很大的误差,一个重要的原因就是靠直觉和有严重漏洞的逻辑,而不是靠严密的数学逻辑和推导。
生活启发:应对随机性,需要的冗余比你想的要大。
主要参考:《数学通识50讲》吴军 ——得到 ,概率论章节
墙裂推荐大家去学习《数学通识50讲》,吴军老师讲解得超级超级好!