概率论起源
随机试验
在生活中有些现象是注定的,比如往空中扔一个石头必然会落回地面,这叫作确定性现象。
也有些现象虽然充满不确定性,但结果又有迹可循,比如掷一个六面骰子:
首先,必然是1、2、3、4、5、6中的一个
其次,反复抛掷的话,会发现每个点数的出现又是有规律的
这种不确定的,但又有规律可言的现象称为随机现象。正因为随机现象的存在,才有了概率论这门学科。
在一些概率论教材中,抛弃了“随机现象”的概念,指出”随机试验“的概念:
- 试验可在相同条件下重复进行
- 每次试验只有一个结果出现且结果事先不能预测
- 每次试验所有可能出现的结果已知
概率定义
概率的起源来自一个游戏
赌注分配
问题
1654年,职业赌徒德·梅累向法国数学家帕斯卡(B.Pascal,1623-1662)提出一个使他苦恼很久的分赌本问题——甲、乙两赌徒赌技相同,各出赌注50块,每局中无平局。他们约定,谁先赢三局则得到全部100块的赌本。当甲赢了两局,乙赢了一局时,因故要中止赌博。那么这100块如何分才算公平?
解法
可以想到以下两种分法:
(1)甲得100·(1/2) 法郎,乙得100·(1/2) 法郎
考虑到甲、乙两人赌技相同,就平均分配,没有顾及甲已经比乙多赢一局这一个现实,对甲显然不公平。
(2)甲得100·(2/3) 法郎,乙得100·(1/3) 法郎。
第二种分法尊重了已经进行的三局比赛结果,但没有考虑如果继续比下去的话又会有怎样的可能,即没有顾及两人在现有基础上对比赛结果的一种期待。
那么,这赌注到底怎样分才更合理呢?试想,假如能继续比下去的话,至多再有两局必可结束
对局情况 | 输赢 |
---|---|
第四局甲胜 | 甲胜 |
第四局乙胜 | 进行第五局 |
第五局甲胜 | 甲胜 |
第五局乙胜 | 乙胜 |
设甲的最终所得为X ,将“甲在第四局胜”或“在第四局负而在第五局胜”两类情形的概率相加,得
P(X=100)=1/2+1/4=3/4
从而甲的“期望” 所得应为0·(1/4)+100·(3/4)=75 法郎;乙的“期望”所得应为100-75=25法郎。这种分赌注的方法照顾到了已赌结果,又包括了再赌下去的一种“期望”,自然比前两种方法都更为合理,使甲乙双方都乐于接受。
这就是“数学期望”这个名称的由来。
概率的主流派别
硬币抛出之后:得到的结果是随机的,那么得到正面的概率是多少呢?这里的“概率”又指的是什么?
对于概率的定义有几个主流的派别:
频率派
频率派的理论基础是对过去事实的归纳总结。
从试验结果可见,随着n的增大,频率越来越趋近于0.5。可见,虽然单次扔硬币的结果是随机的,但多次重复后频率趋于稳定,这种稳定性也称为频率稳定性,反应了扔硬币存在某种必然性。
频率派认为如果频率存在稳定性,即当时下面极限存在,就得到了概率(用Probability的首字母P来表示):
频率派缺点
通过频率来定义概率的方法比较符合直觉,但缺陷也很明显:
- 需要n足够大,但是“足够大”这个词很含糊
- 需要在相同条件下反复扔硬币,但是“相同条件”这个词也很含糊,也很难保证。
- 永远也不可能扔无限次硬币,所以得到的概率始终是一个近似值
- 有些时候根本不具备反复实验的条件,比如火山喷发的概率应该怎么计算?
古典派
古典派的理论基础是不充分理由原则。
雅各布·伯努利提出如果因为无知,使得我们没有办法判断哪一个结果会比另外一个结果更容易出现,那么应该给予它们相同的概率。比如:
硬币:由于不清楚硬币哪一面更容易出现,那么应该给予正面、反面相同的概率,即为
骰子:我们不清楚骰子哪一面更容易出现,那么应该给予每一面相同的概率,即为
此称为不充分理由原则(Insufficient Reason Principle)。
以不充分理由原则为基础,经由拉普拉斯:之手,确立了古典概率的定义,即:
未知的概率都为等概率
在这之后,古典概率在整个19世纪也被人们广泛接受,我们高中学习的概率,基本都是古典概率。
古典派的缺陷
-
古典派的概率定义,“未知的概率都是等概率”,有循环定义的嫌疑。
-
不充分理由原则没办法处理非等概率的情况,假如被告知硬币两面是非等概率的,但是不知道是哪一面,那么应该怎么办?(拉普拉斯提出还是应该按照等概率来处理)
-
还容易产生矛盾
主观派
主观派认为概率是信念强度(degree of belief)
例如,我认为20年后全面实现自动驾驶的概率为90%
虽说是主观概率,其实也有客观的部分,自动驾驶的全面实现预测概率是基于现在的技术发展及工业界投入及神经网络发展等各个因素的考虑。
主观概率更贴近人的思考方式,比如我们在作科学研究时,会先给出一个猜想,这就是给出了一个主观概率。
所以在人工智能时代,因为要模仿人的行为,主观概率越来越受到重视。
贝叶斯派是主观派的一种
贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。
主观派缺陷
- 说到科学,大家都认为应该是客观的,但是偏偏主观概率不客观,充满了个人偏见
- 因为主观,大家很难对某个主观概率达成共识
频率学派与贝叶斯学派
频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。
频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。物理世界本身存在的随机性(客观概率)
贝叶斯学派从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。是我们由于信息不足而对事件发生可能性的度量(主观概率)。
频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。
总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。
频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程,贝叶斯概率论假设观察者对某事件处于某个知识状态中(例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念),之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)。在这一过程中,观察者无法用简单的逻辑来推断,因为观察者并没有完全的信息作为证据,因此只能采用似真推断(plausible reasoning),对于各种各样可能的结果赋予一个「合理性」(plausibility)。例子中,小明原先认为硬币的分布是均匀的,于是根据小明原有的信念,这个论断合理性非常高;在观察到100次抛掷中只有20次正面朝上后,小明开始怀疑硬币的均匀性,此时小明很可能认为「硬币不均匀」这一推断的合理性很高,支持的证据就是他刚刚实验的观测结果。
上面的例子用贝叶斯概率论的语言来描述,就是观察者持有某个前置信念(prior belief),通过观测获得统计证据(evidence),通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」,从而得出后置信念(posterior belief)来最好的表征观测后的知识状态(state of knowledge)。这里,贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量(measure of plausibility),从而可以允许观测者在不完全信息的状态下进行推断。这里,观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」,也就是说,观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。
从这个意义上来讲,贝叶斯概率论试图构建的是知识状态的表征,而不是客观世界的表征。因此,在机器学习、统计推断中,许多情况下贝叶斯概率推断更能解决观察者推断的问题,而绕开了关于事件本体的讨论,因为没有讨论本体的必要性。