01
实际情境
实际情境摘自《思考,快与慢》第16章“ 因果关系比统计学信息更具说服力”。
一辆出租车在夜晚肇事后逃逸。
这座城市有两家出租车公司,其中一家公司的出租车是绿色的,另一家是蓝色的。
你知道以下数据:
●这座城市85%的出租车是绿色的,15%是蓝色的。
●一位目击证人辨认出那辆肇事出租车是蓝色的。当晚,警察在出事地点对证人的证词进行了测试,得出的结论是:目击者在当时能够正确辨认出这两种颜色的概率是80%,错误的概率是20%。
这场事故的出租车是蓝色而不是绿色的概率是多少?
02
解题过程
贝叶斯定理是什么?
P(A|B)=P(B|A)×P(A)/P(B)
P(A)、P(B)是A、B事件的先验概率或边缘概率,P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率,P(B|A)的 含义同上。
这个情境中的A事件、B事件是什么呢?要求解的是这场事故的出租车是蓝色的概率,细化下其实要求解的是证人证词为蓝色的前提下肇事车确为蓝车的概率。那么A事件就可以定为肇事车为蓝车,B事件为证人证词为蓝色。P(A)=15%,P(B)未知,P(B|A)是肇事车为蓝车的前提下目击证人正确分辨出蓝色肇事车,其概率为80%。
接下去的重点就是P(B)的求解了,对P(B)使用全概率公式
P(B)=P(绿)P(B|绿)+P(A)P(B|A)=85%×20%+15%×80%=29%
最后得出 P(A|B)=80%×15%/29%=41%。
可以看出,最关键的步骤在于确定证人证词为蓝色的概率。
03
细解贝叶斯定理
贝叶斯定理求解出的贝叶斯概率与经典概率是有区别的。
经典概率基于概率论,在概率论中我们是基于已有的理论模型来推断未知事件发生的概率;而贝叶斯概率则是基于统计学的,在统计学中我们观察数据,并推断什么样的理论模型可以解释我们观察到的数据。因此贝叶斯概率认为概率是我们个人的主观概念,表明我们对某个事物是否发生的相信程度,换句话说,它解决的是来自外部的信息与我们大脑内信念的交互关系。
上面采用了十分抽象的字母A、B表示事件,为了便于理解,我们采用另外一套字母体系:H和E(D)。其中H=hypothesis,E=evidence(或D=data)。如此一来,贝叶斯定理就可以表述为通过不断的收集证据E(数据D)来强化对假设事件H的信心。因此,贝叶斯定理就表述为
P(H|E)=P(H)*P(E|H)/P(E)
P(H)—先验概率,又叫基础概率,是无任何条件限制下事件H发生的概率
P(H|E)—后验概率
P(E|H)—条件似然
如果把H与~H看作两类人,那么这两类人针对同一件事会有不同的看法和倾
向,条件似然描述的就是这两类不同的人针对事件E表现出的倾向概率。注意H
和~H两者并不互斥,即P(E|H)+P(E|~H)≠1
P(E)—整体似然,在所有情况下证据E发生的概率,因为它起到归一化的作用,所以又称为归一化常量。
具体计算过程可以解读为后验比(Posterior odds ratio)=先验比(Prior odds ratio)×似然比(Likelihood ratio)1×似然比2×……,然后标准化。
采用另外一套字母体系后,最初提出的出租车问题可以简化为
目击证人能正确分辨出肇事车辆颜色的概率是80%,错误分辨出肇事车辆颜色的概率是20%,出租车辆是蓝色的概率是15%,若目击证人正确辨认出肇事车辆的前提下,肇事车辆是蓝色出租车的概率是多少?(理解为通过目击证人来校正肇事车辆是蓝色出租车这个先验事件的概率)
1. 这里的先验事件是肇事车辆是蓝色出租车,先验概率P(A)=15%
2.“两类人”就是能正确分辨两种颜色和不能正确分辨两种颜色的人,两者是互斥的
因此,解题如下:
先验比=15%:(1-15%)=3/17
似然比=80%:20%=4
后验比=(3/17)×4=12/17
标准化后得后验概率=(12/17)/(12/17+1)=41%
在这个情境里,来自外部的信息就是出租车辆是蓝色的概率,而目击证人能正确分辨出租车辆的颜色则是我们大脑内的信念,通过贝叶斯定理解决了两者的交互关系。
04
贝叶斯定理的实际应用
通过上述的描述,我们知道贝叶斯定理是统计学知识,但其实它在心理学、经济学、神经科学等领域都有巨大潜力。因为这类问题的研究对象往往具有极高的不确定性,是由大量较低一级单元组成的复杂系统。在这种情况下,我们可以采用贝叶斯建模(先验和似然),将实验数据和理论结合起来。
“裙子的颜色是黑色还是金色?”
和颜色相关的特征是反射率,黑色的物体代表反射率为0,白色的物体是1。反射光强既及入射光×反射率决定了我们看到的颜色,我们的眼睛只能检测反射光强,而我们的物体识别问题实际上是想找到反射率这个特征(与颜色相关)。但我们的眼睛收集到的反射光强既包含反射率,又包含入射光的信息,因此我们看到的黑白灰的色彩实际上使我们的大脑根据先验和似然性做出的贝叶斯推断。
这个例子中的先验就是我们在自然界中,根据时间现场的光线强度等对于入射光强做出的估计数值;而似然就是不同颜色物体的反射率,两者结合就可以推出反射光强的后验分布,而这个分布的峰值,正是你最可能看到的颜色。
这个实验很好的解释了每个人看到的裙子颜色和日常经验里对现场光强的先验有关,而这也在告诉我们,我们看到的东西并非真实,因为我们接受的信息总是有限的,我们在不自觉地做大量的脑补,这些脑补组成了我们最终看到的世界。
来源:网络整理 免责声明:本文仅限学习分享,如产生版权问题,请联系我们及时删除。