Skip to content
Leo的技术分享
Go back

贝叶斯公式学习笔记

贝叶斯公式有着广泛的应用。最近重新拿起上学时的教科书——浙大《概率论与数理统计(第三版)》,复习了一遍全概率公式与贝叶斯公式,算是捡起了一些记忆。 本文从条件概率出发,推导出全概率公式以及贝叶斯公式,并以例子说明贝叶斯公式的应用。

条件概率

条件概率研究如何计算事件 AA 已发生的条件下事件 BB 发生的概率。 例如,将一枚硬币抛掷两次,观察其出现正反面的情况,设事件 AA 为“至少一次为正面”,事件 BB 为“两次掷出同一面”。求已知事件 AA 已经发生的条件下事件 BB 发生的概率。 我们以 HH 表示硬币掷出正面, TT 表示硬币掷出反面,则上述随机试验的样本空间为 S={HH,HT,TH,TT}S=\{HH, HT, TH, TT\}A={HH,HT,TH}A=\{HH,HT, TH\}B={HH,TT}B=\{HH,TT\}。由于已知事件 AA 已经发生,即已知试验所有可能结果所组成的集合就是 AAAA 中共有 3 个元素,其中只有 HHBHH \in B。因此,在 AA 发生的条件下 BB 发生的概率(记为 P(BA)P(B|A))为

P(BA)=13P(B|A) = \frac{1}{3}

另外,我们易知

P(A)=34,P(AB)=14,P(BA)=13=1/43/4P(A)=\frac{3}{4}, P(AB)=\frac{1}{4}, P(B|A)=\frac{1}{3}=\frac{1/4}{3/4}

其中,P(AB)P(AB) 为事件 AA 与事件 BB 同时发生的概率。

一般地,

P(BA)=P(AB)P(A)P(B|A) = \frac{P(AB)}{P(A)}

乘法定理

由条件概率的计算公式,可以得到

P(AB)=P(A)P(BA)P(AB) = P(A)P(B|A)

上式可以推广到多个事件的积事件,即

P(ABC)=P(AB)P(CAB)=P(A)P(BA)P(CAB)P(ABC) = P(AB)P(C|AB)=P(A)P(B|A)P(C|AB)

例如,设某光学仪器厂制造的透镜,第一次落下时打破的概率为 1/2,若第一次落下未打破,第二次落下打破的概率为 7/10,若前两次落下未打破,第三次落下打破的概率为 9/10,试求透镜落下三次而未打破的概率。 以 Ai(i=1,2,3)A_i(i=1,2,3) 表示事件“透镜第 ii 次落下打破”,以 BB 表示事件“透镜落下三次而未打破”。因为 B=A1 A2 A3B=\overline{A_1} \ \overline{A_2} \ \overline{A_3},故有

P(B)=P(A1 A2 A3)=P(A1)P(A2A1)P(A3A1 A2)=(112)(1710)(1910)=3200P(B)=P(\overline{A_1} \ \overline{A_2} \ \overline{A_3})=P(\overline{A_1})P(\overline{A_2}|\overline{A_1})P(\overline{A_3}|\overline{A_1} \ \overline{A_2})\\ = (1- \frac{1}{2})(1- \frac{7}{10})(1- \frac{9}{10}) = \frac{3}{200}

全概率公式

定义SS 为试验 EE 的样本空间,B1,B2,...,BnB_1, B_2, ..., B_nEE 的一组事件,若 (i)BiBj=,ij,i,j=1,2,...,n;B_iB_j=\varnothing,i \neq j,i,j=1,2,...,n; (ii)B1B2...Bn=SB_1 \cup B_2 \cup ... \cup B_n=S 则称 B1,B2,...,BnB_1, B_2, ..., B_n 为样本空间 SS 的一个划分

即如果 B1,B2,...,BnB_1,B_2,...,B_n 是样本空间的一个划分,那么,对每次试验,事件 B1,B2,...,BnB_1,B_2,...,B_n 中必有一个且仅有一个发生。 例如,设试验 EE 为“掷一颗骰子观察其点数”。它的样本空间为 S={1,2,3,4,5,6}S=\{1,2,3,4,5,6\}EE 的一组事件 B1={1,2,3},B2={4,5},B3={6}B_1 = \{1,2,3 \},B_2=\{4,5\},B_3=\{6\}SS 的一个划分,而事件组 C1={1,2,3},C2={3,4},C3={5,6}C_1=\{1,2,3\},C_2=\{3,4\}, C_3=\{5,6\} 不是 SS 的划分。

定理 设试验 EE 的样本空间为 SSAAEE 的事件,B1,B2,...,BnB_1, B_2,...,B_nSS 的一个划分,且 P(Bi)>0(i=1,2,...,n)P(B_i) > 0(i=1,2,...,n),则

P(A)=P(AB1)P(B1)+P(AB2)P(B2)+...+P(ABn)P(Bn)P(A)=P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n)

该式子称为 全概率公式

证明 因为

A=AS=A(B1B2...Bn)=AB1AB2...ABnA=AS=A(B_1 \cup B_2 \cup ... \cup B_n) = AB_1 \cup AB_2 \cup ... \cup AB_n,由假设 P(Bi)>0P(B_i)>0,且 (ABi)(ABj)=(AB_i)(AB_j)=\varnothing,得到

P(A)=P(AB1)+P(AB2)+...+P(ABn)=P(AB1)P(B1)+P(AB2)P(B2)+...+P(ABn)P(Bn)P(A)=P(AB_1) + P(AB_2) + ... + P(AB_n)\\ =P(A|B_1)P(B_1) + P(A|B_2)P(B_2)+...+P(A|B_n)P(B_n)

贝叶斯公式

设试验 EE 的样本空间为 SSAAEE 的事件,B1,B2,...,BnB_1,B_2,...,B_nSS 的一个划分,且 P(A)>0,P(Bi)>0(i=1,2,...,n)P(A) > 0,P(B_i)>0 (i=1,2,...,n),则

P(BiA)=P(ABi)P(Bi)j=1nP(ABj)P(Bj),i=1,2,...,nP(B_i|A)= \frac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^{n}{P(A|B_j)P(B_j)}},i=1,2,...,n

该式称为 贝叶斯公式

证明 由条件概率的定义和全概率公式,有

P(BiA)=P(BiA)P(A)=P(ABi)P(Bi)j=1nP(ABj)P(Bj),i=1,2,...,nP(B_i|A)=\frac{P(B_iA)}{P(A)} = \frac{P(A|B_i)P(B_i)}{\sum\limits_{j=1}^{n}{P(A|B_j)P(B_j)}},i=1,2,...,n

特别地,当 n=2n=2 时,将 B1B_1 记为 BB,则 B2B_2 就是 B\overline B,全概率公式为

P(A)=P(AB)P(B)+P(AB)P(B)P(A) = P(A|B)P(B) + P(A|\overline B)P(\overline B)

贝叶斯公式为

P(BA)=P(AB)P(A)=P(AB)P(B)P(AB)P(B)+P(AB)P(B)P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)P(B)}{P(A|B)P(B) + P(A|\overline B)P(\overline B)}

例子

例1 某电子设备厂所用的元件由三家元件制造厂提供,根据以往的记录有以下数据:

元件制造厂次品率提供元件的份额
10.020.15
20.010.80
30.030.05

设这三家工厂的产品在仓库中是均匀混合的,且无区别的标志。 (1)在仓库中随机取一只元件,求它是次品的概率; (2)在仓库中随机地取一只元件,若已知取到的是次品,为分析次品出自何厂,需求出此次品由三家工厂生产的概率分别是多少。

AA 表示“取到的是一只次品”,Bi(i=1,2,3)B_i(i=1,2,3) 表示“所取到的产品是由第 ii 家工厂提供的”。B1,B2,B3B_1,B_2,B_3 是样本空间 SS 的一个划分,且有 P(B1)=0.15,P(B2)=0.80,P(B3)=0.05P(B_1)=0.15,P(B_2)=0.80,P(B_3)=0.05P(AB1)=0.02,P(AB2)=0.01,P(AB3)=0.03P(A|B_1)=0.02,P(A|B_2)=0.01,P(A|B_3)=0.03

(1)由全概率公式

P(A)=P(AB1)P(B1)+P(AB2)P(B2)+P(AB3)P(B3)=0.0125P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+P(A|B_3)P(B_3) = 0.0125

(2)由贝叶斯公式

P(B1A)=P(AB1)P(B1)P(A)=0.02×0.150.125=0.24P(B_1|A)= \frac{P(A|B_1)P(B_1)}{P(A)}=\frac{0.02 \times 0.15}{0.125}=0.24 P(B2A)=0.64,P(B3A)=0.12P(B_2|A)=0.64, \quad P(B_3|A)=0.12

即这只次品来自第 2 家工厂可能性最大。

例2 对以往数据分析结果表明,当机器调整得良好时,产品的合格率为 98%,而当机器发生某种故障时,其合格率为 55%。每天早上机器开动时,机器调整良好的概率为 95%。试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?

AA 为事件 “产品合格”,BB 为事件 “机器调整良好”,已知 P(AB)=0.98,P(AB)=0.55P(A|B)=0.98,P(A|\overline B)=0.55,P(B)=0.95,P(B)=0.05P(B)=0.95,P(\overline B)=0.05,所求概率为 P(BA)P(B|A),由贝叶斯公式

P(BA)=P(AB)P(B)P(AB)P(B)+P(AB)P(B)=0.98×0.950.98×0.95+0.55×0.05=0.97P(B|A)=\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|\overline B)P(\overline B)} =\frac{0.98 \times 0.95}{0.98 \times 0.95 + 0.55 \times 0.05} = 0.97

这就是说,当第一件产品是合格品时,机器调整良好的概率为 0.97。这里,P(B)=0.95P(B)=0.95 是由以往的数据分析得到的,叫做 先验概率,而得到信息之后再重新加以修正的概率(0.97)叫做 后验概率。有了后验概率,我们对机器情况有了进一步了解。

参考资料


Share this post on:

Previous Post
SQL JOIN 的使用
Next Post
CLion 实现远程调试