贝叶斯定理
先看看贝叶斯公式的内容,下面的公式中,H 代表 Hypothsis,E 代表 Evidence:
P ( H ∣ E ) = P ( H ) ∗ P ( E ∣ H ) P ( E ) P(H|E)=\frac {P(H)*P(E|H)}{P(E)} P(H∣E)=P(E)P(H)∗P(E∣H)
P ( H ) P(H) P(H) 作为先验概率,它是指在没有任何证据(事实)的佐证下,假设成立的概率
P ( E ∣ H ) P(E|H) P(E∣H) 是指在假设成立的前提下,证据发生的概率
P ( E ) P(E) P(E) 是指证据发生的概率
等式左边的是我们要计算的结果, P ( H ∣ E ) P(H|E) P(H∣E) 是指在给定证据的情况下,假设成立的概率,也即后验概率
所以贝叶斯公式综合来看,就是当你知道一个先验概率 P ( H ) P(H) P(H),后面又给定了一些佐证的概率 P ( E ∣ H ) P(E|H) P(E∣H)和 P ( E ) P(E) P(E),你如何用这些佐证信息更新这个先验概率得到后验概率 P ( H ∣ E ) P(H|E) P(H∣E)
为了理解这个公式,我们从一个 irrational 的推测开始说起。现已知如下信息:从前有一个叫做 Steve 的人,他很内向孤僻,而且喜欢把物品保持地井井有条
根据这段描述,问 Steve 是图书馆管理员的概率更大还是农民的概率更大?
大多数人可能会觉得 Steve 是一个图书馆管理员的概率更大,但是这是一种非理性思考(irrational),原因很简单:大多数人都没有把人群中整体图书馆管理员和农民的比例考虑进去
在现实中,图书馆管理员与农民的比例为 1 : 20(这是一个假设的情况,实际的比例可能有更多的农民),这会严重影响最终的概率结果
例如我们的样本空间中有 10 个图书馆管理员,200 个农民,这符合总体的比例
符合上面那段描述(内向孤僻,而且喜欢把物品保持地井井有条)的图书馆管理员占 40%,也就是有 4 个;符合上面那段描述的农民占 10%,有 20 个
也就是图书馆管理员符合上面那段描述的概率是农民的四倍之多
那么在给定的描述(证据)下,Steve 是一个图书馆管理员的概率为 4 / ( 4 + 20 ) = 16.7 % 4/(4 + 20) = 16.7\% 4/(4+20)=16.7%,这个概率仍然不是很大
贝叶斯定理的核心就是:新的证据不应该决定你的结论,而是应该更新你的结论。下面的图说明了贝叶斯定理的核心
贝叶斯定理的应用条件:你有一个假设(Steve 是一个图书管理员),然后你获得了一些证据(他很内向,喜欢井井有条),你想获得在这些证据的支持下,你的假设成立的概率有多大(求解一个条件概率,代表被更新后的概率值)
我们再次回顾 16.7% 这个结果是怎么来的
P ( H ∣ E ) = ( # P e r s o n ) ∗ P ( H ) ∗ P ( E ∣ H ) ( # P e r s o n ) ∗ P ( H ) ∗ P ( E ∣ H ) + # P e r s o n ) ∗ P ( ¬ H ) ∗ P ( E ∣ ¬ H ) P(H|E) = \frac {(\#Person)* P(H) * P(E|H)}{(\#Person)* P(H) * P(E|H) + \#Person)* P(\neg H) * P(E|\neg H)} P(H∣E)=(#Person)∗P(H)∗P(E∣H)+#Person)∗P(¬H)∗P(E∣¬H)(#Person)∗P(H)∗P(E∣H)
其中 ( # P e r s o n ) (\#Person) (#Person) 是样本的总人数,在这个例子中为 210,显然这个变量可以约掉,于是就得到了;
P ( H ∣ E ) = P ( H ) ∗ P ( E ∣ H ) P ( H ) ∗ P ( E ∣ H ) + P ( ¬ H ) ∗ P ( E ∣ ¬ H ) P(H|E) = \frac {P(H) * P(E|H)}{P(H) * P(E|H) + P(\neg H) * P(E|\neg H)} P(H∣E)=P(H)∗P(E∣H)+P(¬H)∗P(E∣¬H)P(H)∗P(E∣H)
根据条件概率公式:
P ( E ∣ H ) = P ( E H ) P ( H ) P(E|H) = \frac {P(EH)}{P(H)} P(E∣H)=P(H)P(EH)
上式简化为:
P ( H ∣ E ) = P ( H ) ∗ P ( E ∣ H ) P ( E H ) + P ( E ¬ H ) = P ( H ) ∗ P ( E ∣ H ) P ( E ) P(H|E) = \frac {P(H) * P(E|H)}{P(EH) + P(E\neg H)} = \frac {P(H) * P(E|H)}{P(E)} P(H∣E)=P(EH)+P(E¬H)P(H)∗P(E∣H)=P(E)P(H)∗P(E∣H)
P ( H ∣ E ) P(H|E) P(H∣E)就是后验概率, P ( H ) P(H) P(H)就是先验概率
所以与其死记硬背贝叶斯公式,还不如把 Steve 这个例子和下面的图记清楚
形式上,贝叶斯公式完全可以通过条件概率推导出来:
P ( A B ) = P ( B ∣ A ) ∗ P ( A ) = P ( A ∣ B ) ∗ P ( B ) P(AB) = P(B|A) * P(A) = P(A|B) * P(B) P(AB)=P(B∣A)∗P(A)=P(A∣B)∗P(B)
注意 P ( A B ) = = P ( A ) ∗ P ( B ) P(AB) == P(A)*P(B) P(AB)==P(A)∗P(B) 不一定成立,除非事件 A 和 B 是完全独立的,那么此时 P ( A ∣ B ) = = P ( A ) P(A|B)==P(A) P(A∣B)==P(A),也就是在 B 事件发生的前提下 A 发生的概率就等于 A 发生的概率(B 事件是否发生完全不影响 A 事件发生的概率)
应用题
某地区居民的肝癌发病率为0.0004 ,现用甲胎蛋白法进行普查。医学研究表明,化验结是有错检的可能的。已知患有肝癌的人其化验结果99%呈阳性,而没患肝癌的人其化验结果99.9% 呈阴性。现某人的检查结果呈阳性,问他真的患有肝癌的概率是多少?
答:28.37%
假设人群中肺炎的感染率为0.1%,肺炎检测的正确率为99%。一个人的肺炎检测结果为阳性,求他患有肺炎的概率
答:9.016%
这 2 个问题都可以通过画图的方式轻松解决
贝叶斯定理与医疗检测
假设乳腺癌在女性人群中的发病率为1%,现取 1000 个女性作为样本进行筛查,其中有 10 个患有乳腺癌,990 个健康人
筛查结果表明在 10 个患者中,有 9 个正确地被检测出,但是有一个 False negative
在 990 个健康人中,有 89 个 被检测出 False positive
现有一位女性检测结果为阳性,问她真正患有乳腺癌的概率为多大?
答: 9 9 + 89 ≈ 0.1 \frac {9}{9 + 89}\approx0.1 9+899≈0.1
用公式表达,在检测结果为阳性的情况下,真正患病的概率为: T P T P + F P \frac {TP}{TP + FP} TP+FPTP
在上面关于检测的描述中,能够在患病人群中检测出真阳性的概率被称作灵敏度(sensitivity),在上面的例子中是 90%
在健康人群检测出真阴性的概率被称作特异度(specificity),在上面的例子中是 91%
所以即使灵敏度和特异度看起来都很高,对于一个阳性结果,她真正患有乳腺癌的概率也只不过是 10%,这看起来像是一个佯谬(看起来是错的,违反直觉的,但从逻辑上讲是对的)
原因可以从贝叶斯定理中探寻:检测只是更新了先验概率,而检测的灵敏度和特异度与先验概率无关,例如在上面的例子中,检测结果为阳性,则患有乳腺癌的概率一下从先验概率的 1% 提升到 10%,翻了一个数量级。所以贝叶斯定理可以看作一个先验概率的 amplifier
Tests determine if you hava a disease
Tests determin your chances of having a disease
Tests update your chances of having a disease
P ( D i s e a s e g i v e n + ) = T P T P + F P = ( P i r o r ) ( S e n s i t i v i t y ) ( P i r o r ) ( S e n s i t i v i t y ) + ( 1 − P i r o r ) ( F N R ) = P ( D ) P ( + ∣ D ) P ( D ) P ( + ∣ D ) + P ( ¬ D ) P ( + ∣ ¬ D ) P(Disease\ given\ +) = \frac {TP}{TP + FP} = \frac {(Piror)(Sensitivity)}{(Piror)(Sensitivity) + (1 - Piror)(FNR)}=\frac {P(D)P(+|D)}{P(D)P(+|D) + P(\neg D)P(+|\neg D)} P(Disease given +)=TP+FPTP=(Piror)(Sensitivity)+(1−Piror)(FNR)(Piror)(Sensitivity)=P(D)P(+∣D)+P(¬D)P(+∣¬D)P(D)P(+∣D)
在医疗检测的这种佯谬,可以简单解释为存在大量的 False Positive “稀释”了检测结果为阳性的情况下患病的概率