贝叶斯定理-课堂笔记

贝叶斯定理

先看看贝叶斯公式的内容，下面的公式中，H 代表 Hypothsis，E 代表 Evidence：

$P(H|E)=\frac {P(H)*P(E|H)}{P(E)}$

$P (H)$ 作为先验概率，它是指在没有任何证据（事实）的佐证下，假设成立的概率

$P (E ∣ H)$ 是指在假设成立的前提下，证据发生的概率

$P (E)$ 是指证据发生的概率

等式左边的是我们要计算的结果， $P (H ∣ E)$ 是指在给定证据的情况下，假设成立的概率，也即后验概率

所以贝叶斯公式综合来看，就是当你知道一个先验概率 $P (H)$ ，后面又给定了一些佐证的概率 $P (E ∣ H)$ 和 $P (E)$ ，你如何用这些佐证信息更新这个先验概率得到后验概率 $P (H ∣ E)$

为了理解这个公式，我们从一个 irrational 的推测开始说起。现已知如下信息：从前有一个叫做 Steve 的人，他很内向孤僻，而且喜欢把物品保持地井井有条

根据这段描述，问 Steve 是图书馆管理员的概率更大还是农民的概率更大？

大多数人可能会觉得 Steve 是一个图书馆管理员的概率更大，但是这是一种非理性思考(irrational)，原因很简单：大多数人都没有把人群中整体图书馆管理员和农民的比例考虑进去

在现实中，图书馆管理员与农民的比例为 1 : 20（这是一个假设的情况，实际的比例可能有更多的农民），这会严重影响最终的概率结果

在这里插入图片描述

例如我们的样本空间中有 10 个图书馆管理员，200 个农民，这符合总体的比例

符合上面那段描述（内向孤僻，而且喜欢把物品保持地井井有条）的图书馆管理员占 40%，也就是有 4 个；符合上面那段描述的农民占 10%，有 20 个

也就是图书馆管理员符合上面那段描述的概率是农民的四倍之多

那么在给定的描述（证据）下，Steve 是一个图书馆管理员的概率为 $16.7\%$ ，这个概率仍然不是很大

贝叶斯定理的核心就是：新的证据不应该决定你的结论，而是应该更新你的结论。下面的图说明了贝叶斯定理的核心

在这里插入图片描述
贝叶斯定理的应用条件：你有一个假设（Steve 是一个图书管理员），然后你获得了一些证据（他很内向，喜欢井井有条），你想获得在这些证据的支持下，你的假设成立的概率有多大（求解一个条件概率，代表被更新后的概率值）

在这里插入图片描述

我们再次回顾 16.7% 这个结果是怎么来的

$\frac {（\#Person）* P(H) * P(E|H)}{（\#Person）* P(H) * P(E|H) + \#Person）* P(\neg H) * P(E|\neg H)}$

其中 $(\#Person)$ 是样本的总人数，在这个例子中为 210，显然这个变量可以约掉，于是就得到了；

$\frac {P(H) * P(E|H)}{P(H) * P(E|H) + P(\neg H) * P(E|\neg H)}$

根据条件概率公式：

$\frac {P(EH)}{P(H)}$

上式简化为：

$\frac {P(H) * P(E|H)}{P(EH) + P(E\neg H)} = \frac {P(H) * P(E|H)}{P(E)}$

$P (H ∣ E)$ 就是后验概率， $P (H)$ 就是先验概率

在这里插入图片描述

所以与其死记硬背贝叶斯公式，还不如把 Steve 这个例子和下面的图记清楚

在这里插入图片描述
形式上，贝叶斯公式完全可以通过条件概率推导出来：

$P (A B) = P (B ∣ A) * P (A) = P (A ∣ B) * P (B)$

注意 $P (A B) == P (A) * P (B)$ 不一定成立，除非事件 A 和 B 是完全独立的，那么此时 $P (A ∣ B) == P (A)$ ，也就是在 B 事件发生的前提下 A 发生的概率就等于 A 发生的概率（B 事件是否发生完全不影响 A 事件发生的概率）

应用题

某地区居民的肝癌发病率为0.0004 ,现用甲胎蛋白法进行普查。医学研究表明，化验结是有错检的可能的。已知患有肝癌的人其化验结果99%呈阳性，而没患肝癌的人其化验结果99.9% 呈阴性。现某人的检查结果呈阳性，问他真的患有肝癌的概率是多少?

答：28.37%

假设人群中肺炎的感染率为0.1％，肺炎检测的正确率为99％。一个人的肺炎检测结果为阳性，求他患有肺炎的概率

答：9.016%

这 2 个问题都可以通过画图的方式轻松解决

贝叶斯定理与医疗检测

假设乳腺癌在女性人群中的发病率为1%，现取 1000 个女性作为样本进行筛查，其中有 10 个患有乳腺癌，990 个健康人

筛查结果表明在 10 个患者中，有 9 个正确地被检测出，但是有一个 False negative

在 990 个健康人中，有 89 个被检测出 False positive

现有一位女性检测结果为阳性，问她真正患有乳腺癌的概率为多大？

答： $\frac {9}{9 + 89}\approx0.1$

用公式表达，在检测结果为阳性的情况下，真正患病的概率为： $\frac {TP}{TP + FP}$

在这里插入图片描述

在上面关于检测的描述中，能够在患病人群中检测出真阳性的概率被称作灵敏度(sensitivity)，在上面的例子中是 90%

在健康人群检测出真阴性的概率被称作特异度(specificity)，在上面的例子中是 91%

所以即使灵敏度和特异度看起来都很高，对于一个阳性结果，她真正患有乳腺癌的概率也只不过是 10%，这看起来像是一个佯谬（看起来是错的，违反直觉的，但从逻辑上讲是对的）

原因可以从贝叶斯定理中探寻：检测只是更新了先验概率，而检测的灵敏度和特异度与先验概率无关，例如在上面的例子中，检测结果为阳性，则患有乳腺癌的概率一下从先验概率的 1% 提升到 10%，翻了一个数量级。所以贝叶斯定理可以看作一个先验概率的 amplifier

~~Tests determine if you hava a disease~~

~~Tests determin your chances of having a disease~~

Tests update your chances of having a disease

$P(Disease\ given\ +) = \frac {TP}{TP + FP} = \frac {(Piror)(Sensitivity)}{(Piror)(Sensitivity) + (1 - Piror)(FNR)}=\frac {P(D)P(+|D)}{P(D)P(+|D) + P(\neg D)P(+|\neg D)}$

在医疗检测的这种佯谬，可以简单解释为存在大量的 False Positive “稀释”了检测结果为阳性的情况下患病的概率

贝叶斯定理-课堂笔记

贝叶斯定理

应用题

贝叶斯定理与医疗检测

相关文章

【VScode】如何在VSCode中配置Python开发环境：从零开始的完整指南

论文2—《基于柔顺控制的智能神经导航手术机器人系统设计》文献阅读分析报告

ZISUOJ 2024算法基础公选课练习一（2）

革新汽车装配产线：MR30分布式IO模块引领智能制造新时代

快速入门CSS

《深入浅出Apache Spark》系列③：Spark SQL解析层优化策略与案例解析

评论系统设计思路

【Apache ECharts】＜病虫害致粮食损失统计＞