贝叶斯定理-课堂笔记

news/2024/11/8 15:10:11 标签: 概率论, 贝叶斯定理, 数学

贝叶斯定理

先看看贝叶斯公式的内容,下面的公式中,H 代表 Hypothsis,E 代表 Evidence:

P ( H ∣ E ) = P ( H ) ∗ P ( E ∣ H ) P ( E ) P(H|E)=\frac {P(H)*P(E|H)}{P(E)} P(HE)=P(E)P(H)P(EH)

P ( H ) P(H) P(H) 作为先验概率,它是指在没有任何证据(事实)的佐证下,假设成立的概率

P ( E ∣ H ) P(E|H) P(EH) 是指在假设成立的前提下,证据发生的概率

P ( E ) P(E) P(E) 是指证据发生的概率

等式左边的是我们要计算的结果, P ( H ∣ E ) P(H|E) P(HE) 是指在给定证据的情况下,假设成立的概率,也即后验概率

所以贝叶斯公式综合来看,就是当你知道一个先验概率 P ( H ) P(H) P(H),后面又给定了一些佐证的概率 P ( E ∣ H ) P(E|H) P(EH) P ( E ) P(E) P(E),你如何用这些佐证信息更新这个先验概率得到后验概率 P ( H ∣ E ) P(H|E) P(HE)

为了理解这个公式,我们从一个 irrational 的推测开始说起。现已知如下信息:从前有一个叫做 Steve 的人,他很内向孤僻,而且喜欢把物品保持地井井有条

根据这段描述,问 Steve 是图书馆管理员的概率更大还是农民的概率更大?

大多数人可能会觉得 Steve 是一个图书馆管理员的概率更大,但是这是一种非理性思考(irrational),原因很简单:大多数人都没有把人群中整体图书馆管理员和农民的比例考虑进去

在现实中,图书馆管理员与农民的比例为 1 : 20(这是一个假设的情况,实际的比例可能有更多的农民),这会严重影响最终的概率结果

在这里插入图片描述

例如我们的样本空间中有 10 个图书馆管理员,200 个农民,这符合总体的比例

符合上面那段描述(内向孤僻,而且喜欢把物品保持地井井有条)的图书馆管理员占 40%,也就是有 4 个;符合上面那段描述的农民占 10%,有 20 个

也就是图书馆管理员符合上面那段描述的概率是农民的四倍之多

那么在给定的描述(证据)下,Steve 是一个图书馆管理员的概率为 4 / ( 4 + 20 ) = 16.7 % 4/(4 + 20) = 16.7\% 4/(4+20)=16.7%,这个概率仍然不是很大

贝叶斯定理的核心就是:新的证据不应该决定你的结论,而是应该更新你的结论。下面的图说明了贝叶斯定理的核心

在这里插入图片描述
贝叶斯定理的应用条件:你有一个假设(Steve 是一个图书管理员),然后你获得了一些证据(他很内向,喜欢井井有条),你想获得在这些证据的支持下,你的假设成立的概率有多大(求解一个条件概率,代表被更新后的概率值)

在这里插入图片描述

我们再次回顾 16.7% 这个结果是怎么来的

P ( H ∣ E ) = ( # P e r s o n ) ∗ P ( H ) ∗ P ( E ∣ H ) ( # P e r s o n ) ∗ P ( H ) ∗ P ( E ∣ H ) + # P e r s o n ) ∗ P ( ¬ H ) ∗ P ( E ∣ ¬ H ) P(H|E) = \frac {(\#Person)* P(H) * P(E|H)}{(\#Person)* P(H) * P(E|H) + \#Person)* P(\neg H) * P(E|\neg H)} P(HE)=#PersonP(H)P(EH)+#PersonP(¬H)P(E∣¬H)#PersonP(H)P(EH)

其中 ( # P e r s o n ) (\#Person) (#Person) 是样本的总人数,在这个例子中为 210,显然这个变量可以约掉,于是就得到了;

P ( H ∣ E ) = P ( H ) ∗ P ( E ∣ H ) P ( H ) ∗ P ( E ∣ H ) + P ( ¬ H ) ∗ P ( E ∣ ¬ H ) P(H|E) = \frac {P(H) * P(E|H)}{P(H) * P(E|H) + P(\neg H) * P(E|\neg H)} P(HE)=P(H)P(EH)+P(¬H)P(E∣¬H)P(H)P(EH)

根据条件概率公式:

P ( E ∣ H ) = P ( E H ) P ( H ) P(E|H) = \frac {P(EH)}{P(H)} P(EH)=P(H)P(EH)

上式简化为:

P ( H ∣ E ) = P ( H ) ∗ P ( E ∣ H ) P ( E H ) + P ( E ¬ H ) = P ( H ) ∗ P ( E ∣ H ) P ( E ) P(H|E) = \frac {P(H) * P(E|H)}{P(EH) + P(E\neg H)} = \frac {P(H) * P(E|H)}{P(E)} P(HE)=P(EH)+P(E¬H)P(H)P(EH)=P(E)P(H)P(EH)

P ( H ∣ E ) P(H|E) P(HE)就是后验概率, P ( H ) P(H) P(H)就是先验概率

在这里插入图片描述

所以与其死记硬背贝叶斯公式,还不如把 Steve 这个例子和下面的图记清楚

在这里插入图片描述
形式上,贝叶斯公式完全可以通过条件概率推导出来:

P ( A B ) = P ( B ∣ A ) ∗ P ( A ) = P ( A ∣ B ) ∗ P ( B ) P(AB) = P(B|A) * P(A) = P(A|B) * P(B) P(AB)=P(BA)P(A)=P(AB)P(B)

注意 P ( A B ) = = P ( A ) ∗ P ( B ) P(AB) == P(A)*P(B) P(AB)==P(A)P(B) 不一定成立,除非事件 A 和 B 是完全独立的,那么此时 P ( A ∣ B ) = = P ( A ) P(A|B)==P(A) P(AB)==P(A),也就是在 B 事件发生的前提下 A 发生的概率就等于 A 发生的概率(B 事件是否发生完全不影响 A 事件发生的概率)

应用题

某地区居民的肝癌发病率为0.0004 ,现用甲胎蛋白法进行普查。医学研究表明,化验结是有错检的可能的。已知患有肝癌的人其化验结果99%呈阳性,而没患肝癌的人其化验结果99.9% 呈阴性。现某人的检查结果呈阳性,问他真的患有肝癌的概率是多少?

答:28.37%

假设人群中肺炎的感染率为0.1%,肺炎检测的正确率为99%。一个人的肺炎检测结果为阳性,求他患有肺炎的概率

答:9.016%

这 2 个问题都可以通过画图的方式轻松解决

贝叶斯定理与医疗检测

假设乳腺癌在女性人群中的发病率为1%,现取 1000 个女性作为样本进行筛查,其中有 10 个患有乳腺癌,990 个健康人

筛查结果表明在 10 个患者中,有 9 个正确地被检测出,但是有一个 False negative

在 990 个健康人中,有 89 个 被检测出 False positive

现有一位女性检测结果为阳性,问她真正患有乳腺癌的概率为多大?

答: 9 9 + 89 ≈ 0.1 \frac {9}{9 + 89}\approx0.1 9+8990.1

用公式表达,在检测结果为阳性的情况下,真正患病的概率为: T P T P + F P \frac {TP}{TP + FP} TP+FPTP

在这里插入图片描述

在上面关于检测的描述中,能够在患病人群中检测出真阳性的概率被称作灵敏度(sensitivity),在上面的例子中是 90%

在健康人群检测出真阴性的概率被称作特异度(specificity),在上面的例子中是 91%

所以即使灵敏度和特异度看起来都很高,对于一个阳性结果,她真正患有乳腺癌的概率也只不过是 10%,这看起来像是一个佯谬(看起来是错的,违反直觉的,但从逻辑上讲是对的)

原因可以从贝叶斯定理中探寻:检测只是更新了先验概率,而检测的灵敏度和特异度与先验概率无关,例如在上面的例子中,检测结果为阳性,则患有乳腺癌的概率一下从先验概率的 1% 提升到 10%,翻了一个数量级。所以贝叶斯定理可以看作一个先验概率的 amplifier

Tests determine if you hava a disease

Tests determin your chances of having a disease

Tests update your chances of having a disease

P ( D i s e a s e   g i v e n   + ) = T P T P + F P = ( P i r o r ) ( S e n s i t i v i t y ) ( P i r o r ) ( S e n s i t i v i t y ) + ( 1 − P i r o r ) ( F N R ) = P ( D ) P ( + ∣ D ) P ( D ) P ( + ∣ D ) + P ( ¬ D ) P ( + ∣ ¬ D ) P(Disease\ given\ +) = \frac {TP}{TP + FP} = \frac {(Piror)(Sensitivity)}{(Piror)(Sensitivity) + (1 - Piror)(FNR)}=\frac {P(D)P(+|D)}{P(D)P(+|D) + P(\neg D)P(+|\neg D)} P(Disease given +)=TP+FPTP=(Piror)(Sensitivity)+(1Piror)(FNR)(Piror)(Sensitivity)=P(D)P(+D)+P(¬D)P(+∣¬D)P(D)P(+D)

在医疗检测的这种佯谬,可以简单解释为存在大量的 False Positive “稀释”了检测结果为阳性的情况下患病的概率


http://www.niftyadmin.cn/n/5744059.html

相关文章

【VScode】如何在VSCode中配置Python开发环境:从零开始的完整指南

文章目录 前言软件准备软件安装1. 安装Python2. 检查Python是否安装成功3. 安装第三方包4. 安装VSCode 配置VSCode1. 安装Python插件2. 创建项目,配置工作区域3. 编写Python文件4. 配置Python编译设置5. 使用代码格式化工具yapf 更多文章结尾 前言 在当今的编程世界…

论文2—《基于柔顺控制的智能神经导航手术机器人系统设计》文献阅读分析报告

论文报告:基于卷积神经网络的手术机器人控制系统设计 摘要 本研究针对机器人辅助微创手术中定向障碍和缺乏导航信息的问题,设计了一种智能控制导航手术机器人系统。该系统采用可靠和安全的定位技术、7自由度机械臂以及避免关节角度限制的逆运动学控制策…

ZISUOJ 2024算法基础公选课练习一(2)

前言、 接(1)后完成F-H三道题 一、题目总览 二、具体题目 2.1 问题 F: 按1的个数排序: 思路: 用cin或者getline读入都可,可以整合成一个结构体放进数组中排序,也可以像我下面一样写一个pair放进vector中…

革新汽车装配产线:MR30分布式IO模块引领智能制造新时代

在日新月异的汽车制造行业中,每一分每一秒的效率提升都意味着成本的降低与市场竞争力的增强。随着工业4.0时代的到来,智能化、自动化已成为汽车产线升级转型的关键词。在这场技术革命的浪潮中,MR30分布式IO模块以其高效、灵活、可靠的特点&am…

快速入门CSS

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗 如有错误,欢迎指出~ 目录 CSS css的三种引入方式 css书写规范 选择器分类 标签选择器 class选择器 id选择器 复合选择器 通配符选择器 color颜色设置 border边框设置 width/heigth 内/外边距 C…

《深入浅出Apache Spark》系列③:Spark SQL解析层优化策略与案例解析

导读:本系列是Spark系列分享的第三期。第一期分享了Spark Core的一些基本原理和一些基本概念,包括一些核心组件。Spark的所有组件都围绕Spark Core来运转,其中最活跃的一个上层组件是Spark SQL。第二期分享则专门介绍了Spark SQL的基本架构和…

评论系统设计思路

文章目录 一 表设计Articles(文章表)Comments(评论索引表)CommentsContent(评论内容表)SQL 创建表的语句触发器 二 添加评论三 查询评论 无论我们是阅读公众号文章还是刷短视频,现在都有评论功能…

【Apache ECharts】<病虫害致粮食损失统计>

实现 1. 设置 div &#xff08;块级盒子&#xff09;,设置 id 为 chart <div id"chart"></div> 2. css设置样式位置 <style>#main{width: 30%;height: 40vh;/* background-color: red; */min-height: 100px;min-width: 150px;margin-top: 150px;}…