贝叶斯定理

P(A|B) = P(B|A) · P(A)P(B)
快速示例:

什么是贝叶斯定理?

贝叶斯定理是概率论中最重要的定理之一,它提供了一种在获得新证据后更新已有信念的数学框架。其核心公式为:

P(A|B) = P(B|A) · P(A)P(B|A) · P(A) + P(B|¬A) · P(¬A)

这个公式以英国长老会牧师托马斯·贝叶斯(Thomas Bayes, 1701–1761)的名字命名。贝叶斯本人从未在生前发表这一成果——它是在他去世后的 1763 年,由他的朋友理查德·普莱斯(Richard Price)整理并提交给英国皇家学会发表的。

为什么这个公式具有革命性意义?在贝叶斯定理出现之前,概率被视为一个"频率"概念——我们只能从大量重复实验中估计概率。贝叶斯定理开辟了一条全新的道路:它允许我们将主观信念(先验)与客观证据(似然)结合起来,得到更新后的信念(后验)。这种"从证据中学习"的范式,正是现代机器学习、人工智能和科学推理的基石。

简单来说:贝叶斯定理告诉我们"在看到证据之后,我们应该如何改变自己的想法"

公式推导

贝叶斯定理并非凭空产生,它直接源于条件概率的基本定义。以下是完整的推导过程:

第 1 步 — 条件概率的定义
P(A|B) = P(A∩B) / P(B)
这是条件概率的基本定义:在B已经发生的前提下,A也发生的概率等于A和B同时发生的概率除以B发生的概率。
第 2 步 — 反过来写条件概率
P(B|A) = P(A∩B) / P(A)
同理,在A已经发生的前提下B发生的概率。
第 3 步 — 从第 2 步求解 P(A∩B)
P(A∩B) = P(B|A) · P(A)
将等式两边同乘以 P(A),我们得到了联合概率的一个表达式。
第 4 步 — 代入第 1 步
P(A|B) = P(B|A) · P(A) / P(B)
将第 3 步的结果代入第 1 步的分子,就得到了贝叶斯定理的基本形式。
第 5 步 — 全概率公式展开 P(B)
P(B) = P(B|A) · P(A) + P(B|¬A) · P(¬A)
根据全概率定律(Law of Total Probability),P(B)可以按照假设A成立与否拆分为两部分之和。这在实际应用中非常重要,因为P(B)往往不能直接观测,但P(B|A)和P(B|¬A)可以分别估计。
最终形式
P(A|B) = P(B|A) · P(A) / [P(B|A) · P(A) + P(B|¬A) · P(¬A)]

这个推导揭示了一个深刻的对称性:P(A|B)和P(B|A)之间并不相等,但它们通过先验概率相互联系。混淆这两者正是许多概率谬误的根源(称为"转换条件谬误"或"检察官谬误")。

关键术语

理解贝叶斯定理中每个组成部分的含义及其存在的原因,是正确应用该定理的前提:

先验概率
P(A)
含义:在看到任何证据之前,我们对假设A成立的信念程度。
为什么重要:先验代表了我们现有的知识和经验。贝叶斯推理的核心洞见在于:同一份证据对不同先验的人会产生不同的结论——这并不是一个缺陷,而是一个特性。例如,一个发病率极低的疾病(低先验),即使检测灵敏度极高,阳性结果的真实概率仍然可能很低。
似然度
P(B|A)
含义:如果假设A成立,那么我们观测到证据B的概率有多大。
为什么重要:似然度是连接数据与假设的桥梁。它回答的是"如果我们的假设正确,看到这些数据的可能性有多大?"在医学检测中,这就是灵敏度(sensitivity):有病的人检测为阳性的概率。
后验概率
P(A|B)
含义:在看到证据B之后,我们对假设A成立的更新后信念。
为什么重要:这就是我们最终想要的答案。后验概率整合了先验知识和新证据,给出了最佳的更新后判断。在医学检测中,这回答的是"检测为阳性的人实际患病的概率"——这才是患者和医生真正关心的问题。
证据 / 归一化常数
P(B)
含义:证据B在所有可能情况下出现的总概率,也称为边际似然或归一化常数。
为什么重要:P(B)确保后验概率是一个合法的概率值(即所有可能假设的后验之和等于1)。它通过全概率公式计算:P(B) = P(B|A)·P(A) + P(B|¬A)·P(¬A)。在实际计算中,我们通常不单独计算P(B),而是通过这个公式展开。

经典案例与完整求解

案例 1:医学检测与基率谬误

某种疾病的发病率为 1%(每 100 人中有 1 人患病)。一种检测方法的灵敏度为 99%(有病的人 99% 会被检出阳性),特异性为 95%(没病的人 95% 会检出阴性,即假阳性率为 5%)。

问题:如果一个人检测为阳性,他实际患病的概率是多少?

大多数人直觉上会回答"99%"或"95%",但正确答案令人惊讶——

已知: P(Disease) = 0.01 (发病率 1%) P(Positive|Disease) = 0.99 (灵敏度 99%) P(Positive|No Disease) = 0.05 (假阳性率 5%) 第 1 步:计算 P(Positive) P(Positive) = P(Pos|D)×P(D) + P(Pos|¬D)×P(¬D) = 0.99 × 0.01 + 0.05 × 0.99 = 0.0099 + 0.0495 = 0.0594 第 2 步:计算 P(Disease|Positive) P(D|Pos) = P(Pos|D) × P(D) / P(Pos) = 0.99 × 0.01 / 0.0594 = 0.0099 / 0.0594 ≈ 0.1667 → 约 16.7%

为什么结果如此令人惊讶?这就是基率谬误(base rate fallacy)。由于发病率极低(1%),即使检测非常准确,健康人群中产生的假阳性数量也远远超过真阳性数量。在每 10,000 人中:

  • 100 名患者中,99 人检出阳性(真阳性)
  • 9,900 名健康人中,495 人检出阳性(假阳性)
  • 总阳性 594 人中,真正患病的只有 99 人 = 16.7%

这就是为什么许多国家不推荐对低风险人群进行大规模筛查——大量的假阳性会造成不必要的焦虑和后续检查负担。

案例 2:垃圾邮件过滤 — 朴素贝叶斯的胜利

2002 年,程序员保罗·格雷厄姆(Paul Graham,后来的 Y Combinator 创始人)发表了影响深远的文章《A Plan for Spam》。他的核心想法惊人地简单:用贝叶斯定理判断邮件是否为垃圾邮件。

原理:对于邮件中出现的每个词 wi,我们可以计算:

P(Spam|wi) = P(wi|Spam) × P(Spam) / P(wi)

例如,如果"免费"这个词在 80% 的垃圾邮件中出现,但只在 5% 的正常邮件中出现,那么:

P(Spam) = 0.5 (假设均匀先验) P("免费"|Spam) = 0.80 P("免费"|Ham) = 0.05 P("免费") = 0.80 × 0.5 + 0.05 × 0.5 = 0.425 P(Spam|"免费") = 0.80 × 0.5 / 0.425 ≈ 94.1%

这种方法之所以被称为"朴素"贝叶斯(Naive Bayes),是因为它假设每个词的出现是相互独立的——这在语言学上显然不成立,但在实践中效果出奇地好。格雷厄姆的原型系统过滤准确率超过 99.5%,奠定了现代反垃圾邮件技术的基础。

案例 3:蒙提霍尔问题 — 贝叶斯给出正确答案

著名的蒙提霍尔问题:三扇门后有一辆汽车和两只山羊。你选了一扇门(比如门 1),主持人(知道哪扇门后是汽车)打开了另一扇门(比如门 3)露出一只山羊,然后问你要不要换。你应该换吗?

用贝叶斯定理分析。设事件 Hi = "汽车在门 i 后面",D = "主持人开了门 3":

先验:P(H₁) = P(H₂) = P(H₃) = 1/3 似然(你选了门1,主持人开了门3): P(D|H₁) = 1/2 (汽车在门1→主持人可开门2或3) P(D|H₂) = 1 (汽车在门2→主持人只能开门3) P(D|H₃) = 0 (汽车在门3→主持人不可能开门3) P(D) = 1/2 × 1/3 + 1 × 1/3 + 0 × 1/3 = 1/2 后验: P(H₁|D) = (1/2 × 1/3) / (1/2) = 1/3 不换:33.3% P(H₂|D) = (1 × 1/3) / (1/2) = 2/3 换门:66.7% P(H₃|D) = 0

结论:你应该换!换门的获奖概率是不换的两倍。贝叶斯定理清晰地展示了为什么主持人开门这个"证据"会改变各假设的概率——关键在于主持人的行为是有信息的(他知道汽车在哪里)。

历史意义

贝叶斯定理的历史是一部跨越三个世纪的思想史,涉及神学、哲学和现代科学的交汇。

1701–1761 — 托马斯·贝叶斯

英国长老会牧师,业余数学家。他对"逆概率问题"(即从观测结果推断原因的概率)的研究从未在生前发表。作为一位神职人员,他的研究动机可能部分来自对上帝存在的概率推理。贝叶斯的手稿在他去世后被发现在他的文件中。

1763 — 理查德·普莱斯发表贝叶斯遗作

贝叶斯的朋友理查德·普莱斯整理了手稿,附上自己的导论和评注,以《论机会学说中一个问题的解法》("An Essay towards solving a Problem in the Doctrine of Chances")为题提交给英国皇家学会。普莱斯认为这一结果可以用于证明上帝的存在——如果世界的秩序性是"证据",那么上帝存在的后验概率就很高。

1774 — 皮埃尔-西蒙·拉普拉斯

法国数学家拉普拉斯独立发现了贝叶斯定理的一般形式,并将其系统化为概率论的核心工具。与贝叶斯不同,拉普拉斯明确地将其应用于科学问题——从天文观测误差到人口统计。他的名言"概率论不过是被化约为计算的常识"正是贝叶斯精神的体现。

20 世纪 — 贝叶斯派 vs 频率派之争

20 世纪初,统计学分裂为两大阵营。频率派(以罗纳德·费希尔 Ronald Fisher 为代表)认为概率只能描述可重复实验的长期频率,先验概率是"主观的"因而不科学。贝叶斯派(以哈罗德·杰弗里斯 Harold Jeffreys 为代表)则坚持概率可以表示信念程度,先验并非缺陷而是优势。这场争论持续了大半个世纪,有时甚至变得相当激烈——费希尔曾将贝叶斯方法称为"逆概率的谬论"。

1953–1970 — MCMC 方法的诞生

贝叶斯方法长期受限于计算困难——复杂模型的后验分布往往无法解析求解。突破来自马尔可夫链蒙特卡洛(MCMC)方法:1953 年 Metropolis 等人在洛斯阿拉莫斯实验室开发了 Metropolis 算法(最初用于模拟原子弹中的粒子行为),1970 年 W.K. Hastings 将其推广为 Metropolis-Hastings 算法。这些计算方法让复杂的贝叶斯推断变得可行,直接催生了贝叶斯统计的现代复兴。

1988–至今 — 贝叶斯的现代复兴

1988 年,朱迪亚·珀尔(Judea Pearl)发表了贝叶斯网络的奠基性工作,为人工智能中的不确定性推理提供了框架。随后,贝叶斯方法在机器学习、自然语言处理、基因组学、气候科学等领域全面开花。如今,贝叶斯方法已经不再是统计学的"异端",而是主流工具箱中不可或缺的一部分。

现代技术中的应用

贝叶斯定理不仅是一个理论工具,它在现代技术的各个角落都有实际应用:

机器学习:朴素贝叶斯分类器

之所以叫"朴素",是因为它假设特征之间相互独立——这个假设几乎总是错误的,但效果却出人意料地好。在文本分类、情感分析和推荐系统中仍被广泛使用。其优势在于训练速度极快、对小数据集表现良好、且结果可解释。

A/B 测试:贝叶斯方法

传统频率派 A/B 测试需要预先确定样本量并等待实验结束。贝叶斯 A/B 测试允许随时查看结果并做出决策——它直接告诉你"版本 B 优于版本 A 的概率是 95%",比 p 值更直观。近年来在 Google、Netflix 等公司中日益流行。

搜索引擎:相关性排名

搜索引擎在排名结果时,会利用贝叶斯推理:给定用户的搜索查询(证据),哪个网页最有可能是用户想要的(后验)?先验来自页面的权威性,似然来自查询词与页面内容的匹配度。

自动驾驶:传感器融合

自动驾驶汽车配备了摄像头、激光雷达、超声波等多种传感器。贝叶斯推理用于融合来自不同传感器的信息——每个传感器提供一份"证据",通过不断更新后验概率来构建对周围环境的最佳估计。卡尔曼滤波器正是贝叶斯更新的一种特殊形式。

医学诊断

现代临床决策支持系统使用贝叶斯网络来辅助诊断。给定患者的症状(证据)、病史(先验)和各疾病的症状概率(似然),系统计算各种可能诊断的后验概率。这在罕见病诊断中尤其有价值。

自然语言处理

从拼写纠正("你想搜索的是不是...?")到语音识别,贝叶斯推理无处不在。语音识别系统使用贝叶斯公式:P(文字|声音) ∝ P(声音|文字) × P(文字),其中 P(声音|文字)是声学模型,P(文字)是语言模型。

扩展形式

多假设形式

当有多个互斥且穷举的假设 H1, H2, ..., Hn 时,贝叶斯定理推广为:

P(Hi|E) = P(E|Hi) · P(Hi) / ∑j=1..n P(E|Hj) · P(Hj)

这是我们在蒙提霍尔问题中使用的形式——三个假设(汽车在三扇门后面的任意一扇后面)在看到主持人打开一扇门的证据后被更新。

贝叶斯更新(序贯应用)

贝叶斯定理最优雅的特性之一:它可以反复应用。第一次更新得到的后验可以作为下一次更新的先验:

先验 P(A) ⟶ 证据 B₁ ⟶ 后验 P(A|B₁) ⟶ 证据 B₂ ⟶ 后验 P(A|B₁,B₂) ⟶ ...

这就是"从数据中学习"的数学本质。随着证据的积累,后验概率逐渐收敛到真实值——不论初始先验如何选择(只要先验不为 0 或 1)。这就是贝叶斯方法的长期一致性

贝叶斯网络(朱迪亚·珀尔,1988)

贝叶斯网络是一种用有向无环图(DAG)表示变量间概率依赖关系的模型。每个节点代表一个随机变量,边代表条件依赖。网络允许高效计算复杂联合分布中的条件概率,被广泛应用于医学诊断、故障检测和因果推理。珀尔因其在因果推理方面的工作获得了 2011 年图灵奖。

常见问题

P(A|B)和 P(B|A)有什么区别?

它们通常不相等。P(A|B)是"在B发生的条件下A的概率",而 P(B|A)是"在A发生的条件下B的概率"。例如:P(湿地|下雨)≈1(下雨几乎一定导致地面湿),但 P(下雨|湿地)远小于1(地面湿可能是因为洒水器)。混淆这两者称为"转换条件谬误",在法律和医学中经常导致严重错误。

为什么先验概率的选择如此重要?

先验编码了你在看到证据之前的知识状态。如医学检测案例所示,即使检测非常准确,如果疾病很罕见(先验很低),阳性结果的实际意义也大打折扣。好消息是,随着证据的积累,不同先验最终会收敛到相同的后验——即证据足够多时,先验的影响会被"冲刷"掉。这就是贝叶斯方法在实践中有效的根本原因。

贝叶斯方法和频率派方法哪个更好?

这是统计学中最持久的争论之一,答案是:取决于场景。频率派方法在设计良好的实验(如临床试验)中有严格的错误率保证。贝叶斯方法在需要整合先验知识、处理小样本或需要直观可解释结果时更具优势。现代统计学越来越倾向于将两者视为互补工具,而非对立阵营。许多实际应用(如自适应临床试验)同时使用两种方法。

如果没有先验信息,应该用什么先验?

这被称为"无信息先验"或"客观先验"问题。常见选择包括:均匀先验(假设所有值等概率)、杰弗里斯先验(根据费希尔信息矩阵推导的先验,具有参数变换不变性)、以及 Haldane 先验 Beta(0,0)。拉普拉斯最早提倡均匀先验("无差别原理"),但后来人们发现均匀先验在参数变换下不是不变的。在实践中,如果数据量足够大,合理的无信息先验之间的差异通常可以忽略。

贝叶斯定理可以用于连续变量吗?

可以。对于连续变量,贝叶斯定理的形式变为:f(θ|x) = L(x|θ) · π(θ) / ∫ L(x|θ) · π(θ) dθ,其中 f 表示概率密度函数,L 是似然函数,π 是先验分布。分母中的积分(称为"边际似然"或"证据")通常是计算难点,这也是为什么 MCMC 等数值方法如此重要——它们可以在不计算分母的情况下从后验分布中抽样。