贝叶斯定理

P(A|B) = P(B|A) · P(A)P(B)

P(A) — 先验概率

P(B|A) — 似然度（假设A为真时B出现的概率）

P(B|¬A) — 假阳性率（假设A为假时B出现的概率）

快速示例：

什么是贝叶斯定理？

贝叶斯定理是概率论中最重要的定理之一，它提供了一种在获得新证据后更新已有信念的数学框架。其核心公式为：

P(A|B) = P(B|A) · P(A)P(B|A) · P(A) + P(B|¬A) · P(¬A)

这个公式以英国长老会牧师托马斯·贝叶斯（Thomas Bayes, 1701–1761）的名字命名。贝叶斯本人从未在生前发表这一成果——它是在他去世后的 1763 年，由他的朋友理查德·普莱斯（Richard Price）整理并提交给英国皇家学会发表的。

为什么这个公式具有革命性意义？在贝叶斯定理出现之前，概率被视为一个"频率"概念——我们只能从大量重复实验中估计概率。贝叶斯定理开辟了一条全新的道路：它允许我们将主观信念（先验）与客观证据（似然）结合起来，得到更新后的信念（后验）。这种"从证据中学习"的范式，正是现代机器学习、人工智能和科学推理的基石。

简单来说：贝叶斯定理告诉我们"在看到证据之后，我们应该如何改变自己的想法"。

公式推导

贝叶斯定理并非凭空产生，它直接源于条件概率的基本定义。以下是完整的推导过程：

第 1 步 — 条件概率的定义

P(A|B) = P(A∩B) / P(B)
这是条件概率的基本定义：在B已经发生的前提下，A也发生的概率等于A和B同时发生的概率除以B发生的概率。

第 2 步 — 反过来写条件概率

P(B|A) = P(A∩B) / P(A)
同理，在A已经发生的前提下B发生的概率。

第 3 步 — 从第 2 步求解 P(A∩B)

P(A∩B) = P(B|A) · P(A)
将等式两边同乘以 P(A)，我们得到了联合概率的一个表达式。

第 4 步 — 代入第 1 步

P(A|B) = P(B|A) · P(A) / P(B)
将第 3 步的结果代入第 1 步的分子，就得到了贝叶斯定理的基本形式。

第 5 步 — 全概率公式展开 P(B)

P(B) = P(B|A) · P(A) + P(B|¬A) · P(¬A)
根据全概率定律（Law of Total Probability），P(B)可以按照假设A成立与否拆分为两部分之和。这在实际应用中非常重要，因为P(B)往往不能直接观测，但P(B|A)和P(B|¬A)可以分别估计。

最终形式

P(A|B) = P(B|A) · P(A) / [P(B|A) · P(A) + P(B|¬A) · P(¬A)]

这个推导揭示了一个深刻的对称性：P(A|B)和P(B|A)之间并不相等，但它们通过先验概率相互联系。混淆这两者正是许多概率谬误的根源（称为"转换条件谬误"或"检察官谬误"）。

关键术语

理解贝叶斯定理中每个组成部分的含义及其存在的原因，是正确应用该定理的前提：

先验概率

P(A)

含义：在看到任何证据之前，我们对假设A成立的信念程度。
为什么重要：先验代表了我们现有的知识和经验。贝叶斯推理的核心洞见在于：同一份证据对不同先验的人会产生不同的结论——这并不是一个缺陷，而是一个特性。例如，一个发病率极低的疾病（低先验），即使检测灵敏度极高，阳性结果的真实概率仍然可能很低。

似然度

P(B|A)

含义：如果假设A成立，那么我们观测到证据B的概率有多大。
为什么重要：似然度是连接数据与假设的桥梁。它回答的是"如果我们的假设正确，看到这些数据的可能性有多大？"在医学检测中，这就是灵敏度（sensitivity）：有病的人检测为阳性的概率。

后验概率

P(A|B)

含义：在看到证据B之后，我们对假设A成立的更新后信念。
为什么重要：这就是我们最终想要的答案。后验概率整合了先验知识和新证据，给出了最佳的更新后判断。在医学检测中，这回答的是"检测为阳性的人实际患病的概率"——这才是患者和医生真正关心的问题。

证据 / 归一化常数

P(B)

含义：证据B在所有可能情况下出现的总概率，也称为边际似然或归一化常数。
为什么重要：P(B)确保后验概率是一个合法的概率值（即所有可能假设的后验之和等于1）。它通过全概率公式计算：P(B) = P(B|A)·P(A) + P(B|¬A)·P(¬A)。在实际计算中，我们通常不单独计算P(B)，而是通过这个公式展开。

经典案例与完整求解

案例 1：医学检测与基率谬误

某种疾病的发病率为 1%（每 100 人中有 1 人患病）。一种检测方法的灵敏度为 99%（有病的人 99% 会被检出阳性），特异性为 95%（没病的人 95% 会检出阴性，即假阳性率为 5%）。

问题：如果一个人检测为阳性，他实际患病的概率是多少？

大多数人直觉上会回答"99%"或"95%"，但正确答案令人惊讶——

已知： P(Disease) = 0.01 (发病率 1%) P(Positive|Disease) = 0.99 (灵敏度 99%) P(Positive|No Disease) = 0.05 (假阳性率 5%) 第 1 步：计算 P(Positive) P(Positive) = P(Pos|D)×P(D) + P(Pos|¬D)×P(¬D) = 0.99 × 0.01 + 0.05 × 0.99 = 0.0099 + 0.0495 = 0.0594 第 2 步：计算 P(Disease|Positive) P(D|Pos) = P(Pos|D) × P(D) / P(Pos) = 0.99 × 0.01 / 0.0594 = 0.0099 / 0.0594 ≈ 0.1667 → 约 16.7%

为什么结果如此令人惊讶？这就是基率谬误（base rate fallacy）。由于发病率极低（1%），即使检测非常准确，健康人群中产生的假阳性数量也远远超过真阳性数量。在每 10,000 人中：

100 名患者中，99 人检出阳性（真阳性）
9,900 名健康人中，495 人检出阳性（假阳性）
总阳性 594 人中，真正患病的只有 99 人 = 16.7%

这就是为什么许多国家不推荐对低风险人群进行大规模筛查——大量的假阳性会造成不必要的焦虑和后续检查负担。

案例 2：垃圾邮件过滤 — 朴素贝叶斯的胜利

2002 年，程序员保罗·格雷厄姆（Paul Graham，后来的 Y Combinator 创始人）发表了影响深远的文章《A Plan for Spam》。他的核心想法惊人地简单：用贝叶斯定理判断邮件是否为垃圾邮件。

原理：对于邮件中出现的每个词 w_i，我们可以计算：

P(Spam|w_i) = P(w_i|Spam) × P(Spam) / P(w_i)

例如，如果"免费"这个词在 80% 的垃圾邮件中出现，但只在 5% 的正常邮件中出现，那么：

P(Spam) = 0.5 (假设均匀先验) P("免费"|Spam) = 0.80 P("免费"|Ham) = 0.05 P("免费") = 0.80 × 0.5 + 0.05 × 0.5 = 0.425 P(Spam|"免费") = 0.80 × 0.5 / 0.425 ≈ 94.1%

这种方法之所以被称为"朴素"贝叶斯（Naive Bayes），是因为它假设每个词的出现是相互独立的——这在语言学上显然不成立，但在实践中效果出奇地好。格雷厄姆的原型系统过滤准确率超过 99.5%，奠定了现代反垃圾邮件技术的基础。

案例 3：蒙提霍尔问题 — 贝叶斯给出正确答案

著名的蒙提霍尔问题：三扇门后有一辆汽车和两只山羊。你选了一扇门（比如门 1），主持人（知道哪扇门后是汽车）打开了另一扇门（比如门 3）露出一只山羊，然后问你要不要换。你应该换吗？

用贝叶斯定理分析。设事件 H_i = "汽车在门 i 后面"，D = "主持人开了门 3"：

先验：P(H₁) = P(H₂) = P(H₃) = 1/3 似然（你选了门1，主持人开了门3）： P(D|H₁) = 1/2 (汽车在门1→主持人可开门2或3) P(D|H₂) = 1 (汽车在门2→主持人只能开门3) P(D|H₃) = 0 (汽车在门3→主持人不可能开门3) P(D) = 1/2 × 1/3 + 1 × 1/3 + 0 × 1/3 = 1/2 后验： P(H₁|D) = (1/2 × 1/3) / (1/2) = 1/3 不换：33.3% P(H₂|D) = (1 × 1/3) / (1/2) = 2/3 换门：66.7% P(H₃|D) = 0

结论：你应该换！换门的获奖概率是不换的两倍。贝叶斯定理清晰地展示了为什么主持人开门这个"证据"会改变各假设的概率——关键在于主持人的行为是有信息的（他知道汽车在哪里）。

历史意义

贝叶斯定理的历史是一部跨越三个世纪的思想史，涉及神学、哲学和现代科学的交汇。

1701–1761 — 托马斯·贝叶斯

英国长老会牧师，业余数学家。他对"逆概率问题"（即从观测结果推断原因的概率）的研究从未在生前发表。作为一位神职人员，他的研究动机可能部分来自对上帝存在的概率推理。贝叶斯的手稿在他去世后被发现在他的文件中。

1763 — 理查德·普莱斯发表贝叶斯遗作

贝叶斯的朋友理查德·普莱斯整理了手稿，附上自己的导论和评注，以《论机会学说中一个问题的解法》（"An Essay towards solving a Problem in the Doctrine of Chances"）为题提交给英国皇家学会。普莱斯认为这一结果可以用于证明上帝的存在——如果世界的秩序性是"证据"，那么上帝存在的后验概率就很高。

1774 — 皮埃尔-西蒙·拉普拉斯

法国数学家拉普拉斯独立发现了贝叶斯定理的一般形式，并将其系统化为概率论的核心工具。与贝叶斯不同，拉普拉斯明确地将其应用于科学问题——从天文观测误差到人口统计。他的名言"概率论不过是被化约为计算的常识"正是贝叶斯精神的体现。

20 世纪 — 贝叶斯派 vs 频率派之争

20 世纪初，统计学分裂为两大阵营。频率派（以罗纳德·费希尔 Ronald Fisher 为代表）认为概率只能描述可重复实验的长期频率，先验概率是"主观的"因而不科学。贝叶斯派（以哈罗德·杰弗里斯 Harold Jeffreys 为代表）则坚持概率可以表示信念程度，先验并非缺陷而是优势。这场争论持续了大半个世纪，有时甚至变得相当激烈——费希尔曾将贝叶斯方法称为"逆概率的谬论"。

1953–1970 — MCMC 方法的诞生

贝叶斯方法长期受限于计算困难——复杂模型的后验分布往往无法解析求解。突破来自马尔可夫链蒙特卡洛（MCMC）方法：1953 年 Metropolis 等人在洛斯阿拉莫斯实验室开发了 Metropolis 算法（最初用于模拟原子弹中的粒子行为），1970 年 W.K. Hastings 将其推广为 Metropolis-Hastings 算法。这些计算方法让复杂的贝叶斯推断变得可行，直接催生了贝叶斯统计的现代复兴。

1988–至今 — 贝叶斯的现代复兴

1988 年，朱迪亚·珀尔（Judea Pearl）发表了贝叶斯网络的奠基性工作，为人工智能中的不确定性推理提供了框架。随后，贝叶斯方法在机器学习、自然语言处理、基因组学、气候科学等领域全面开花。如今，贝叶斯方法已经不再是统计学的"异端"，而是主流工具箱中不可或缺的一部分。

现代技术中的应用

贝叶斯定理不仅是一个理论工具，它在现代技术的各个角落都有实际应用：

机器学习：朴素贝叶斯分类器

之所以叫"朴素"，是因为它假设特征之间相互独立——这个假设几乎总是错误的，但效果却出人意料地好。在文本分类、情感分析和推荐系统中仍被广泛使用。其优势在于训练速度极快、对小数据集表现良好、且结果可解释。

A/B 测试：贝叶斯方法

传统频率派 A/B 测试需要预先确定样本量并等待实验结束。贝叶斯 A/B 测试允许随时查看结果并做出决策——它直接告诉你"版本 B 优于版本 A 的概率是 95%"，比 p 值更直观。近年来在 Google、Netflix 等公司中日益流行。

搜索引擎：相关性排名

搜索引擎在排名结果时，会利用贝叶斯推理：给定用户的搜索查询（证据），哪个网页最有可能是用户想要的（后验）？先验来自页面的权威性，似然来自查询词与页面内容的匹配度。

自动驾驶：传感器融合

自动驾驶汽车配备了摄像头、激光雷达、超声波等多种传感器。贝叶斯推理用于融合来自不同传感器的信息——每个传感器提供一份"证据"，通过不断更新后验概率来构建对周围环境的最佳估计。卡尔曼滤波器正是贝叶斯更新的一种特殊形式。

医学诊断

现代临床决策支持系统使用贝叶斯网络来辅助诊断。给定患者的症状（证据）、病史（先验）和各疾病的症状概率（似然），系统计算各种可能诊断的后验概率。这在罕见病诊断中尤其有价值。

自然语言处理

从拼写纠正（"你想搜索的是不是...?"）到语音识别，贝叶斯推理无处不在。语音识别系统使用贝叶斯公式：P(文字|声音) ∝ P(声音|文字) × P(文字)，其中 P(声音|文字)是声学模型，P(文字)是语言模型。

扩展形式

多假设形式

当有多个互斥且穷举的假设 H₁, H₂, ..., H_n 时，贝叶斯定理推广为：

P(H_i|E) = P(E|H_i) · P(H_i) / ∑_j=1..n P(E|H_j) · P(H_j)

这是我们在蒙提霍尔问题中使用的形式——三个假设（汽车在三扇门后面的任意一扇后面）在看到主持人打开一扇门的证据后被更新。

贝叶斯更新（序贯应用）

贝叶斯定理最优雅的特性之一：它可以反复应用。第一次更新得到的后验可以作为下一次更新的先验：

先验 P(A) ⟶ 证据 B₁ ⟶ 后验 P(A|B₁) ⟶ 证据 B₂ ⟶ 后验 P(A|B₁,B₂) ⟶ ...

这就是"从数据中学习"的数学本质。随着证据的积累，后验概率逐渐收敛到真实值——不论初始先验如何选择（只要先验不为 0 或 1）。这就是贝叶斯方法的长期一致性。

贝叶斯网络（朱迪亚·珀尔，1988）

贝叶斯网络是一种用有向无环图（DAG）表示变量间概率依赖关系的模型。每个节点代表一个随机变量，边代表条件依赖。网络允许高效计算复杂联合分布中的条件概率，被广泛应用于医学诊断、故障检测和因果推理。珀尔因其在因果推理方面的工作获得了 2011 年图灵奖。

概率计算器 — 计算 P(A∪B)、P(A∩B)、条件概率和二项分布
排列组合计算器 — 计算 C(n,k) 和 P(n,k)，组合数学基础工具
统计计算器 — 均值、中位数、标准差、方差等描述统计量

常见问题

P(A|B)和 P(B|A)有什么区别？

它们通常不相等。P(A|B)是"在B发生的条件下A的概率"，而 P(B|A)是"在A发生的条件下B的概率"。例如：P(湿地|下雨)≈1（下雨几乎一定导致地面湿），但 P(下雨|湿地)远小于1（地面湿可能是因为洒水器）。混淆这两者称为"转换条件谬误"，在法律和医学中经常导致严重错误。

为什么先验概率的选择如此重要？

先验编码了你在看到证据之前的知识状态。如医学检测案例所示，即使检测非常准确，如果疾病很罕见（先验很低），阳性结果的实际意义也大打折扣。好消息是，随着证据的积累，不同先验最终会收敛到相同的后验——即证据足够多时，先验的影响会被"冲刷"掉。这就是贝叶斯方法在实践中有效的根本原因。

贝叶斯方法和频率派方法哪个更好？

这是统计学中最持久的争论之一，答案是：取决于场景。频率派方法在设计良好的实验（如临床试验）中有严格的错误率保证。贝叶斯方法在需要整合先验知识、处理小样本或需要直观可解释结果时更具优势。现代统计学越来越倾向于将两者视为互补工具，而非对立阵营。许多实际应用（如自适应临床试验）同时使用两种方法。

如果没有先验信息，应该用什么先验？

这被称为"无信息先验"或"客观先验"问题。常见选择包括：均匀先验（假设所有值等概率）、杰弗里斯先验（根据费希尔信息矩阵推导的先验，具有参数变换不变性）、以及 Haldane 先验 Beta(0,0)。拉普拉斯最早提倡均匀先验（"无差别原理"），但后来人们发现均匀先验在参数变换下不是不变的。在实践中，如果数据量足够大，合理的无信息先验之间的差异通常可以忽略。

贝叶斯定理可以用于连续变量吗？

可以。对于连续变量，贝叶斯定理的形式变为：f(θ|x) = L(x|θ) · π(θ) / ∫ L(x|θ) · π(θ) dθ，其中 f 表示概率密度函数，L 是似然函数，π 是先验分布。分母中的积分（称为"边际似然"或"证据"）通常是计算难点，这也是为什么 MCMC 等数值方法如此重要——它们可以在不计算分母的情况下从后验分布中抽样。