方差计算

快速示例:

什么是方差?

方差(Variance)是衡量数据集中数据点偏离均值程度的统计量,定义为偏差平方的平均值。方差越大,数据越分散;方差为零意味着所有数据点完全相同。

σ² = 1N Σi=1N (xi - μ)²

历史背景:方差的概念最早由英国统计学家和遗传学家罗纳德·费希尔(Ronald A. Fisher, 1890–1962)在 1918 年发表的里程碑论文"The Correlation Between Relatives on the Supposition of Mendelian Inheritance"(《基于孟德尔遗传假说的亲属间相关性》)中正式引入。在这篇论文中,费希尔需要一种精确的方式来量化遗传特征的变异程度,于是他引入了"variance"一词,并将其定义为偏差平方的平均值。

费希尔选择"variance"这个词是经过深思熟虑的——它源自拉丁语 variare(变化),简洁地传达了"变化程度"这一概念。在此之前,统计学家主要使用"均方偏差"(mean squared deviation)等冗长的表述。

直觉理解

假设有两个班级的数学成绩:A 班成绩为 {70, 72, 68, 71, 69},B 班为 {40, 100, 60, 90, 60}。两班均值相同(70 分),但 B 班方差远大于 A 班——成绩"散得更开"。方差精确量化了这种"散开"的程度。

为什么偏差要平方?

这是学生最常问的问题之一。为什么不直接取偏差的绝对值?为什么要平方?有三个深层原因:

原因 1:避免正负抵消

偏差 (xi - x̄) 有正有负,它们的和恒等于零——这是均值的数学性质:Σ(xi - x̄) = 0。如果我们直接对偏差求平均,结果永远是 0,无法反映任何信息。平方操作将所有偏差转为正值,避免了正负抵消。

原因 2:数学上的便利性

平方函数 f(x) = x² 是处处可微的光滑函数,这使得方差在微积分和优化中非常容易处理。相比之下,绝对值函数 |x| 在 x = 0 处不可微,这给很多数学推导带来困难。

例如,最小二乘法(Least Squares)之所以选择最小化平方和而非绝对值之和,正是因为对平方和求导可以得到解析解(正规方程),而对绝对值之和的优化没有封闭形式的解。

原因 3:独立随机变量的方差具有可加性

Var(X + Y) = Var(X) + Var(Y)(当 X, Y 独立时)
这是方差最重要的数学性质之一。"绝对偏差"(MAD)不具有这种可加性。方差的可加性使得我们可以从各个组成部分的方差推算出组合系统的方差——这在投资组合理论、误差传播、统计推断中都至关重要。

替代方案:平均绝对偏差 (MAD)

如果使用绝对值而非平方,我们得到的是"平均绝对偏差"(Mean Absolute Deviation, MAD)。MAD 对异常值更稳健,在某些应用中(如中位数回归)更受青睐。但由于缺乏上述数学性质,方差和标准差在统计学中仍占主导地位。

总体方差 vs 样本方差 — Bessel 校正证明

总体方差 (σ²)样本方差 (s²)
公式σ² = Σ(xi - μ)² / Ns² = Σ(xi - x̄)² / (n-1)
适用场景数据包含全部个体数据是总体的一个子集
除以Nn - 1
偏差性精确值,无偏差无偏估计量(Bessel 校正)

为什么除以 n-1?以下是严格的数学推导:

关键恒等式
Σ(xi - x̄)² = Σ(xi - μ)² - n(x̄ - μ)²
证明:将 xi - x̄ 改写为 (xi - μ) - (x̄ - μ),展开平方,利用 Σ(xi - μ) = n(x̄ - μ) 化简。
取期望 E[·]
左侧:E[Σ(xi - x̄)²] = ?(我们要求的值)
右侧第 1 项:E[Σ(xi - μ)²] = nσ²(因为 E[(xi - μ)²] = σ² 对每个 i)
右侧第 2 项:E[n(x̄ - μ)²] = nVar(x̄) = n · σ²/n = σ²
代入得
E[Σ(xi - x̄)²] = nσ² - σ² = (n-1)σ²
结论
因此 E[Σ(xi - x̄)² / (n-1)] = σ²
除以 (n-1) 得到的估计量的期望值恰好等于总体方差 σ²,即无偏估计量
而如果除以 n,E[Σ(xi - x̄)² / n] = (n-1)σ²/n < σ²,系统性低估了总体方差。

自由度解释:n 个数据点在已知均值 x̄ 后只剩 n-1 个自由度(最后一个值由 Σxi = nx̄ 唯一确定)。这个"丢失的自由度"正是我们要从分母中减去的 1。

弗里德里希·贝塞尔(Friedrich Bessel, 1784–1846)是德国天文学家,以首次精确测量恒星视差而闻名。他在 1820 年代研究天文观测误差时,首先认识到需要用 n-1 而非 n 作为分母,以获得对真实测量误差的公正估计。

方差的数学性质

方差之所以成为统计学的基石,是因为它拥有一系列优美的数学性质。以下逐一解释每个性质及其直觉含义

性质 1:平移不变性

Var(X + b) = Var(X)
为什么?给每个数据点加上一个常数 b,只是将整个分布平移,不改变数据点之间的相对关系。均值移动了 b,但每个偏差 (xi + b) - (x̄ + b) = xi - x̄ 完全不变。直觉上:如果全班每人加 10 分,成绩的"离散程度"不会因此改变。

性质 2:缩放的平方效应

Var(aX) = a²·Var(X)
为什么?将每个数据点乘以常数 a,偏差也乘以 a,但方差是偏差的平方的平均值,所以 a 被平方了。例如,将所有数据从"米"转换为"厘米"(乘以 100),方差变为原来的 10000 倍(100²)。这也是为什么标准差(方差的平方根)在缩放时只被乘以 |a|:SD(aX) = |a|·SD(X)。

性质 3:合并(线性变换)

Var(aX + b) = a²·Var(X)
综合性质 1 和 2:平移不影响方差,缩放将方差乘以比例的平方。

性质 4:独立变量的可加性

Var(X + Y) = Var(X) + Var(Y)(当 X, Y 独立时)
为什么?展开 Var(X + Y) = E[(X+Y-E[X+Y])²],交叉项 2·E[(X-E[X])(Y-E[Y])] 就是 2·Cov(X,Y)。当 X 和 Y 独立时,协方差为零,交叉项消失,只剩下 Var(X) + Var(Y)。

实际应用:如果一个投资组合包含两个独立资产,组合的风险(方差)是两个资产风险的简单相加。这是现代投资组合理论的基础(Harry Markowitz, 1952)。

性质 5:一般情况(非独立)

Var(X + Y) = Var(X) + Var(Y) + 2·Cov(X, Y)
当 X 和 Y 不独立时,必须加上协方差项。正协方差意味着两者同向变动,组合方差增大;负协方差意味着反向变动,组合方差减小——这正是分散投资降低风险的数学原理。

性质 6:方差的计算捷径公式

Var(X) = E[X²] - (E[X])²
这个恒等式在理论推导中极为常用,被称为"平方的期望减去期望的平方"。它有时比直接定义更容易计算。

方差分解与 ANOVA

方差可以被分解为不同来源的贡献。这一思想是方差分析(ANOVA, Analysis of Variance)的核心,由费希尔于 1925 年在其著作Statistical Methods for Research Workers中系统阐述。

SSTotal = SSBetween + SSWithin

全变异 = 组间变异 + 组内变异

ANOVA 的核心逻辑:如果组间变异远大于组内变异(F 值大),说明组之间的差异不太可能是偶然的,我们有理由认为各组来自不同的总体(即处理有效果)。

应用示例

测试 3 种肥料对番茄产量的影响:将 30 株番茄随机分为 3 组,施用不同肥料。ANOVA 将产量的总变异分解为"肥料类型导致的差异"(组间)和"同一肥料组内植株间的自然差异"(组内)。如果 F 检验的 p 值 < 0.05,说明至少有一种肥料的效果与其他显著不同。

ANOVA 的思想可以扩展到多因素(双因素 ANOVA、MANOVA)和更复杂的实验设计。方差分解的哲学思想——将总变异拆分为可解释的组成部分——是整个现代统计学的基石。

偏差-方差权衡(机器学习)

在机器学习中,模型预测误差可以分解为三个部分:

E[(y - ŷ)²] = Bias(ŷ)² + Var(ŷ) + σ²noise

偏差 (Bias)

模型预测的系统性偏离。高偏差 = 欠拟合(模型太简单,无法捕捉数据的真实规律)

方差 (Variance)

模型对训练数据变化的敏感度。高方差 = 过拟合(模型太复杂,把噪声也当成规律)

不可约误差 (σ²)

数据本身的随机噪声,任何模型都无法消除

权衡的核心:降低偏差通常意味着使用更复杂的模型(如增加多项式阶数、加深神经网络层),但这往往会增加方差。反之,简化模型降低方差,但可能增加偏差。最佳模型在两者之间取得平衡,使总误差最小。

实际策略:

常见问题

方差的单位是什么?

方差的单位是原始数据单位的平方。例如,如果数据单位是"千克"(kg),方差的单位是"千克的平方"(kg²)。这是方差的一个缺点——它的单位不直观。这也是为什么我们经常使用标准差(方差的平方根),因为标准差的单位与原始数据相同。

方差可以为负数吗?

绝不可能。方差是偏差平方的平均值,而平方值永远 ≥ 0,因此方差永远 ≥ 0。方差为 0 当且仅当所有数据点完全相同。如果你的计算得到了负数,说明计算过程中有错误。

方差和协方差有什么关系?

方差是协方差的特例:Var(X) = Cov(X, X)。协方差 Cov(X, Y) = E[(X - E[X])(Y - E[Y])] 衡量两个变量的共同变动方向和强度。当 Y = X 时,协方差退化为方差。将协方差标准化(除以两个变量各自的标准差)得到相关系数:r = Cov(X,Y) / (SD(X) · SD(Y)),取值范围 [-1, 1]。

对于 n=1(只有一个数据点)的情况如何处理?

总体方差在 N=1 时为 0(该点就是均值,偏差为零)。但样本方差在 n=1 时是未定义的,因为公式中的分母 n-1 = 0,导致除以零。这在直觉上也是合理的:只有一个观测值时,我们完全无法估计总体的变异程度——一个点提供的信息不足以推断"散布"。至少需要 2 个数据点才能计算样本方差。

Excel 中 VAR 和 VARP 有什么区别?

Excel 中:VAR(或 VAR.S)计算样本方差(除以 n-1);VARP(或 VAR.P)计算总体方差(除以 N)。类似地,STDEV/STDEV.S 是样本标准差,STDEVP/STDEV.P 是总体标准差。Google Sheets 和 LibreOffice Calc 也使用相同的命名约定。记忆技巧:有 P 的是 Population(总体),没有 P 的是 Sample(样本)。