【協方差的計算公式】協方差是統計學中用于衡量兩個變量之間線性相關程度的重要指標。它反映了兩個變量的變化趨勢是否一致,即一個變量增加時,另一個變量是否也傾向于增加或減少。協方差的值可以是正數、負數或零,分別表示正相關、負相關和不相關。
一、協方差的基本概念
協方差(Covariance)的定義是:兩個隨機變量 $X$ 和 $Y$ 的協方差等于它們的期望值之差的乘積的期望。數學表達式如下:
$$
\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])
$$
其中:
- $E[X]$ 表示變量 $X$ 的期望值;
- $E[Y]$ 表示變量 $Y$ 的期望值;
- $E[...]$ 表示期望值的計算。
在實際應用中,由于我們通常只有樣本數據,而不是總體數據,因此會使用樣本協方差公式來估算協方差。
二、樣本協方差的計算公式
對于樣本數據 $(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)$,樣本協方差的計算公式為:
$$
\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
$$
其中:
- $n$ 是樣本數量;
- $\bar{x}$ 是樣本均值;
- $\bar{y}$ 是樣本均值。
如果使用的是總體協方差,則分母為 $n$,而不是 $n-1$。
三、協方差與相關系數的區別
雖然協方差可以反映變量之間的關系方向,但它不能直接說明相關性的強弱,因為其數值受變量單位的影響。為了消除單位影響,通常會用相關系數(如皮爾遜相關系數)來衡量變量之間的線性關系強度。
四、協方差的應用場景
協方差廣泛應用于金融、經濟、數據分析等領域,例如:
- 在投資組合管理中,用于衡量不同資產之間的風險相關性;
- 在機器學習中,用于特征選擇和降維;
- 在統計分析中,用于判斷兩組數據是否存在線性關系。
五、協方差計算公式總結表
| 概念 | 公式 |
| 總體協方差 | $\text{Cov}(X, Y) = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_x)(y_i - \mu_y)$ |
| 樣本協方差 | $\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$ |
| 其中: | $N$ 為總體大小,$n$ 為樣本數量,$\mu_x$ 為總體均值,$\bar{x}$ 為樣本均值 |
通過上述公式和表格,我們可以清晰地了解協方差的計算方式及其應用場景。在實際操作中,建議結合數據可視化工具進行分析,以更直觀地理解變量之間的關系。


