协方差怎么计算?能举例说明吗?

协方差怎么计算?举例说明

协方差是衡量两个变量之间线性关系强度和方向的统计量,它描述了一个变量的变化如何影响另一个变量的变化。计算协方差的核心是通过两个变量与各自均值的偏差乘积,反映它们的联动趋势。

协方差的计算公式

对于两个变量 \\(X\\) 和 \\(Y\\)各有 \\(n\\) 个数据,协方差 \\( \\text{cov}(X,Y) \\) 的计算公式为: \\[ \\text{cov}(X,Y) = \\frac{1}{n} \\sum_{i=1}^{n} (X_i - \\mu_X)(Y_i - \\mu_Y) \\] 其中,\\(\\mu_X\\) 是变量 \\(X\\) 的均值,\\(\\mu_Y\\) 是变量 \\(Y\\) 的均值,\\(X_i\\)、\\(Y_i\\) 分别是两个变量的第 \\(i\\) 个数据。

举例说明:用学习时间与考试分数计算协方差

为直观理,以“学生每周学习时间小时”和“期末考试分数”为例,假设5名学生的数据如下表:

| 学生 | 学习时间 \\(X\\)小时 | 考试分数 \\(Y\\)分 | |------|-----------------------|----------------------| | 1 | 1 | 60 | | 2 | 2 | 70 | | 3 | 3 | 80 | | 4 | 4 | 90 | | 5 | 5 | 100 |

步骤1:计算两个变量的均值

  • \\(X\\) 的均值 \\(\\mu_X\\):
  • \\[ \\mu_X = \\frac{1+2+3+4+5}{5} = 3 \\]
  • \\(Y\\) 的均值 \\(\\mu_Y\\):
  • \\[ \\mu_Y = \\frac{60+70+80+90+100}{5} = 80 \\]

    步骤2:计算每个数据与均值的偏差

  • \\(X\\) 的偏差:\\(X_i - \\mu_X\\)
  • 1-3=-2,2-3=-1,3-3=0,4-3=1,5-3=2
  • \\(Y\\) 的偏差:\\(Y_i - \\mu_Y\\)
  • 60-80=-20,70-80=-10,80-80=0,90-80=10,100-80=20

    步骤3:计算偏差乘积并求和

    将对应偏差相乘后累加: \\[ (-2)(-20) + (-1)(-10) + 0 \\times 0 + 1 \\times 10 + 2 \\times 20 \\] \\[ = 40 + 10 + 0 + 10 + 40 = 100 \\]

    步骤4:求平均得到协方差

    \\[ \\text{cov}(X,Y) = \\frac{100}{5} = 20 \\]

    结果说明

    计算结果为20,正值表明“学习时间”与“考试分数”呈正相关——学习时间增加时,分数倾向于上升。若结果为负,说明变量反向变化;若接近0,则表明两者线性关系较弱。

    延伸阅读: