最小二乘法是一种用于线性回归分析的常用方法,其核心思想是通过最小化误差的平方和来确定最佳拟合直线(线性回归方程)的系数。以下为你介绍详细的计算步骤:
1. 数据准备
假设有 n 组观测数据 (x1,y1),(x2,y2),⋯,(xn,yn),线性回归方程的一般形式为 y^=a+bx,其中 y^ 是预测值,a 是截距,b 是斜率,我们需要根据已知数据求出 a 和 b 的值。
2. 定义误差函数
对于每个观测点 (xi,yi),其预测值为 y^i=a+bxi,误差 ei=yi−y^i=yi−(a+bxi)。
最小二乘法的目标是使所有误差的平方和最小,即最小化误差函数 Q(a,b)=∑i=1nei2=∑i=1n(yi−a−bxi)2。
3. 求偏导数并令其为零
分别对 a 和 b 求偏导数:
对 a 求偏导数:
∂a∂Q=−2∑i=1n(yi−a−bxi)=0
化简可得:∑i=1nyi−na−b∑i=1nxi=0 ①
对 b 求偏导数:
∂b∂Q=−2∑i=1nxi(yi−a−bxi)=0
化简可得:∑i=1nxiyi−a∑i=1nxi−b∑i=1nxi2=0 ②
4. 求解 a 和 b
由①式可得:na+b∑i=1nxi=∑i=1nyi,进而推出 a=y−bx,其中 x=n1∑i=1nxi 是 x 的均值,y=n1∑i=1nyi 是 y 的均值。
将 a=y−bx 代入②式:
i=1∑nxiyi−(y−bx)i=1∑nxi−bi=1∑nxi2i=1∑nxiyi−yi=1∑nxi+bxi=1∑nxi−bi=1∑nxi2b(xi=1∑nxi−i=1∑nxi2)b=0=0=yi=1∑nxi−i=1∑nxiyi=n∑i=1nxi2−(∑i=1nxi)2n∑i=1nxiyi−∑i=1nxi∑i=1nyi
5. 得出线性回归方程
求出 a 和 b 的值后,将其代入线性回归方程 y^=a+bx 中,就得到了通过最小二乘法确定的线性回归方程。
例如,有数据 (1,2),(2,3),(3,4):
计算均值:x=31+2+3=2,y=32+3+4=3
计算相关和:∑i=13xi=6,∑i=13yi=9,∑i=13xi2=12+22+32=14,∑i=13xiyi=1×2+2×3+3×4=20
计算 b 值:b=3×14−623×20−6×9=42−3660−54=1
计算 a 值:a=3−1×2=1
所以线性回归方程为 y^=1+x 。