1.11最小二乘法应用实例

最小二乘法(又称为为最小平方法,二乘就是平方的含义),是用来衡量两个模型(样本模型与实际模型)之间距离(准确来说是欧氏距离)的一种方法,其背后的原理求凸函数的最小值。其应用很广泛,在线性回归算法中起到核心作用。两个模型之间的距离可表示为:
\sum_{i=1}^N(y_{true}-y_{prev} )^2
最小二乘法有不少优势,如简单明了、易解释。但也存在很多不足,对模型要比较简单,稍微复杂一点(如模型中参数多几个)或条件宽泛一点,可能就无法处理。当然,对于这些问题,我们可以采用梯度下降法解决。梯度下降法将在后续章节介绍。
这里我们先看一个简单实例,假设一个裁缝师傅有一块长2米的布,他共量了5次,但每次都不一样,具体数据如下,根据这些样本数据,如何确定其最终的结果呢?这个问题我们可以利用最小二乘法来解决。
单位是米

问题1:这个问题的目标是什么?
问题2:求平均值是一种直观方法,但这种方法好像不足让人信服,有人说,是否可以用出现次数多的那个为准?
问题3:如何用用最小二乘法确定最终结果,如何设定这个实际模型?
问题4:这个问题很简单,还可以做哪些延伸?如果由一维变为多维该如何处理?
问题5:如是否可以把这个问题转换为一个概率模型?然后,把用欧氏方法来衡量两个模型之间的相似度,转变为利用交叉熵方法来衡量两个分布之间近似程度?

问题1:主要目的就是通过这些演变数据获取背后的真实数据
问题2: 最小二乘法的本质是用欧氏视角去衡量两个模型之间的近似度,通过优化方法使它们之间的相似度最大化(距离最小化)。为更好理解,把这些点用坐标表示出来。

这是样本数据,我们假设样本数据背后反应的实际数据为y=y ̂这样一条直线,把这条直线视为实际模型,然后利用最小二乘法求出y ̂的值。
L(\hat y)=min\sum_{i=1}^5(\hat y-y_i )^2 =min((\hat y-2.02)^2+(\hat y-1.97)^2+(\hat y-1.98)^2+(\hat y-2.02)^2+(\hat y-2.01)^2)
这个计算过程,实际就是求各点到直线y=y ̂的距离(或样本与实际值的误差)最小化,计算过程如下图所示:

显然函数L(\hat y)是一元二次函数,是凸函数,故其驻点就是最小值点。
L(\hat y)求导,并令其为0得:
L'(\hat y)=2(\hat y-2.02)+2(\hat y-1.97)+2(\hat y-1.98)+2(\hat y-2.02)+2(\hat y-2.01)
解之得:
\hat y=\frac{2.02+1.97+1.98+2.02+2.01}{5}=10
这个结果就是求各个样本点的平均值,即\hat y=10这个模型与样本模型最接近。
问题4:加下来我们介绍梯度时,将介绍如何多维数据的情况。
问题5:这个问题如果用概率统计的思想来处理,该如何处理呢?
概率统计中需要有一个随机变量,随机变量的分布,衡量不同分布之间的相似度等。
实际值与样本的误差可作为一个随机变量:\hat y-y_i
假设这个随机变量的概率为p(\hat y-y_i),该误差是一个随机及独立的变量,正常情况下,这个概率应该满足正态分布(因正态分布的熵最大),不妨假设满足标准正态分布\phi(0,1)
这里y作为一个普通变量(非随机变量),故可以使用最大似然估计也可求出y的值,也是
\hat y=\frac{2.02+1.97+1.98+2.02+2.01}{5}=10
真可谓异曲同工!
大家不妨试一下。