SLAM中的数学基础(二)估计理论

7.3 估计理论

7.3.1 估计量的性质

​ 所谓估计,就是指研究某问题时感兴趣的参数$\theta$不能通过精确测量得知,只能通过一组观测样本值$Z=\lbrace z_1,z_2,\cdots,z_k\rbrace$猜测参数$\theta$的可能取值$\hat\theta$。

​ 估计量的好坏程度,估计量的性质主要是一致性偏差性

一致性

随着样本数量的增多,估计量$\hat{\theta}$应该收敛到参数$\theta$的实际取值,也就是说估计值应该与实际值保持一致。

弱一致性收敛:当观测值规模无穷大时,$\hat{\theta}$依概率收敛于$\theta$;

强一致性收敛:当观测值规模趋于无穷大时,$\hat{\theta}$严格收敛于$\theta$;

偏差性

实际中,观测值的规模不可能无穷大,应该讨论样本数量有限时,估计值与实际值之间的偏差,即偏差性。偏差性可以用估计量的k阶矩来描述,k阶矩在数学中的定义分为k阶原点矩k阶中心矩,分别如式7-53和7-54所示:
$$
E[\hat{\theta}^k]\tag{7-53}
$$

$$
E[(\hat{\theta}-E[\hat{\theta}])^k\tag{7-54}
$$

一阶原点矩就是期望,二阶中心矩就是方差,二阶以上的高阶矩过于复杂,一般不讨论。

无偏估计:估计量$\hat{\theta}$的期望等于参数$\theta$的实际取值。

最小方差估计:方差描述了估计量的不确定性,方差越小估计不确定性越小。

7.3.2 估计量的构建

好的估计量应该是最小方差无偏估计,直接求解非常困难,因此需要使用近似方法。

1.最大似然估计

假设知道概率分布模型,概率分布模型中的参数$\theta$未知。观测得到的样本数据$Z=\lbrace z_1,z_2,\cdots,z_k\rbrace$,是模型的输出结果,问题在于取什么样的参数$\theta$能够使得模型输出得到样本数据。若有一个参数$\theta$能够使得模型输出和观测结果一样的数据的概率最大,则$\theta$就是最合适的估计参数$\hat{\theta}$。

​ 构建似然函数,用于表示观测样本$Z=\lbrace{z_1,z_2,\cdots,z_k}\rbrace$与参数$\theta$之间的概率关系,如式7-55所示,假设概率分布模型已知,即$P(z_k|\theta)$的概率分布情况为已知信息:
$$
L(\theta|Z)=P(z_1|\theta)P(z_2|\theta)\cdots P(z_k|\theta)=\prod_kP(z_k|\theta)\tag{7-55}
$$
似然函数是观测样本中每个样本点概率累乘的结果。

​ 为了避免某一个样本点概率为0,导致整个似然函数为0.将似然函数$L(\theta|Z)$取对数,乘法转换为累加运算:
$$
l(\theta|Z)=ln(L(\theta|Z))=\sum_kln(P(z_k|\theta))\tag{7-56}
$$
最大似然估计,就是求使得似然函数$l(\theta|Z)$取最大值时的$\theta$值,所以最大似然估计的目标函数如式7-57:
$$
\hat{\theta}{MLE}=arg max{\theta}l(\theta|Z)
$$
​ 求解最大似然估计的方法,就是直接对似然函数求导,令导数等于0,就能求解出$\theta$。

2. 最小二乘估计

​ **最大似然估计的缺点就是必须事先假设模型的概率分布$P(\theta_k|Z)$**已知,而实际中一般很难找到合适的概率分布对模型进行假设。

​ 最小二乘估计不需要假设模型的概率分布情况。最小二乘估计的思路是计算样本观测点与模型实际点之间的平方误差,求使得该误差最小的参数值$\theta$。

最小二乘估计其实就是样本拟合。

​ 针对一个模型$h(x|\theta)$,不同的$\theta$取值会得到不同的输出值$z_K$,由于$\theta$的真实值未知,估计出来的$\hat{\theta}$对应的输出值总会与模型的实际值有误差,对每一个样本点与模型实际点之间的误差取平方,即二乘运算,然后对所有的平方误差求和,就构建出了所谓的代价函数:
$$
J(\theta)=\sum_k(z_k-h(x_k,\theta))^2\tag{7-61}
$$
​ 不断调整$\theta$的值,理论上可以使代价函数$J(\theta)$达到最小,即样本点与模型实际点之间的平方误差达到最小,样本与模型完全拟合。

​ 同样,求解最小二乘估计代价函数的最值的方法,也是对代价函数进行求导,使得导数等于0,求解$\theta$.

​ 对于无法求导的模型,可以使用梯度下降法寻找最值点的位置。

最小二乘估计相比最大似然估计,优点是能解决模型未知的问题。最大似然估计必须先知道假定模型的概率分布情况$P(z_k|\theta)$,而最小二乘估计则只关心样本数据拟合,并不关心模型到底长什么样。

3.贝叶斯估计

最大似然估计最小二乘估计中,待估计量参数$\theta$被当成一个确定量,因此这些方法被称为经典估计

​ 如果将带估计参数$\theta$当成一个不确定量,即随机变量,就可以将$\theta$的先验知识引入估计提高估计精度,先验知识与后验知识之间通过贝叶斯准则建立联系,因此称为贝叶斯估计

​ 与经典估计一样,贝叶斯估计也是构建关于误差的代价函数,贝叶斯代价函数如式(7-71)所示。贝叶斯估计与最大似然估计一样,也是假设概率分布模型是知道的,即$P(Z,\theta)$分布情况是已知的,只是概率分布模型中的参数$\theta$未知。$C(e)$是关于误差$e=\theta-\hat\theta$的函数,代价$\gamma$是$C(e)$在概率密度$P(Z,\theta)$下的期望。
$$
\gamma=E_{P(Z,\theta)}[C(e)]=\iint C(\theta-\hat\theta)P(Z,\theta)dZd\theta=\int[\int C(\theta-\hat\theta)P(\theta|Z)d\theta]P(Z)dZ\tag{7-71}
$$
与前面一样,求解贝叶斯估计,就是最小化(7-71)所示的代价函数,如式(7-72)所示。
$$
\hat\theta_{Bayes}=argmin_{\hat\theta}\gamma \tag{7-72}
$$
image-20221126160934239

利用图7-24中三种误差构造贝叶斯代价函数$\gamma$,使贝叶斯代价最小的估计量分别是后验分布$P(Z|\theta)$上的中值、均值和众数。均值估计量其实就是最小均方误差估计量,众数估计量其实就是最大后验估计量

image-20221126165123685

4.各估计量的比较

​ 经典估计:

  • 最大似然估计
  • 最小二乘法估计

贝叶斯估计:

  • 最小均方差误差估计
  • 最大后验估计

1. 从策略角度对比

估计:研究某问题时感兴趣的参数$\theta$不能够通过精确测量得知,只能通过一组观测样本值$Z=\lbrace z_1,z_2,\cdots,z_k\rbrace$猜测参数$\theta$的可能取值$\hat\theta$,这就是估计。

估计必须要有所依据,以保证估计值能尽量准确地反映真实情况,估计依据也叫做估计策略。估计策略主要从估计量的性质入手,前面已经讨论过估计量的一致性偏差性这两个性质。

一致性在实际情况中,由于观测到的样本数量不可能无穷多,因此一致性只是理论上需要满足的条件。

样本有限的条件下,更多地讨论估计值和实际值之间的偏差更有意义,即偏差性

​ 所以,估计策略的目标是让估计量的偏差量尽可能小,最小方差无偏估计无疑是一个理想的估计量。然而最小无偏估计实现非常困难,因此需要寻找近似策略,于是引出下面的这些策略。

​ 1. 最大似然估计假设已知概率分布模型,只是概率分布模型中的参数$\theta$未知。$\theta$取什么样的值能够让模型输出这些观测得到的样本数据$Z=\lbrace z_1,z_2,\cdots,z_k\rbrace$(模型的输出结果)?尝试$\theta$取不同的值,看模型是否输出和观测一样的结果。当某个$\theta$取值能够让模型输出与观测结果一样的的数据的概率最大时,那么这个$\theta$取值就是最合适的估计参数$\hat\theta$。这一策略用似然函数表示,如式(7-83)所示:
$$
\hat\theta_{MLE}=argmax_{\theta}\sum_k ln(P(z_k|\theta))\tag{7-83}
$$

2. **最小二乘估计**是计算观测样本点与模型实际点之间的平方误差,求使得该平方误差最小的参数值$\theta$,求出来的这参数值$\theta$就是估计参数$\hat\theta$。其实最小二乘就是样本拟合,如式(7-84)所示。

$$
\hat\theta_{LSE}=argmin_{\theta}\sum_k(z_k-h(x_k,\theta))^2\tag{7-84}
$$

3. **贝叶斯估计**也是构建关于误差的代价函数,贝叶斯代价函数中的$e=\theta-\hat\theta$表示待估计参数实际取值$\theta$与估计取值$\hat\theta$之间的误差,$C(e)$是关于误差$e$的函数,代价$\gamma$是$C(e)$在概率密度$P(Z,\theta)$下的期望,最小化代价函数,如式7-85所示:

$$
\hat\theta_{Bayes}=argmin_{\hat\theta}\int[\int C(\theta-\hat\theta)P(\theta|Z)d\theta]P(Z)dZ\tag{7-85}
$$

2. 从模型角度对比

​ 从另一个角度,即模型及模型参数特性,会更容易理解这些估计的异同。这里的模型不单单是一般模型,还包含了模型的概率表述,更确切的说一个是指概率模型。如表7-1,经典估计与贝叶斯估计之间的不同在于模型带估计参数。

image-20221126204940599

​ 经典估计中,模型待估计参数被当成确定量来处理,即参数的取值未知,但该取值是确定量(即常量)

​ 贝叶斯估计中,模型待估计参数被当成随机量,即参数的取值未知,并且该取值是不确定的(具有随机性),好处是可以利用其先验知识,以提高参数估计的精度。

​ 另一方面,最大似然估计贝叶斯估计都要求所处理问题的概率模型已知,即带估计参数的概率分布情况是已知的某种形式;而最小二乘估计可以处理模型未知的问题。

​ 显然,很多问题找到对应的概率模型是非常困难的,因此最小二乘估计更加灵活,能应用到更广泛的未知模型当中

3. 等价转换关系

这些估计之间存在着等价转换关系,如图7-26所示。

最小方差无偏估计是最为理想的,但是难以实现,因此使用

  • 最大似然估计
  • 最小二乘估计
  • 最小均方误差估计
  • 最大后验估计等

都是最小方差无偏估计的一种近似方法。

image-20221126210237814

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2022-2024 lk
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信