贝叶斯估计

什么是条件期望?

以二元连续随机向量(X,Y) 为例
连续随机向量的边际密度函数为f_X(y)=\int_{-\infty}^\infty f(x,y)dx
条件分布函数为F(x|y)=P\{X\le x|Y=y\}=\lim_{\delta y\to0}\frac{\int_{-\infty}^x\int_y^{y+\delta y}f(u,v)dudv}{\int_{-\infty}^\infty\int_y^{y+\delta y}f(u,v)dudv}=\frac{\int_{-\infty}^xf(u,y)du}{\int_{-\infty}^\infty f(u,y)du}=\int_{-\infty}^x\frac{f(u,y)}{f_X(y)}du

后验分布

1)[InvalidCharacterError: "class<" did not match the Name production] 均为离散型随机变量
P\{\xi=X_i,\theta=y_j\}=\pi (y_j)P\{\xi=X_i|\theta=y_j\}=g(X_i)P\{\theta=y_j|\xi=X_i\}
g(X_i)=\sum_j\pi(y_j)P\{\xi=X_i|\theta=y_j\}
则有[InvalidCharacterError: "S<SPAN" did not match the Name production]
2)\xi 为连续型随机变量,\theta 为离散型随机变量
对于k=(k_1,...,k_n),k_i>0,i=1,2,...,n
P\{X\le\xi[InvalidCharacterError: "X+H,\THETA=Y_J\}=\PI(Y_J)P\{X\LE\XI<X+H|\THETA=Y_J\}=P\{X\LE\XI<X+H\}P\{\THETA=Y_J|X\LE\XI<X+H\}<" did not match the Name production]
h\to0 ,得\pi(y_j)P\{\xi=X|\theta=y_j\}=g(X)P\{\theta=y_j|\xi=X\}
g(X)=\sum_j\pi(y_j)f(X|y_j)
则[InvalidCharacterError: "S<SPAN" did not match the Name production]
3)\xi 为离散型随机变量,\theta 为连续型随机变量
对于\varepsilon>0
P\{\xi=X_i,y\le\theta[InvalidCharacterError: "Y+\VAREPSILON\}=P\{Y\LE\THETA<Y+\VAREPSILON\}P\{\XI=X_I|Y\LE\THETA<Y+\VAREPSILON\}=P\{\XI=X_I\}P\{Y\LE\THETA<Y+\VAREPSILON|\XI=XI\}<" did not match the Name production]
两边除以\varepsilon ,令\varepsilon\to0 ,得\pi(y)P\{\xi=X_i|\theta=y\}=P\{\xi=X_i\}h(y|X_i)
P\{\xi=X_i\}=\int_{-\infty}^\infty P\{\xi=X_i|\theta=y\}\pi(y)dy
则[InvalidCharacterError: "S<SPAN" did not match the Name production]
4)[InvalidCharacterError: "class<" did not match the Name production] 均为连续型随机变量
g(X)h(y|X)=\pi(y)f(X|y)
g(X)=\int_{-\infty}^\infty f(X|y)\pi(y)dy
则[InvalidCharacterError: "S<SPAN" did not match the Name production]

条件期望的公式

由贝叶斯估计量定理得知,损失函数为L(\theta,d)=(\theta-d(\xi))^2 时,则\theta 的贝叶斯估计量为\tilde{d}(\xi_1,\xi_2,...,\xi_n)=E(\theta|\xi_1,\xi_2,...,\xi_n)=\begin{cases} \int_{-\infty}^\infty yh(y|\xi_1,\xi_2,...,\xi_n)dy\quad(C1)\\ \sum_jy_jh(y_j|\xi_1,\xi_2,...,\xi_n)\quad(C2) \end{cases}
其中条件C1\theta 为连续随机变量且具有密度函数\pi(y) ,条件C2\theta 为离散随机变量且取值y_j,j=1,2,...

风险函数与贝叶斯风险函数有什么区别?

风险函数R(\theta,d)=E_\theta\{L[\theta,d(\xi_1,...,\xi_n)]\} ,是在\theta 给定的情况下,关于\xi_1,...,\xi_n 的期望
贝叶斯风险函数B(d)=E\{L[\theta,d(\xi_1,...,\xi_n)]\}=\int L\frac{p(\xi,\theta)}{p_\xi(\theta)}d\xi p_\xi (\theta)d\theta=E\{E(L|\theta)\}=\int L\frac{p(\xi,\theta)}{p_\theta(\xi)}d\theta p_\theta(\xi)d\xi=E\{E(L|\xi_1,...,\xi_n)\} ,是关于\xi_1,...,\xi_n,\theta 的期望

一致最小风险估计量和最大风险最小化估计量有什么区别?

一致最小风险估计量要求决策函数对于所有\theta 达到一致最小,这种一致性存在需要条件
最大风险最小化估计量要求决策函数对于平均损失达到最大\theta的损失达到最小,局部的极小不能保证全局对所有\theta 的最小, 所以不能保证一致性,但一致性能保证最大风险最小

求核的作用在于确定后验分布,从而求后验分布的条件期望,得到贝叶斯估计量
即只要知道后验分布的核,即可知道后验分布的密度/分布函数

β分布

连续型随机变量所服从的分布,其密度函数为f(x)=\begin{cases} \frac{\Gamma(p+q)}{\Gamma(p)\Gamma(q)}x^{p-1}(1-x)^{q-1},\quad0[InvalidCharacterError: "X<1\\" did not match the Name production] ,其中p,q 为正的常数,实数域上的gamma函数定义为\Gamma(x)=\int_0^\infty t^{x-1}e^{-t}dt(x>0)
其中\beta 函数B(p,q)=\frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)},B(p,q)=\int_0^1x^{p-1}(1-x)^{q-1}dx
其数学期望为\frac{p}{p+q}

风险函数、一致最小风险估计量与最大风险最小化估计

贝叶斯估计中,将未知参数不视为定值,而是有自身分布的随机变量;采用决策函数来估计未知参数或者描述某项决策的价值,而决策函数得选择标准是用损失函数和风险函数来描述的
风险函数
对于决策函数d(\xi_1,\xi_2,...,\xi_n) ,称R(\theta,d)=E_\theta\{L[\theta,d(\xi_1,\xi_2,...,\xi_n)]\} 为其风险函数。它是损失函数在参数为\theta 时的期望,代表了使用决策函数d(\xi_1,\xi_2,...,\xi_n) 估计\theta 的平均损失。
一致最小风险估计量
G 是由决策函数为元素组成的集合,如果有d_*(\xi_1,\xi_2,...\xi_n)\in G ,使得R(\theta,d_*)=min_{d\in G}\{R(\theta,d)\},\forall \theta\in\Theta ,则称d_*(\xi_1,\xi_2,...,\xi_n)\theta 的一致最小风险估计量。如果进一步要求E_\theta[d(\xi_1,...,\xi_n)]=\theta ,则是一致最小风险估计量就是一致最小方差无偏估计量。
最大风险最小化估计
G 是由决策函数为元素组成的集合,如果d^*(\xi_1,...,\xi_n)\in G 使得对于任意d\in G ,有\sup_{\theta\in\Theta}\{R(\theta,d^*)\}\le\sup_{\theta\in\Theta}\{R(\theta,d)\} ,即\sup_{\theta\in\Theta}\{R(\theta,d^*)\}=\inf_{d\in G}\{\sup_{\theta\in\Theta}\{R(\theta,d)\}\} ,则称d^*(\xi_1,...,\xi_n)\theta 的最大风险最小化估计量

贝叶斯估计量定理

如果损失函数为L[\theta,d(\xi_1,\xi_2,...,\xi_n)]=[\theta-d(\xi_1,...,\xi_n)]^2 ,且E[\theta-d(\xi_1,...,\xi_n)]^2<\infty ,则参数\theta 的贝叶斯估计量为\tilde{d}(\xi_1,\xi_2,...,\xi_n)=E[\theta|\xi_1,...,\xi_n]
简单证明:
1)对于B(d)=E[L(\theta,d)]=E[\theta-d(\xi)]^2=E\{E[(\theta-d(\xi)^2|\xi]\}B(d)G 中达到最小几乎处处等价于E[(\theta-d(\xi))^2|\xi]G 中达到最小
2)由期望的性质知E[(\theta-E(\theta|\xi))^2|\xi]\le E[(\theta-d(\xi))^2|\xi],\forall d\in G

贝叶斯计量为最大风险最小化估计量的充分条件

设总体\xi 的分布函数为F(x;\theta),\theta\in\Theta,\xi_1,...,\xi_n\xi 的样本,\tilde{d}(\xi_1,\xi_2,...,\xi_n)\theta 的贝叶斯估计量,\theta 的先验分布函数为F_\theta(y) ,如果风险函数R(\theta,\tilde{d})=E[L(\theta,\tilde{d})|\theta]\Theta 上为常数,则贝叶斯估计量\tilde{d}(\xi_1,...,\xi_n) 也是\theta 的最大风险最小化估计量
简单证明:
由于R(\theta,\tilde{d})=E[L(\theta,\tilde{d})|\theta]\Theta 上为常数,所以\sup_{\theta\in\Theta}\{R(\theta,\tilde d)\}=\int_\Theta R(y,\tilde d)dF_\theta(y)=E\{E[L(\theta,d)|\theta]\}=B(\tilde d)\le B(d)=\int_\Theta R(y,d)dF_\theta(y)\le\int_\Theta\sup_{\theta\in\Theta}\{R(\theta,d)\}dF_\theta(y)=\sup_{\theta\in\Theta}\{R(\theta,d)\}
由于d 的任意性得到\sup_{\theta\in\Theta}\{R(\theta,\tilde d)\}=\inf_{d\in G}\{\sup_{\theta\in\Theta}\{R(\theta,d)\}\} ,即贝叶斯估计量也是最大风险最小化估计量

两个求贝叶斯估计量的例子以及两个实例

例题——决策函数为未知参数的估计量
实例