贝叶斯估计

什么是条件期望？

以二元连续随机向量(X,Y) 为例

连续随机向量的边际密度函数为f_X(y)=\int_{-\infty}^\infty f(x,y)dx

条件分布函数为F(x|y)=P\{X\le x|Y=y\}=\lim_{\delta y\to0}\frac{\int_{-\infty}^x\int_y^{y+\delta y}f(u,v)dudv}{\int_{-\infty}^\infty\int_y^{y+\delta y}f(u,v)dudv}=\frac{\int_{-\infty}^xf(u,y)du}{\int_{-\infty}^\infty f(u,y)du}=\int_{-\infty}^x\frac{f(u,y)}{f_X(y)}du

后验分布

1）[InvalidCharacterError: "class<" did not match the Name production] 均为离散型随机变量

P\{\xi=X_i,\theta=y_j\}=\pi (y_j)P\{\xi=X_i|\theta=y_j\}=g(X_i)P\{\theta=y_j|\xi=X_i\}

g(X_i)=\sum_j\pi(y_j)P\{\xi=X_i|\theta=y_j\}

则有[InvalidCharacterError: "S<SPAN" did not match the Name production]

2）\xi 为连续型随机变量，\theta 为离散型随机变量

对于k=(k_1,...,k_n),k_i>0,i=1,2,...,n

P\{X\le\xi[InvalidCharacterError: "X+H,\THETA=Y_J\}=\PI(Y_J)P\{X\LE\XI<X+H|\THETA=Y_J\}=P\{X\LE\XI<X+H\}P\{\THETA=Y_J|X\LE\XI<X+H\}<" did not match the Name production]

令h\to0 ，得\pi(y_j)P\{\xi=X|\theta=y_j\}=g(X)P\{\theta=y_j|\xi=X\}

又g(X)=\sum_j\pi(y_j)f(X|y_j)

则[InvalidCharacterError: "S<SPAN" did not match the Name production]

3）\xi 为离散型随机变量，\theta 为连续型随机变量

对于\varepsilon>0

P\{\xi=X_i,y\le\theta[InvalidCharacterError: "Y+\VAREPSILON\}=P\{Y\LE\THETA<Y+\VAREPSILON\}P\{\XI=X_I|Y\LE\THETA<Y+\VAREPSILON\}=P\{\XI=X_I\}P\{Y\LE\THETA<Y+\VAREPSILON|\XI=XI\}<" did not match the Name production]

两边除以\varepsilon ，令\varepsilon\to0 ，得\pi(y)P\{\xi=X_i|\theta=y\}=P\{\xi=X_i\}h(y|X_i)

又P\{\xi=X_i\}=\int_{-\infty}^\infty P\{\xi=X_i|\theta=y\}\pi(y)dy

则[InvalidCharacterError: "S<SPAN" did not match the Name production]

4）[InvalidCharacterError: "class<" did not match the Name production] 均为连续型随机变量

g(X)h(y|X)=\pi(y)f(X|y)

g(X)=\int_{-\infty}^\infty f(X|y)\pi(y)dy

则[InvalidCharacterError: "S<SPAN" did not match the Name production]

条件期望的公式

由贝叶斯估计量定理得知，损失函数为L(\theta,d)=(\theta-d(\xi))^2 时，则\theta 的贝叶斯估计量为\tilde{d}(\xi_1,\xi_2,...,\xi_n)=E(\theta|\xi_1,\xi_2,...,\xi_n)=\begin{cases} \int_{-\infty}^\infty yh(y|\xi_1,\xi_2,...,\xi_n)dy\quad(C1)\\ \sum_jy_jh(y_j|\xi_1,\xi_2,...,\xi_n)\quad(C2) \end{cases}

其中条件C1 为\theta 为连续随机变量且具有密度函数\pi(y) ，条件C2 为\theta 为离散随机变量且取值y_j,j=1,2,...

风险函数与贝叶斯风险函数有什么区别？

风险函数R(\theta,d)=E_\theta\{L[\theta,d(\xi_1,...,\xi_n)]\} ，是在\theta 给定的情况下，关于\xi_1,...,\xi_n 的期望

贝叶斯风险函数B(d)=E\{L[\theta,d(\xi_1,...,\xi_n)]\}=\int L\frac{p(\xi,\theta)}{p_\xi(\theta)}d\xi p_\xi (\theta)d\theta=E\{E(L|\theta)\}=\int L\frac{p(\xi,\theta)}{p_\theta(\xi)}d\theta p_\theta(\xi)d\xi=E\{E(L|\xi_1,...,\xi_n)\} ，是关于\xi_1,...,\xi_n,\theta 的期望

一致最小风险估计量和最大风险最小化估计量有什么区别？

一致最小风险估计量要求决策函数对于所有\theta 达到一致最小，这种一致性存在需要条件

最大风险最小化估计量要求决策函数对于平均损失达到最大\theta的损失达到最小，局部的极小不能保证全局对所有\theta 的最小，所以不能保证一致性，但一致性能保证最大风险最小

核

求核的作用在于确定后验分布，从而求后验分布的条件期望，得到贝叶斯估计量

即只要知道后验分布的核，即可知道后验分布的密度/分布函数

β分布

连续型随机变量所服从的分布，其密度函数为f(x)=\begin{cases} \frac{\Gamma(p+q)}{\Gamma(p)\Gamma(q)}x^{p-1}(1-x)^{q-1},\quad0[InvalidCharacterError: "X<1\\" did not match the Name production] ，其中p,q 为正的常数，实数域上的gamma函数定义为\Gamma(x)=\int_0^\infty t^{x-1}e^{-t}dt(x>0)

其中\beta 函数B(p,q)=\frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)},B(p,q)=\int_0^1x^{p-1}(1-x)^{q-1}dx

其数学期望为\frac{p}{p+q}

风险函数、一致最小风险估计量与最大风险最小化估计

贝叶斯估计中，将未知参数不视为定值，而是有自身分布的随机变量；采用决策函数来估计未知参数或者描述某项决策的价值，而决策函数得选择标准是用损失函数和风险函数来描述的

风险函数

对于决策函数d(\xi_1,\xi_2,...,\xi_n) ，称R(\theta,d)=E_\theta\{L[\theta,d(\xi_1,\xi_2,...,\xi_n)]\} 为其风险函数。它是损失函数在参数为\theta 时的期望，代表了使用决策函数d(\xi_1,\xi_2,...,\xi_n) 估计\theta 的平均损失。

一致最小风险估计量

设G 是由决策函数为元素组成的集合，如果有d_*(\xi_1,\xi_2,...\xi_n)\in G ，使得R(\theta,d_*)=min_{d\in G}\{R(\theta,d)\},\forall \theta\in\Theta ，则称d_*(\xi_1,\xi_2,...,\xi_n) 为\theta 的一致最小风险估计量。如果进一步要求E_\theta[d(\xi_1,...,\xi_n)]=\theta ，则是一致最小风险估计量就是一致最小方差无偏估计量。

最大风险最小化估计

设G 是由决策函数为元素组成的集合，如果d^*(\xi_1,...,\xi_n)\in G 使得对于任意d\in G ，有\sup_{\theta\in\Theta}\{R(\theta,d^*)\}\le\sup_{\theta\in\Theta}\{R(\theta,d)\} ，即\sup_{\theta\in\Theta}\{R(\theta,d^*)\}=\inf_{d\in G}\{\sup_{\theta\in\Theta}\{R(\theta,d)\}\} ，则称d^*(\xi_1,...,\xi_n) 为\theta 的最大风险最小化估计量

贝叶斯估计量定理

如果损失函数为L[\theta,d(\xi_1,\xi_2,...,\xi_n)]=[\theta-d(\xi_1,...,\xi_n)]^2 ，且E[\theta-d(\xi_1,...,\xi_n)]^2<\infty ，则参数\theta 的贝叶斯估计量为\tilde{d}(\xi_1,\xi_2,...,\xi_n)=E[\theta|\xi_1,...,\xi_n]

简单证明：

1）对于B(d)=E[L(\theta,d)]=E[\theta-d(\xi)]^2=E\{E[(\theta-d(\xi)^2|\xi]\} ，B(d) 在G 中达到最小几乎处处等价于E[(\theta-d(\xi))^2|\xi] 在G 中达到最小

2）由期望的性质知E[(\theta-E(\theta|\xi))^2|\xi]\le E[(\theta-d(\xi))^2|\xi],\forall d\in G

贝叶斯计量为最大风险最小化估计量的充分条件

设总体\xi 的分布函数为F(x;\theta),\theta\in\Theta,\xi_1,...,\xi_n 为\xi 的样本，\tilde{d}(\xi_1,\xi_2,...,\xi_n) 是\theta 的贝叶斯估计量，\theta 的先验分布函数为F_\theta(y) ，如果风险函数R(\theta,\tilde{d})=E[L(\theta,\tilde{d})|\theta] 在\Theta 上为常数，则贝叶斯估计量\tilde{d}(\xi_1,...,\xi_n) 也是\theta 的最大风险最小化估计量

简单证明：

由于R(\theta,\tilde{d})=E[L(\theta,\tilde{d})|\theta] 在\Theta 上为常数，所以\sup_{\theta\in\Theta}\{R(\theta,\tilde d)\}=\int_\Theta R(y,\tilde d)dF_\theta(y)=E\{E[L(\theta,d)|\theta]\}=B(\tilde d)\le B(d)=\int_\Theta R(y,d)dF_\theta(y)\le\int_\Theta\sup_{\theta\in\Theta}\{R(\theta,d)\}dF_\theta(y)=\sup_{\theta\in\Theta}\{R(\theta,d)\}

由于d 的任意性得到\sup_{\theta\in\Theta}\{R(\theta,\tilde d)\}=\inf_{d\in G}\{\sup_{\theta\in\Theta}\{R(\theta,d)\}\} ，即贝叶斯估计量也是最大风险最小化估计量

两个求贝叶斯估计量的例子以及两个实例

例题——决策函数为未知参数的估计量

实例