Alex_McAvoy

想要成为渔夫的猎手

总体参数的估计问题

【点估计】

引入

设总体 $X$ 的分布函数的形式已知,但它的一个或多个参数未知,借助于总体 $X$ 的一个样本来估计总体未知参数的值,这种问题被称为参数的点估计问题

定义

设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式为已知,$\theta$ 是待估参数,$X_1,X_2,\cdots,X_n$ 是 $X$ 的一个样本,$x_1,x_2,\cdots,x_n$ 是相应的一个样本值

点估计问题就是要构造一个适当的统计量 $\hat{\theta}(X_1,X_2,\cdots,X_n)$,用它的观察值 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 作为未知参数 $\theta$ 的近似值

称 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 为 $\theta$ 的估计量,称 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 为 $\theta$ 的估计值,在不致混淆的情况下统称估计量和估计值,并都简记为 $\hat{\theta}$

此外,由于估计量是样本的函数,因此对于不同的样本值,$\theta$ 的估计值是不同的

构造估计量的方法

常用的构造估计量的方法有两种:

估计量的评选标准

对于同一参数,用不同的估计方法求出的估计量可能不同,而原则上任何统计量都可以作为未知参数的估计量,那么就需要一个标准来对估计量进行评价,从而方便进行估计量的选择

无偏性

设 $X_1,X_2,\cdots,X_n$ 是总体 $X$ 的一个样本,$\theta\in\Theta$ 是包含在总体 $X$ 的分布中的待估参数

若估计量 $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 的数学期望存在,且对任意 $\theta\in\Theta$ 有:

则称 $\hat{\theta}$ 是 $\theta$ 的无偏估计量

估计量的无偏性是指:对于某些样本值,由这一估计量得到的估计值相对于真值来说偏大,有些则偏小,反复将这一估计量使用多次,就平均来说其偏差为零

通常 $E(\hat{\theta})=\theta$ 被称为以 $\hat{\theta}$ 作为 $\theta$ 的估计的系统误差,此时无偏估计的实际意义就是无系统误差

有效性

由于方差是随机变量取值与其数学期望的偏离程度的度量,所以无偏估计以方差小者为好,故对于两个无偏估计量 $\hat{\theta_1}$ 和 $\hat{\theta_2}$,有 $E(\hat{\theta_1})=E(\hat{\theta_2})=E(\theta)$,若在样本容量 $n$ 相同的情况下,$\hat{\theta_1}$ 的观察值较 $\hat{\theta_2}$ 更密集在真值 $\theta$ 附近,就认为 $\hat{\theta_1}$ 比 $\hat{\theta_2}$ 更理想

设 $\hat{\theta_1}=\hat{\theta_1}(X_1,X_2,\cdots,X_n)$ 与 $\hat{\theta_2}=\hat{\theta_2}(X_1,X_2,\cdots,X_n)$ 都是 $\theta$ 的无偏估计量,若对于任意 $\theta\in\Theta$,有::

且至少对于某一个 $\theta\in\Theta$ 上式中的不等号成立,则称 $\hat{\theta_1}$ 比 $\hat{\theta_2}$ 有效

相合性

无偏性与有效性都是在样本容量 $n$ 固定的前提下提出的,自然而言的会希望随着样本容量的增大,一个估计量的值稳定于待估参数的真值

设 $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 为参数的估计量,若对于任意 $\theta\in\Theta$,当 $n\rightarrow \infty$ 时,$\hat{\theta}$ 依概率收敛于 $\theta$,则称 $\hat{\theta}$ 为 $\theta$ 的相合估计量

即若对于任意 $\theta\in\Theta$ 都满足:对于任意 $\epsilon >0$,有

则称 $\hat{\theta}$ 是 $\theta$ 的相合估计量

相合性是对一个估计量的基本要求,若估计量不具有相合性,那么不论将样本容量 $n$ 取得多么大,都不能将估计得足够准确,这样的估计量是不可取的

【区间估计】

引入

对于一个未知量,在测量或计算时,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度,亦即求真值所在的范围

类似地,对于未知参数 $\theta$,除了求出它的点估计 $\hat{\theta}$ 外,还希望估计出一个范围,并希望知道这个范围包含参数 $\theta$ 真值的可信程度,这样的范围通常以区间的形式给出,同时还给出此区间包含参数 $\theta$ 真值的可信程度,这种形式的估计称为区间估计,这样的区间被称为置信区间

定义

设总体 $X$ 的分布函数 $F(X;\theta)$ 含有一个未知参数 $\theta,\theta\in \Theta$,$\Theta$ 是 $\theta$ 可能取值的范围),对于给定值 $\alpha,0<\alpha<1$,若由来自 $X$ 的样本 $X_1,X_2,\cdots,X_n$ 确定的两个统计量 $\underline{\theta}=\underline{\theta}(X_1,X_2,\cdots,X_n)$ 和 $\overline{\theta}=\overline{\theta}(X_1,X_2,\cdots,X_n)$,对任意 $\theta\in\Theta$ 满足:

则称随机区间 $(\underline{\theta},\overline{\theta}),\underline{\theta}<\overline{\theta}$ 是 $\theta$ 的置信水平为 $1-\alpha$ 的置信区间,分别称 $\underline{\theta}$ 和 $\overline{\theta}$ 为置信水平为 $1-\alpha$ 的双侧置信区间的置信下限置信上限,称 $1-\alpha$ 为置信水平

上式可以这样理解:

  • 当 $X$ 是连续型随机变量时,对于给定的 $\alpha$,总是按 $P\{\underline{\theta}<\theta<\overline{\theta}\} = 1-\alpha$ 求出置信区间
  • 当 $X$ 是离散型随机变量时,对于给定的 $\alpha$,常常找不到区间 $(\underline{\theta},\overline{\theta})$ 使得 $P\{\underline{\theta}<\theta<\overline{\theta}\}$ 恰为 $1-\alpha$,此时就要去找区间 $(\underline{\theta},\overline{\theta})$ 使得 $P\{\underline{\theta}<\theta<\overline{\theta}\}$ 至少为 $1-\alpha$,且尽可能地接近 $1-\alpha$

而其含义是:若反复抽样多次(各次得到的样本的容量均为 $n$),每个样本值确定一个区间 $(\underline{\theta},\overline{\theta})$,每个这样的区间要么包含 $\theta$ 的真值,要么不包含 $\theta$ 的真值(如下图所示),按伯努利大数定理,在这么多的区间中,包含 $\theta$ 真值的大约占 $100(1-\alpha)\%$,不包含 $\theta$ 真值的大约仅占 $100\alpha\%$

例如:若 $\alpha=0.01$,反复抽样 $1000$ 次,则得到的 $1000$ 个区间中不包含 $\theta$ 真值的大约仅占 $10$ 个

寻找置信区间的方法

对于未知参数 $\theta$,寻找其置信区间的具体方法为:

  1. 寻找一个样本 $X_1,X_2,\cdots,X_n$ 和 $\theta$ 的函数 $W=W(X_1,X_2,\cdots,X_n;\theta)$,使得 $W$ 的分布不依赖于 $\theta$ 以及其他未知参数(具这种性质的函数 $W$ 被称为枢轴量
  2. 对于给定的置信水平 $1-\alpha$,给出两个参数 $a,b$,使得
  1. 若能从 $a<W(X_1,X_2,\cdots,X_n;\theta)<b$ 中得到与之等价的 $\theta$ 的不等式 $\underline{\theta}<\theta<\overline{\theta}$,那么 $(\underline{\theta},\overline{\theta})$ 就是 $\theta$ 的一个置信水平为 $1-\alpha$ 的置信区间

其中,$\underline{\theta}=\underline{\theta}(X_1,X_2,\cdots,X_n)$ 和 $\overline{\theta}=\overline{\theta}(X_1,X_2,\cdots,X_n)$ 都是统计量

而枢轴量 $W=W(X_1,X_2,\cdots,X_n;\theta)$ 的构造,通常可以从 $\theta$ 的点估计着手考虑

单侧置信区间

在上述讨论中,对于未知参数 $\theta$,给出两个统计量 $\underline{\theta},\overline{\theta}$,得到 $\theta$ 的双侧置信区间 $(\underline{\theta},\overline{\theta})$,但在某些实际问题中,关心的是某未知参数的上限或下限,这就引出了单侧置信区间

对于给定值 $\alpha,0<\alpha<1$,若由样本 $X_1,X_2,\cdots,X_n$ 确定的统计量 $\underline{\theta}=\underline{\theta}(X_1,X_2,\cdots,X_n)$ 对任意 $\theta\in\Theta$ 满足:

则称随机区间 $(\underline{\theta},+\infty)$ 是 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信区间,称 $\underline{\theta}$ 为 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信下限

对于统计量 $\overline{\theta}=\overline{\theta}(X_1,X_2,\cdots,X_n)$ 对任意 $\theta\in\Theta$ 满足:

则称随机区间 $(-\infty,\overline{\theta})$ 是 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信区间,称 $\overline{\theta}$ 为 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信上限

感谢您对我的支持,让我继续努力分享有用的技术与知识点!