【似然函数】
离散型
若总体 $X$ 是离散型,其分布律 $P(X=x)=p(x;\theta),\theta\in\Theta$ 的形式已知,$\theta$ 为待估参数,$\Theta$ 是 $\theta$ 可能取值的范围
设 $X_1,X_2,\cdots,X_n$ 是来自总体 $X$ 的样本,则 $X_1,X_2,\cdots,X_n$ 的联合分布律为:
又设 $x_1,x_2,\cdots,x_n$ 是相应于样本 $X_1,X_2,\cdots,X_n$ 的一个样本值,易知样本 $X_1,X_2,\cdots,X_n$ 取到观察值 $x_1,x_2,\cdots,x_n$ 的概率,亦即事件 $\{X_1,=x_1,X_2=x_2,\cdots,X_n=x_n\}$ 发生的概率,即:
这一概率随着 $\theta$ 的取值而变化,其是 $\theta$ 的函数,故 $L(\theta)$ 被称为样本的似然函数
连续型
若总体 $X$ 是连续型,其概率密度 $f(x;\theta),\theta\in\Theta$ 的形式已知,$\theta$ 为待估参数,$\Theta$ 是 $\theta$ 可能取值的范围
设 $X_1,X_2,\cdots,X_n$ 是来自总体 $X$ 的样本,则 $X_1,X_2,\cdots,X_n$ 的联合密度为:
又设 $x_1,x_2,\cdots,x_n$ 是相应于样本 $X_1,X_2,\cdots,X_n$ 的一个样本值,则随机点 $(X_1,X_2,\cdots,X_n)$ 落在点 $(x_1,x_2,\cdots,x_n)$ 的领域(边长分别为 $dx_1,dx_2,\cdots,x_n$ 的 $n$ 维立方体)内的概率近似为:
这一概率随着 $\theta$ 的取值而变化,其是 $\theta$ 的函数,故 $L(\theta)$ 被称为样本的似然函数
【最大似然估计量】
在已取到样本值 $x_1,x_2,\cdots,x_n$ 的情况下,表明取到这一样本值的概率 $L(\theta)$ 比较大,此时自然不会考虑那些不能使样本 $x_1,x_2,\cdots,x_n$ 出现的 $\theta\in\Theta$ 作为 $\theta$ 的估计
再者,若已知 $\theta=\theta_0\in\Theta$ 时,使得 $L(\theta)$ 取很大值,而 $\Theta$ 中的其他 $\theta$ 的值使 $L(\theta)$ 取很小值,那么自然认为取 $\theta_0$ 作为未知参数 $\theta$ 的估计值较为合理
最大似然估计法就是利用上述思想,固定样本观察值 $x_1,x_2,\cdots,x_n$,在 $\theta$ 取值的可能范围 $\Theta$ 内挑选使似然函数 $L(x_1,x_2,\cdots,x_n;\theta)$ 达到最大的参数值 $\hat{\theta}$ 作为参数 $\theta$ 的估计值,即取 $\hat{\theta}$ 使:
这样得到的 $\hat{\theta}$ 与样本值 $x_1,x_2,\cdots,x_n$ 有关,常记为 $\hat{\theta}(x_1,x_2,\cdots,x_n)$,称为参数 $\theta$ 的最大似然估计值,相应的统计量 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 被称为参数 $\theta$ 的最大似然估计量
【对数似然方程】
在很多情况下,分布律 $p(x;\theta)$ 和概率密度 $f(x;\theta)$ 关于 $\theta$ 可微,那么此时 $\hat{\theta}$ 可从下述方程中解得
又因 $L(\theta)$ 与 $\ln L(\theta)$ 在同一 $\theta$ 处取极值,因此 $\theta$ 的最大似然估计 $\hat{\theta}$ 也可从下述方程中解得
上述方程被称为对数似然方程,求解往往比较方便
此外,最大似然估计法也适用于含多个未知参数 $\theta_1,\theta_2,\cdots,\theta_n$ 的情况,此时似然函数 $L$ 是这些未知参数的函数,令:
或令:
然后求解这 $k$ 个方程组成的似然方程组/对数似然方程组,即可得到各未知参数 $\theta_i$ 的最大似然估计值 $\hat{\theta_i}$