Alex_McAvoy

想要成为渔夫的猎手

随机样本

【概率论与数理统计】

概率论和数理统计解决的问题是互逆的

假设有一个具有不确定性的过程,然后这个过程可以随机的产生不同的结果,那么概率论和数理统计的区别可以描述为:

  • 概率论:已知该过程的概率模型,该模型的不确定性由相应的概率分布来描述,希望知道该过程产生某个结果的可能性有多大
  • 数理统计:该过程的概率模型是未知的,但是有一系列该过程产生的结果的观测值,希望通过这些观测值来推断出这个过程中的不确定性是什么样的

简单来说,通过已知的概率模型来精确计算各种结果的可能性就是概率论,通过观测结果来推断模型的不确定性就是数理统计

此外,对于概率论来说,每一个问题都有唯一的答案,即通过相关计算,总可以计算出关心的结果发生的概率,而数理统计,其更像是一门艺术,因为要推断的模型是未知的,很难说哪种推断方法就优于另一种方法,或者哪种推断结果就比其他结果更加正确

【总体与个体】

定义

在数理统计中,研究的是有关对象的某一项数量指标,例如研究某种型号灯泡的寿命,为此,考虑与这一数量指标相联系的随机试验,对这一数量指标进行试验或观察

将试验的全部可能的观察值称为总体,每一个可能观察值称为个体,这些值不一定都不相同,数目上也不一定是有限的

将总体中所包含的个体的个数称为总体的容量,容量为有限的称为有限总体,容量为无限的称为无限总体

例如:在考察某大学一年级男生身高这一试验中,若一年级男生共 $2000$ 人,每个男生的身高是一个可能观察值,所形成的总体中共含 $2000$ 个可能观察值,是一个有限总体

又例如:考察某一湖泊中某种鱼的含汞量,所得总体也是有限总体,观察并记录某一地点每天(包括以往、现在和将来)的最高气温,或者测量一湖泊任一地点的深度,所得总体是无限总体

此外,对于某些容量很大的有限总体,由于可能观察值的个数很多,就可以认为其是无限总体

例如:考察全国正在使用的某种型号灯泡的寿命所形成的总体,由于可能观察值的个数很多,就可以认为是无限总体

分布函数与数字特征

总体中的每一个个体是随机试验的一个观察值,因此它是某一随机变量 $X$ 的值,这样一个总体就对应于一个随机变量 $X$,对总体的研究就是对一个随机变量 $X$ 的研究,为此,通常不不区分总体与相应的随机变量,笼统称为总体 $X$

总体 $X$ 的分布函数和数字特征就称为总体的分布函数总体的数字特征,但在实际应用中,总体的分布一般是未知的,或只知道其具有某种形式而其中包含着未知参数

例如:检验生产线生产出来的零件是次品还是正品,以 $0$ 表示产品为正品,以 $1$ 表示产品为次品.设出现次品的概率为 $p$,那么总体由一些 $1$ 和一些 $0$ 组成,这一总体对应于一个具有参数为 $p$ 的 0-1 分布:

的随机变量,为此就将其说成 0-1 分布总体,意指总体中的观察值是 0-1 分布随机变量的值

【样本】

定义

在数理统计中,通常是通过从总体中抽取一部分个体(对总体 $X$ 进行一次观察并记录其结果),根据获得的数据来对总体分布作出推断,被抽出的部分个体叫做总体的一个样本

在相同的条件下对总体 $X$ 进行 $n$ 次重复、独立的观察,将 $n$ 次观察结果按试验的次序记为 $X_1,X_2,\cdots,X_n$,由于 $X_1,X_2,\cdots,X_n$ 是对随机变量 $X$ 观察的结果,且各次观察是在相同的条件下独立进行的,所以有理由认为 $X_1,X_2,\cdots,X_n$ 是相互独立的,且都是与 $X$ 具有相同分布的随机变量

这样得到的 $X_1,X_2,\cdots,X_n$ 称为来自总体 $X$ 的一个简单随机样本,$n$ 则称为这个样本的样本容量,通常来说,若无特别说明,所提到的样本都是指简单随机样本

当 $n$ 次观察一经完成,可得到一组实数 $x_1,x_2,\cdots,x_n$,它们依次是随机变量 $X_1,X_2,\cdots,X_n$ 的观察值,被称为样本值

对于有限总体来说,通过放回抽样就能得到简单随机样本,但放回抽样使用起来不方便,当个体的总数 $N$ 远大于样本容量 $n$ 时,在实际中可将不放回抽样近似地当作放回抽样来处理

对于无限总体来说,因抽取一个个体不影响它的分布,因此总是采用不放回抽样


综合上述,给出以下的定义:

设 $X$ 是具有分布函数 $F$ 的随机变量,若 $X_1,X_2,\cdots,X_n$ 是具有同一分布函数 $F$ 的、相互独立的随机变量,则称 $X_1,X_2,\cdots,X_n$ 为从分布函数 $F$(或总体 $F$、或总体 $X$)中得到的样本容量为 $n$ 的简单随机样本,简称样本,它们的观察值 $x_1,x_2,\cdots,x_n$ 称为样本值,又称为 $X$ 的 $n$ 个独立的观察值

也可以将样本看成是一个随机向量 $(X_1,X_2,\cdots,X_n)$,此时样本值相应地写成 $(x_1,x_2,\cdots,x_n)$,若 $(x_1,x_2,\cdots,x_n)$ 与 $(y_1,y_2,\cdots,y_n)$ 都是相应于样本 $(X_1,X_2,\cdots,X_n)$ 的样本值,一般来说它们是不相同的

分布函数与概率密度

若 $X_1,X_2,\cdots,X_n$ 是 $F$ 的一个样本,则 $X_1,X_2,\cdots,X_n$ 相互独立,且它们的分布函数都是 $F$,故 $(X_1,X_2,\cdots,X_n)$ 的分布函数为:

若 $X$ 具有概率密度 $f$,那么 $(X_1,X_2,\cdots,X_n)$ 的概率密度为:

感谢您对我的支持,让我继续努力分享有用的技术与知识点!