定义 对随机现象进行观察或实验称为随机试验,简称试验,记作E。它具有如下特点:
- 可以在相同条件下重复进行
- 所得到可能结果不止一个,且所有可能结果都能事前已知
- 每次具体实验之前无法预知会出现哪个结果
例如,抛一枚硬币,记录其结果是正面向上还是反面向上
定义 随机试验的每一可能结果称为样本点,记作$\omega$。由所有样本点全体组成的集合称为样本空间,记作$\Omega$
注:显然,样本点是组成样本空间的元素
定义 样本空间的子集称为随机事件,简称事件,常用字母A,B,C等表示
随机事件是由样本空间中的元素即样本点组成,由一个样本点组成的子集是最简单事件,称为基本事件。随机事件既然由样本点组成,因此,也可能将随机事件看成是由基本事件组成
如果一次试验的结果为某一基本事件出现,就称该基本事件出现或发生。如果组成事件A的一个基本事件出现或发生,也称事件A出现或发生
把$\Omega$看成一事件,则每次试验必有$\Omega$中某一基本事件(即样本点)发生,也就是每次试验$\Omega$必然发生,称$\Omega$为必然事件
把不包含任何样本点的空集$\varnothing$看成一个时间,每次试验$\varnothing$必不发生,称$\varnothing$为不可能事件
定义 如果事件A与事件B同时发生,则称这样的一个事件为事件A与事件B的交或积,记为$A\cap B或AB$
集合$A\cap B$是由同时属于A与B的所有公共样本点构成
事件的交可以推广到有限多个事件或可数无穷多个事件的情形:
定义 如果事件A与事件B至少有一个发生,则称这样一个事件为事件A与事件B的并或和,记为$A\cup B$
集$A\cup B$是由属于A与B的所有样本点构成
事件的并可推广到有限多个事件或可数无穷多个事件的情形:
定义 事件A发生而事件B不发生称为事件A与事件B的差,记为$A-B$
在样本空间中集合$A-B$是由属于事件A而不属于事件B的所有样本点构成的集合,显然$A-B=A\bar{B}$
定义 如果事件A与事件B有且仅有一个发生,即同时成立$A\cup B=\Omega,且A\cap B=\varnothing$,则称事件A与事件B为对立事件或互逆事件,记为$\bar{A}=B或\bar{B}=A$
注:在样本空间中,集合$\bar{A}$是由所有不属于事件A的样本点构成的集合
定义 如果事件A发生必然导致事件B发生,则称事件B包含事件A,或称事件A包含于事件B,记为$B\supset A或A\subset B$
定义 如果$A\supset B与B\supset A$同时成立,则称事件A与事件B相等,记作A=B
注:A=B表示事件A与事件B有完全相同的样本点
定义 如果事件A与事件B的关系为$AB=\varnothing$,即A与B不能同时发生,则称事件A和事件B为互斥或互不相容
互斥的两事件没有公共样本点
事件的互斥可以推广到有限多个事件或可数无穷多个事件的情形
若n个事件$A_1,A_2,\cdots,A_n$中任意两个事件均互斥,即$A_i A_j=\varnothing,i\neq j,i,j=1,2,\cdots,n$,则称这n个事件是两两互斥或两两互不相容
如果可数无穷个事件$A_1,A_2,\cdots,A_n,\cdots$中任意两个事件均互斥,即$A_i A_j=\varnothing,i\neq j,i,j=1,2,\cdots,n,\cdots$,则称这可数无穷个事件是两两互斥或两两互不相容
- 交换律
$A\cup B=B\cup A,A\cap B=B\cap A$ - 结合律
$A\cup(B\cup C)=(A\cup B)\cup C$
$A\cap(B\cap C)=(A\cap B)\cap C$ - 分配律
$A\cap(B\cup C)=(A\cap B)\cup(A\cap C)$
$A\cup (B\cap C)=(A\cup B)\cap(A\cup C)$ - 对偶律
$\bar{A\cup B}=\bar{A}\cap\bar{B},\bar{A\cap B}=\bar{A}\cup \bar{B}$
$\bar{\cup^n_{i=1}A_i}=\cap^n_{i=1}\bar{A_i},\bar{\cap^n_{i=1}A_i}=\cup^n_{i=1}\bar{A_i}$
设试验E的样本空间为$\Omega$,称实值函数P为概率,如果P满足如下三条件:
- 对于任意事件A,有$P(A)\geq 0$
- 对于必然事件$\Omega$,有$P(\Omega)=1$
- 对于两两互斥的可数无穷个事件$A_1,A_2,\cdots,A_n,\cdots$,有$P(A_1\cup A_2\cdots\cup A_n\cup\cdots)=P(A_1)+P(A_2)+\cdots+P(A_n)+\cdots$,称P(A)为事件A的概率
定义 设A,B为两事件,且$P(A)>0$,称
定义 设A,B两事件满足等式
设$A_1,A_2,\cdots,A_n$是n个事件,如果对于任意$k(1<k\leq n)$,任意$1\leq i_1<i_2<\cdots<i_k\leq n$满足等式
注:n个事件相互独立需要$C^2_n+C^3_n+\cdots+C^n_n=2^n-n-1$个等式成立
$P(\varnothing)=0$ - 对于两两互斥的有限个事件$A_1,A_2,\cdots,A_n$,有$P(A_1\cup A_2\cup\cdots\cup A_n)=P(A_1)+P(A_2)+\cdots+P(A_n)$
$P(\bar{A})=1-P(A)$ $A\subset B,则P(A)\leq P(B)$ $0\leq P(A)\leq 1$
注:条件概率也是概率,条件概率也有概率相应的各性质
- A与B相互独立的充要条件是$A$与$\bar{B}$或$\bar{A}$与$B$或$\bar{A}$与$\bar{B}$相互独立
- 当$0<P(A)<1$时,A与B独立等价于$P(B|A)=P(B)$或$P(B|A)=P(B|\bar{A})$成立
- 若$A_1,A_2,\cdots,A_n$相互独立,则$A_1,A_2,\cdots,A_n$必两两独立。反之,若$A_1,A_2,\cdots,A_n$两两独立,则$A_1,A_2,\cdots,A_n$不一定相互独立
- 当$A_1,A_2,\cdots,A_n$相互独立时,它们的部分事件也是相互独立的
将相互独立的n个事件中任何几个事件换成它们相应的对立事件,则这新组成的n个事件也相互独立
-
加法公式
$P(A\cup B)=P(A)+P(B)-P(AB)$
$P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)$ -
减法公式
$P(A-B)=P(A)-P(AB)$ -
乘法公式
当P(A)>0时,P(AB)=P(A)P(B|A);
当$P(A_1 A_2\cdots A_{n-1})>0$时,$$P(A_1 A_2\cdots A_n)=P(A_1)P(A_2|A_1)\cdots P(A_n|A_1 A_2\cdots A_{n-1})$$ -
全概率公式
设$B_1,B_2,\cdots,B_n$满足$\cup^n_{i=1}B_i=\Omega,B_i B_j=\varnothing(i\neq j)$且$P(B_k)>0,k=1,2,\cdots,n$,则对任意事件A有$$P(A)=\sum^n_{i=1}P(B_i)P(A|B_i)$$ 称满足$\cup^n_{i=1}B_i=\Omega$和$B_iB_j=\varnothing(i\neq j)$的$B_1,B_2,\cdots,B_n$为$\Omega$的一个完备事件组 -
贝叶斯公式 设$B_1,B_2,\cdots,B_n$满足$\cup^n_{i=1}B_i=\Omega,B_iB_j=\varnothing(i\neq j)$且$P(A)>0,P(B_k)>0,k=1,2,\cdots,n$,则
$$P(B_j|A)=\frac{P(B_j)P(A|B_j)}{\sum^n_{i=1}P(B_i)P(A|B_i)},j=1,2,\cdots,n$$
注:
- 概率计算中常要结合对偶律应用性质$P(\bar{A})=1-P(A)$
- 计算相互独立事件的概率时,常将事件之间的“并”或“差”转化成“交”来计算。因为事件的独立性是用事件的交的概率来定义的。而将相互独立事件中某个或某几个事件换成相应的对立事件并不影响它们之间的相互独立性,所以讲“并”和“差”化成交后,常常会带来计算上的方便。例如,A和B独立时,
$$P(A\cup B)=1-P(\bar{A}\bar{B})=1-P(\bar{A})P(\bar{B})$$ $$P(A-B)=P(A\bar{B})=P(A)P(\bar{B})$$
零概率事件与任何事件都相互独立。同样对概率为1的事件B,有$P(\bar{B})=0$,即$\bar{B}$与任何事件相互独立,也就有B与任何事件相互独立
定义 当试验结果为有限n个样本点,且每个样本点的发生具有相等的可能性,如果事件A由$n_A$个样本点组成,则事件A的概率
定义 当试验的样本空间是某区域(该区域可以是一维、二维或三维等等),以$L(\Omega)$表示其几何度量(长度、面积、体积等等)。$L(\Omega)$为有限,且试验结果出现在$\Omega$中任何区域的可能性只与该区域几何度量成正比。事件A的样本点所表示的区域为$\Omega_A$,则事件A的概率
定义 把一随机试验独立重复做若干次,即各次试验所联系的事件之间相互独立,且同一事件在各个试验中出现的概率相同,称为独立重复试验
如果每次试验只有两个结果$A和\bar{A}$,则称这种试验为伯努利试验。将伯努利试验独立重复进行n次,称为n重伯努利试验
设在每次试验中,概率$P(A)=p(0<p<1)$,则在n重伯努利试验中事件A发生k次的概率,又称为二项概率公式:$C^k_n p^k(1-p)^{n-k},k=0,1,2,\cdots,n$
一般来说,如果一个概率同时可用有序和无序的样本空间来计算时,常常用无序要简单些;同时可用两种样本空间计算时,常常用较小的样本空间要简单些
定义 在样本空间$\Omega$上的实值函数$X=X(\omega),\omega\in \Omega$,称$X(\omega)$为随机变量,简记X
注:$X(\omega)$的定义域是$\Omega$,常用X,Y,Z等表示随机变量
定义 对于任意实数x,记函数$F(x)=P{X\leq x},-\infty<x<+\infty$,称F(x)为随机变量X的分布函数
分布函数F(x)是定义在$(-\infty,+\infty)$上的一个实值函数,F(x)的值等于随机变量X在区间$(-\infty,x]$内取值的概率,即事件$X\leq x$的概率
有的书上将分布函数定义成$F(x)=P{X<x}$,考试大纲要求是$F(x)=P{X\leq x}$
$0\leq F(x)\leq 1;\lim\limits_{x\to -\infty}F(x)=0,记为F(-\infty)=0;\lim\limits_{x\to +\infty}F(x)=1,记为F(+\infty)=1$ - F(x)是单调非减函数,即当$x_1<x_2$时,$F(x_1)\leq F(x_2)$
- F(x)是右连续的,即$F(x+0)=F(x)$
- 对任意$x_1<x_2$,有$P{x_1<X\leq x_2}=F(x_2)-F(x_1)$
- 对任意的x,$P{X=x}=F(x)-F(x-0)$
由单调性和$F(-\infty)=0,F(+\infty)=1$可以推出$0\leq F(x)\leq 1$,所以性质1.,2.,3.可以简化为:$F(-\infty)=0,F(+\infty)=1$;单调非减;右连续
这恰是函数F(x)成为某一随机变量的分布函数的充要条件
当F(x)在x处连续时,$F(x)-F(x-0)=0$,根据性质5.,就有$P{X=x}=0$
定义 如果一个随机变量的可能取值是有限多个或可数无穷多个,则称它为离散型随机变量
定义 设离散型随机变量X的可能取值是$x_1,x_2,\cdots,x_n,\cdots$,X取各可能值的概率为
分布律也有用列表方式给出的
定义 如果对随机变量X的分布函数F(x),存在一个非负可积函数f(x),使得对任意实数x,都有
注:连续型随机变量的分布函数F(x)必可表示成$F(x)=\int^x_{-\infty}f(t)dt$,所以这时的F(x)一定是$(\infty,+\infty)$上的连续函数,反之,不能说凡是连续的F(x)对应的X一定是连续型随机变量
连续型随机变量的F(x)必连续,但f(x)不一定是连续的
$p_k\geq 0,k=1,2,\cdots$ $\sum\limits^{+\infty}_{k=1}p_k=1$
$f(x)\geq 0$ $\int^{+\infty}_{-\infty}f(x)dx=1$ - 对任意实数$x_1<x_2$,有$P{x_1<X\leq x_2}=\int^{x_2}_{x_1}f(t)dt$
- 在f(x)的连续点处有$F'(x)=f(x)$
函数f(x)成为某一连续型随机变量的概率密度充要条件是f(x)具有性质1和2
如果X是连续型随机变量,则显然有
定义 如果随机变量X有分布律
X | 0 | 1 |
---|---|---|
P | 1-p | p |
0<p<1,则称X服从参数为p的0-1分布,或称X具有0-1分布
定义 如果随机变量X有分布律
在n重伯努利试验中,若每次实验成功率为p(0<p<1),则在n次独立重复试验中成功的总次数X服从二项分布
当n=1时,不难验证二项分布就退化成0-1分布,所以0-1分布也可以记为B(1,p)
定义 如果随机变量X的分布律为
注:在独立地重复做一系列伯努利试验中,若每次试验成功率为p(0<p<1),则在第k次试验时才首次试验成功的概率服从几何分布
定义 如果随机变量X的分布律为
如果N件产品中含有M件次品,从中任意一次取出n件(或从中一件接一件不放回地取n件),令X=抽取的n件产品中的次品件数,则X服从参数为n,N,M的超几何分布
如果N件产品中含有M件次品,从中一件接一件有放回地取n次(即每次取出记录后就放回,再取下一个),则X服从$B(n,\frac{M}{N})$
定义 如果随机变量X的分布律为$P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,\cdots$,其中$\lambda>0$为常数,则称随机变量X服从参数为$\lambda$的泊松分布,记为$X\sim P(\lambda)$
注:在一段时间内电话总机接到的呼叫次数、候车的旅客数、保险索赔的次数等都服从泊松分布
定义 如果连续型随机变量X的概率密度为 $$f(x)=\begin{cases}\frac{1}{b-a},& a\leq x\leq b\ 0,& 其他\end{cases}$$ 则称X在区间[a,b]上服从均匀分布,记作$X\sim U[a,b]$
如果概率密度为 $$f(x)=\begin{cases}\frac{1}{b-a},& a<x<b\ 0,& 其他\end{cases}$$ 则称X在区间(a,b)上服从均匀分布,记作$X\sim U(a,b)$
注:无论上述哪种情况,它们的分布函数均为 $$F(x)=\begin{cases}0,& x<a\ \frac{x-a}{b-a},& a\leq x<b\ 1,& b\leq x\end{cases}$$
定义 如果连续型随机变量X的概率密度为 $$f(x)=\begin{cases}\lambda e^{-\lambda x},& x>0,\ 0,& x\leq 0\end{cases}\lambda>0$$ 则称X服从参数为$\lambda$的指数分布,记作$X\sim E(\lambda)$
设$X\sim E(\lambda)$,则X的分布函数为 $$F(x)=\begin{cases}1-e^{-\lambda x},& x>0\ 0,& x\leq 0\end{cases}\lambda>0$$ 指数分布有很多应用,有许多种寿命的分布都近似地服从指数分布
定义 如果随机变量X的概率密度为
注
当$X\sim N(0,1)$时,分布函数用$\Phi(x)$表示
-
泊松定理:在伯努利试验中,$p_n$代表事件A在试验中出现的概率,它与试验总数n有关,如果$\lim\limits_{n\to\infty}np_n=\lambda$,则
$$\lim_{n\to\infty}C^k_n p^k_n(1-p_n)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}$$ 注 应用泊松定理的要求:n较大$(n\geq 100)$,p较小$(p\leq 0.1)$,np不太大。这时有近似公式$$C^k_n p^k(1-p)^{n-K}\approx \frac{(np)^k}{k!}e^{-np}$$ -
设$X\sim U[a,b]$,则对$a\leq c<d\leq b$,有
$$P{c<X\leq d}=\frac{d-c}{b-a}$$ 即随机变量落入区间[c,d]的概率等于该区间长度与[a,b]长度之比 -
设$X\sim E(\lambda)$,则有
$P{X>t}=\int^{+\infty}_t \lambda e^{-\lambda t}dt=e^{-\lambda t},t>0$ -
$P{X>t+s|X>s}=\frac{P{X>t+s}}{P{X>s}}=\frac{e^{-\lambda(t+s)}}{e^{-\lambda s}}=e^{-\lambda t}=P{X>t},t,s>0$ 此性质称为指数分布具有“无记忆性”
-
设$X\sim N(\mu,\sigma^2)$,其分布函数为F(x),则
$F(x)=\Phi(\frac{x-\mu}{\sigma})$ $P{a<X\leq b}=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma}),a<b$ - 概率密度f(x)关于$x=\mu$对称,$\varphi(x)$是偶函数
$\Phi(-x)=1-\Phi(x),\Phi(0)=\frac{1}{2}$ - 当$X\sim N(0,1)$,有$P{|X|\leq a}=2\Phi(a)-1$
定义 设$X=X(\omega),Y=Y(\omega)$是定义在样本空间$\Omega$上的两个随机变量,则称向量$(X,Y)$为二维随机变量,或随机向量
定义
二维随机变量(X,Y)的分布函数为F(x,y),分别称$F_X(x)=P{X\leq x}$和$F_Y(y)=P{Y\leq y}$为(X,Y)关于X和关于Y的边缘分布
注:显然,边缘分布$F_X(x)$和$F_Y(y)$与二维随机变量$F(x,y)$有如下关系:
定义 如果对于任意给定的$\varepsilon>0,P{y-\varepsilon<Y\leq y+\varepsilon}>0$
定义 如果随机变量(X,Y)可能取值为有限个或可数无穷个$(x_i,y_j),i,j=1,2,\cdots$,则称(X,Y)为二维离散型随机变量
定义 二维离散型随机变量(X,Y)的可能取值为$(x_i,y_j)(i,j=1,2,\cdots)$称
注:也可以用表格形式表示分布律
定义
定义 对给定的j,如果$P{Y=y_j}>0,j=1,2,\cdots$,则称
定义 如果对随机变量(X,Y)的分布F(x,y)存在非负函数f(x,y),使得对于任意实数x和y,都有
对连续型随机变量(X,Y),设它的概率密度为f(x,y),由$F_X(x)=F(x,+\infty)=\int^x_{-\infty}[\int^{+\infty}{-\infty}f(x,y)dy]dx$知道,X也是一个连续型变量,且其概率密度为$f_X(x)=\int^{+\infty}{-\infty}f(x,y)dy$
定义 $f_X(x)=\int^{+\infty}{-\infty}f(x,y)dy$和$f_Y(y)=\int^{+\infty}{-\infty}f(x,y)dx$ 被分别称为(X,Y)关于X和关于Y的边缘密度
定义 设f(x,y)在点(x,y)连续,$f_Y(y)$连续且$f_Y(y)>0$,则条件分布
- 对任意x,y,均有$0\leq F(x,y)\leq 1$
-
$F(-\infty,y)=F(x,-\infty)=F(-\infty,-\infty)=0$ $F(+\infty,+\infty)=1$ - F(x,y)关于x和关于y均单调不减
- F(x,y)关于x和关于y是油连续的
$P{a<X\leq b,c<Y\leq d}=F(b,d)-F(b,c)-F(a,d)+F(a,c)$
$p_{ij}\geq 0,i,j=1,2,\cdots$ $\sum\limits_i\sum\limits_j p_{ij}=1$
$f(x,y)\geq 0$ - $\int^{+\infty}{-\infty}\int^{+\infty}{-\infty}f(x,y)dxdy=1$
- 随机变量(X,Y)落在区域D内的概率
$$P{(X,Y)\in D}=\iint_Df(x,y)dxdy$$
定义 如果对任意x,y都有
- 离散型随机变量X和Y相互独立的充要条件:对任意$i,j=1,2,\cdots$成立
$$P{X=x_i,Y=y_j}=P{X=x_i}P{Y=y_j}$$ 即$$p_{ij}=p_{i\cdot}p_{\cdot j}$$ - 连续型随机变量X和Y相互独立的充要条件:对任意的x,y,成立
$$f(x,y)=f_X(x)f_Y(y)$$
注:可将两个随机变量的独立性推广到两个以上随机变量的情形
定义 如果二维连续型随机变量(X,Y)的概率密度为 $$f(x,y)=\begin{cases}\frac{1}{A},& (x,y)\in G\ 0,& 其他\end{cases}$$ 其中A是平面有界区域G的面积,则称(X,Y)服从区域G上的均匀分布
定义 如果二维连续型随机变量(X,Y)的概率密度为
-
设(X,Y)在G上服从均匀分布,D是G中的一个部分区域,记它们的面积分别为$S_D$和$S_G$,则$P{(X,Y)\in D}=\frac{S_D}{S_G}$ 如果设(X,Y)的概率密度为f(x,y),显然 $$f(x,y)=\begin{cases}\frac{1}{S_G},& (x,y)\in G\ 0,& 其他\end{cases}$$ 而$P{(X,Y)\in D}=\iint_D f(x,y)dxdy=\iint_D \frac{1}{S_G}dxdy=\frac{S_D}{S_G}$
-
对正态分布不加证明地要求记住下列性质:
-
$(X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\rho)$ 时,X与Y均服从一维正态:$X\sim N(\mu_1,\sigma^2_1),Y\sim N(\mu_2,\sigma^2_2)$ -
$(X,Y)\sim N(\mu_1,\mu_2;\sigma^2_1,\sigma^2_2;\rho)$ 时,X与Y相互独立的充分必要条件是$\rho=0$ - (X,Y)服从二维正态时,行列式$\begin{vmatrix}a&b\c&d\end{vmatrix}\neq 0,(aX+bY,cX+dY)$也服从二维正态,当然$aX+bY$服从一维正态
- 约定:X与Y均服从一维正态,且相互独立,就是指(X,Y)服从二维正态,且$\rho=0$
-
注:如果X与Y均服从一维正态,不能保证(X,Y)服从二维正态,也就不能保证$aX+bY$服从一维正态;
如果X与Y均服从一维正态,且相互独立,则$aX+bY$必正态$(a^2+b^2\neq 0)$
Z的分布律的求法与一维离散型类似
注:随机变量的简单函数通常包括线性函数、初等函数、最大值、最小值、绝对值等
一般对离散型随机变量X的各种可能取值用全概率公式把它们展开,如下:
X | x_1 | x_2 | \cdots | x_i | \cdots |
---|---|---|---|---|---|
P | p_1 | p_2 | \cdots | p_i | \cdots |
Y为连续型,$Z=g(X,Y)$则 $$\begin{aligned}F_Z(z) &= P{Z\leq z}=P{g(X,Y)\leq z}\ &= \sum_i P{X=x_i}P{g(X,Y)\leq z|X=x_i}\ &= \sum_i p_i P{g(x_i,Y)\leq z|X=x_i}\end{aligned}$$
定义
-
离散型随机变量的数学期望 设随机变量X的概率分布为
$$P{X=x_k}=p_k,k=1,2,\cdots$$ 如果级数$\sum\limits^{+\infty}{k=1}x_kp_k$绝对收敛,则称此级数为随机变量X的数学期望或均值,记作$E(X)$,即$E(X)=\sum\limits^{+\infty}{k=1}x_kp_k$ -
连续型随机变量的数学期望 设随机变量X的概率密度为f(x),如果积分$\int^{+\infty}{-\infty}xf(x)dx$绝对收敛,则称此积分为随机变量X的数学期望或均值,记作E(X),即 $$E(X)=\int^{+\infty}{-\infty}xf(x)dx$$
- 设C是常数,则有E(C)=C
- 设X是随机变量,C是常数,则有
$$E(CX)=CE(X)$$ - 设X和Y是任意两个随机变量,则有
$$E(X\pm Y)=E(X)\pm E(Y)$$ - 设随机变量X和Y相互独立,则有
$$E(XY)=E(X)E(Y)$$
注:性质4要求X和Y的相互独立,可以减弱为X和Y不相关就有E(XY)=E(X)E(Y)。事实上E(XY)=E(X)E(Y)成立的充要条件是X和Y不相关
-
设随机变量X的概率分布为
$$P{X=x_k}=p_k,k=1,2,\cdots$$ 如果级数$\sum\limits^{+\infty}{k=1}g(x_k)p_k$绝对收敛,则随机变量Y=g(X)的数学期望为 $$E(Y)=E[g(X)]=\sum^{+\infty}{k=1}g(x_k)p_k$$ -
设随机变量X的概率密度为f(x),如果积分$\int^{+\infty}{-\infty}g(x)f(x)dx$绝对收敛,则随机变量Y=g(X)的数学期望为 $$E(Y)=E[g(X)]=\int^{+\infty}{-\infty}g(x)f(x)dx$$
-
设随机变量(X,Y)的概率分布为
$$P{X=x_i,Y=y_j}=p_{ij},i,j=1,2,\cdots$$ 如果级数$\sum\limits^{+\infty}{i=1}\sum\limits^{+\infty}{j=1}g(x_i,y_j)p_{ij}$绝对收敛,则随机变量Z=g(X,Y)的数学期望为 $$E(Z)=E[g(X,Y)]=\sum\limits^{+\infty}{i=1}\sum\limits^{+\infty}{j=1}g(x_i,y_j)p_{ij}$$ -
设随机变量(X,Y)的概率密度为f(x,y),如果积分$\int^{+\infty}{-\infty}\int^{+\infty}{-\infty}g(x,y)f(x,y)dxdy$绝对收敛,则随机变量Z=g(X,Y)的数学期望为 $$E(Z)=E[g(X,Y)]=\int^{+\infty}{-\infty}\int^{+\infty}{-\infty}g(x,y)f(x,y)dxdy$$
定义 设X是随机变量,如果数学期望$E{[X-E(x)]^2}$存在,则称之为X的方差,记作D(X),即
由于对任何随机变量X,$D(X)\geq 0$,故恒有
- 设C是常数,则D(C)=0,反之,从D(X)=0中不能得出X为常数的结论
- 设X是随机变量,a和b是常数,则有
$$D(aX+b)=a^2D(X)$$ - 设随机变量X和Y相互独立,则有
$$D(X\pm Y)=D(X)+D(Y)$$ 注:性质3要求X和Y相互独立,可以减弱为X和Y不相关就有$D(X\pm Y)=D(X)+D(Y)$。事实上$D(X\pm Y)=D(X)+D(Y)$成立的充要条件是X和Y不相关
- 0-1分布
$E(X)=p,D(X)=p(1-p)$ - 二项分布,$X\sim B(n,p)$
$E(X)=np,D(X)=np(1-p)$ - 泊松分布,$X\sim P(\lambda)$
$E(X)=\lambda,D(X)=\lambda$ - 几何分布,$P{X=k}=p(1-p)^{k-1},k=1,2,\cdots,0<p<1$
$E(X)=\frac{1}{p},D(X)=\frac{1-p}{p^2}$ - 均匀分布,$X\sim U(a,b)$
$E(X)=\frac{a+b}{2},D(X)=\frac{(b-a)^2}{12}$ - 指数分布,$X\sim E(\lambda)$
$E(X)=\frac{1}{\lambda},D(X)=\frac{1}{\lambda^2}$ - 正态分布,$X\sim N(\mu,\sigma^2)$
$E(X)=\mu,D(X)=\sigma^2$
定义
- 设X是随机变量,如果
$$E(X^k),k=1,2,\cdots$$ 存在,则称之为X的k阶原点矩 - 设X是随机变量,如果
$$E{[X-E(X)]^k},k=1,2,\cdots$$ 存在,则称之为X的k阶中心矩 - 设X和Y是两个随机变量,如果
$$E(X^kY^l),k,l=1,2,\cdots$$ 存在,则称之为X和Y的k+l阶混合矩 - 设X和Y是两个随机变量,如果
$$E{[X-E(X)]^k[Y-E(Y)]^l},k,l=1,2,\cdots$$ 存在,则称之为X和Y的k+l阶混合中心矩
定义 对于随机变量X和Y,如果$E{[X-E(X)][Y-E(Y)]}$存在,则称之为X和Y的协方差,记作$Cov(X,Y)$,即
定义 对于随机变量X和Y,如果$D(X)D(Y)\neq 0$,则称$\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$为X和Y的相关系数,记为$\rho_{XY}$,即
定义 如果随机变量X和Y的相关系数$\rho_{XY}=0$,则称X和Y不相关
$Cov(X,Y)=E(XY)-E(X)E(Y)$ $D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)$ - 协方差性质
$Cov(X,Y)=Cov(Y,X)$ -
$Cov(aX,bY)=abCov(X,Y)$ ,其中a,b是常数 $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
$|\rho_{XY}|\leq 1$ -
$|\rho_{XY}|=1$ 的充分必要条件是存在常数a和b,其中$a\neq 0$,使得$$P{Y=aX+b}=1$$
- 如果随机变量X和Y相互独立,则X和Y必不相关;反之,X和Y不相关时,X和Y却不一定相互独立
- 对二维正态随机变量(X,Y),X和Y相互独立的充分必要条件是$\rho=0$
- 对二维正态随机变量(X,Y),X和Y相互独立与X和Y不相关是等价的
设随机变量X的数学期望$E(X)$和方差$D(X)$存在,则对任意的$\varepsilon>0$,总有
设$X_1,X_2,\cdots,X_n,\cdots$是一个随机变量序列,A是一个常数,如果对任意$\varepsilon>0$,有
设$X_1,X_2,\cdots,X_n,\cdots$为两两不相关的随机变量序列,存在常数C,使$D(X_i)\leq C(i=1,2,\cdots)$,则对任意$\varepsilon>0$,有
设随机变量$X_n\sim B(n,p),n=1,2,\cdots$,则对于任意$\varepsilon>0$,有
设随机变量$X_1,X_2,\cdots,X_n,\cdots$独立同分布,具有数学期望$E(X_i)=\mu,i=1,2,\cdots$,则对任意$\varepsilon>0$有
设随机变量$X_n\sim B(n,p)(n=1,2,\cdots)$,则对于任意实数x,有
注:定理表明当n充分大时,服从B(n,p)的随机变量$X_n$经标准化后得$\frac{X_n-np}{\sqrt{np(1-p)}}$近似服从标准正态分布N(0,1),或者说$X_n$近似服从N(np,np(1-p))
设随机变量$X_1,X_2,\cdots,X_n,\cdots$独立同分布,具有数学期望与方差,$E(X_n)=\mu,D(X_n)=\sigma^2,n=1,2,\cdots$,则对于任意实数x,有
注:定理表明当n充分大时$\sum\limits^n_{i=1}X_i$的标准化$\frac{\sum\limits^n_{i=1}X_i-n\mu}{\sqrt{n}\sigma}$近似服从标准正态分布N(0,1),或者说$\sum\limits^n_{i=1}X_i$近似地服从$N(n\mu,n\sigma^2)$
定义 数理统计中所研究对象的某项数量指标X的全体称为总体
注:X是一个随机变量,称X的概率分布为总体分布,X的数字特征为总体数字特征,总体中的每个元素称为个体
定义 如果$X_1,X_2,\cdots,X_n$相互独立且都与总体X同分布,则称$X_1,X_2,\cdots,X_n$为来自总体的简单随机样本,简称为样本。n为样本容量,样本的具体观测值$x_1,x_2,\cdots,x_n$称为样本值,或称总体X的n个独立观测值
注 如果总体X的分布为F(X),则样本$X_1,X_2,\cdots,X_n$的分布为
定义 样本$X_1,X_2,\cdots,X_n$的不含未知参数的函数$T=T(X_1,X_2,\cdots,X_n)$称为统计量
注:作为随机样本的函数,统计量本身也是一个随机变量
如果$x_1,x_2,\cdots,x_n$时样本$X_1,X_2,\cdots,X_n$的样本值,则数值$T(x_1,x_2,\cdots,x_n)$为统计量$T(X_1,X_2,\cdots,X_n)$的观测值
下面所列的样本数字特征、顺序统计量都是最常用的统计量
设$X_1,X_2,\cdots,X_n$是来自总体X的样本,则称
- 样本均值
$\bar{X}=\frac{1}{n}\sum\limits^n_{i=1}X_i$ - 样本方差
$S^2=\frac{1}{n-1}\sum\limits^n_{i=1}(X_i-\bar{X})^2$ 样本标准差$S=\sqrt{\frac{1}{n-1}\sum\limits^n_{i=1}(X_i-\bar{X})^2}$ - 样本k阶原点距
$A_k=\frac{1}{n}\sum\limits^n_{i=1}X^k_i,k=1,2,A_1=\bar{X}$ - 样本k阶中心距
$B_k=\frac{1}{n}\sum\limits^n_{i=1}(X_i-\bar{X})^k,k=1,2,B_2=\frac{n-1}{n}S^2\neq S^2$
- 如果总体X具有数学期望$E(X)=\mu$,则
$$E(\bar{X})=E(X)=\mu$$ - 如果总体X具有方差$D(X)=\sigma^2$,则
$$D(\bar{X})=\frac{1}{n}D(X)=\frac{\sigma^2}{n},\ E(S^2)=D(X)=\sigma^2$$ - 如果总体X的k阶原点距$E(X^k)=\mu_k,k=1,2,\cdots$存在,则当$n\to\infty$时
$$\frac{1}{n}\sum^n_{i=1}X^k_i\xrightarrow{P}\mu_k,k=1,2,\cdots$$
定义 设随机变量$X_1,X_2,\cdots,X_n$相互独立且均服从标准正态分布N(0,1),则称随机变量$\chi^2=X^2_1+X^2_2+\cdots+X^2_n$服从自由度为n的$\chi^2$分布,记作$\chi^2\sim\chi^2(n)$
注:n个相互独立标准正态随机变量的平方和$\chi^2=X^2_1+X^2_2+\cdots+X^2_n$又称为$\chi^2(n)$的典型模式,必须熟记
- 设$\chi^2\sim\chi^2(n)$,对给定的$a(0<a<1)$,称满足条件 $$P{\chi^2>\chi^2_\alpha(n)}=\int^{+\infty}{\chi^2\alpha(n)}f(x)dx=\alpha$$ 的点$\chi^2_\alpha(n)$为$\chi^2(n)$分布上$\alpha$分位点。对不同的$\alpha$和n,$\chi^2_\alpha(n)$通常通过查表求得
- 设$\chi^2\sim\chi^2(n)$,则$E(\chi^2)=n,D(\chi^2)=2n$
- 设$\chi^2_1\sim\chi^2(n_1),\chi^2_2\sim\chi^2(n_2)$,且$\chi^2_1$和$\chi^2_2$相互独立,则$\chi^2_1+\chi^2_2\sim\chi^2(n_1+n_2)$
定义 设随机变量X和Y相互独立,且$X\sim N(0,1),Y\sim \chi^2(n)$,则称随机变量
注:满足X,Y独立,$X\sim N(0,1),Y\sim \chi^2(n)$三条件的$T=\frac{X}{\sqrt{Y/n}}$称为t(n)的典型模式
- t分布的概率密度f(x)是偶函数,即f(x)=f(-x),且当n充分大时,t(n)分布近似于N(0,1)分布
- 设$T\sim t(n)$,对给定的$\alpha(0<\alpha<1)$,称满足条件
$$P{T>t_\alpha(n)}=\int^{+\infty}_{t_a(n)}f(x)dx=\alpha$$ 的点$t_a(n)$为t(n)分布上$\alpha$分位点 - 由于t(n)分布的概率密度为偶函数,可知t分布的双侧$\alpha$分位点$t_{\alpha/2}(n)$,即
$$P{|T|>t_{\alpha/2}(n)}=\alpha$$
显然$t_{1-\alpha}(n)=-t_{\alpha}(n)$
定义 设随机变量X和Y相互独立,且$X\sim \chi^2(n_1),Y\sim\chi^2(n_2)$,则称随机变量
服从自由度为$(n_1,n_2)$的F分布,基座$F\sim F(n_1,n_2)$,其中$n_1$和$n_2$分别称为第一自由度和第二自由度
注:满足X,Y独立,$X\sim \chi^2(n_1),Y\sim \chi^2(n_2)$三条件的$F=\frac{X/n_1}{Y/n_2}$称为$F(n_1,n_2)$的典型模式
-
设$F\sim F(n_1,n_2)$,对给定的$\alpha(0<\alpha<1)$,称满足条件 $$P{F>F_{\alpha}(n_1,n_2)}=\int^{+\infty}{F\alpha(n_1,n_2)}f(x)dx=\alpha$$ 的点$F_\alpha(n_1,n_2)$为$F(n_1,n_2)$分布的上$\alpha$分位点
-
如果$F\sim F(n_1,n_2)$,则$\frac{1}{F}\sim F(n_2,n_1)$,且有
$$F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}$$
设总体$X\sim N(\mu,\sigma^2),X_1,X_2,\cdots,X_n$是来自总体的样本,样本均值为$\bar{X}$,样本方差为$S^2$,则有:
$\bar{X}\sim N(\mu,\frac{\sigma^2}{n}),U=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$ -
$\bar{X}$ 与$S^2$相互独立,且$\chi^2=\frac{(n-1)^2S^2}{\sigma^2}\sim \chi^2(n-1)$ $T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ $\chi^2=\frac{1}{\sigma^2}\sum\limits^n_{i=1}(X_i-\mu)^2\sim \chi^2(n)$
设总体$X\sim N(\mu_1,\sigma^2_1)$和总体$Y\sim N(\mu_2,\sigma^2_2),X_1,X_2,\cdots,X_{n_1}$和$Y_1,Y_2,\cdots,Y_{n_2}$是分别来自总体X和Y的样本且相互独立,样本均值分别为$\bar{X}$和$\bar{Y}$,样本方差分别为$S^2_1$和$S^2_2$,则有
-
$\bar{X}-\bar{Y}\sim N(\mu_1-\mu_2,\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}),U=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2}{n_1}}}\sim N(0,1)$ -
如果$\sigma^2_1=\sigma^2_2$,则
$$T=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{S_\omega\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)$$ 其中$S^2_\omega=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2}$ -
$F=\frac{S^2_1/\sigma^2_1}{S^2_2/\sigma^2_2}\sim F(n_1-1,n_2-1)$
概率统计中常涉及积分$\int^{+\infty}0 x^2e{-x}dx$,或更一般地要计算积分$\int^{+\infty}_0 x^n e^{-x}dx$我们不难推导$\int^{+\infty}_0 x^ne^{-x}dx=n\int^{+\infty}_0 x^{n-1}e^{-x}dx=\cdots=n!$
定义 用样本$X_1,X_2,\cdots,X_n$构造的统计量$\hat{\theta}(X_1,X_2,\cdots,X_n)$来估计未知参数$\theta$称为点估计。统计量$\hat{\theta}(X_1,X_2,\cdots,X_n)$称为估计量
注:估计量是随机变量,它所取得的观测值$\hat{\theta}(x_1,x_2,\cdots,x_n)$称为估计值。有时将$\theta$的估计量和估计值统称为$\theta$的估计
定义 设$\hat{\theta}$是$\theta$的估计量,如果$E(\hat{\theta})=\theta$,则称$\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$是未知参数$\theta$的无偏估计量
定义 设$\hat{\theta}_1$和$\hat{\theta}_2$都是$\theta$的无偏估计量,且$D(\hat{\theta}_1)\leq D(\hat{\theta}_2)$,则称$\hat{\theta}_1$比$\hat{\theta}_2$更有效,或$\hat{\theta}_1$比$\hat{\theta}_2$更有效估计量
定义 设$\hat{\theta}(X_1,X_2,\cdots,X_n)$是$\theta$的估计值,如果$\hat{\theta}$依概率收敛于$\theta$,则称$\hat{\theta}(X_1,X_2,\cdots,X_n)$为$\theta$的一致估计量
定义 用样本矩估计响应的总体矩,用样本矩的函数估计总体矩相应的函数,然后求出要估计的参数,称这种估计法为矩估计法
设总体X的分布含有未知参数$\theta_1,\theta_2,\cdots,\theta_k,\alpha_l=E(X^l)$存在,显然它是$\theta_1,\theta_2,\cdots,\theta_k$的函数,记作$\alpha_l(\theta_1,\theta_2,\cdots,\theta_k),l=1,2,\cdots,k$。样本的l阶原点矩为$A_l=\frac{1}{n}\sum\limits^n_{i=1}X^l_i$,令
矩估计法不需要知道总体的具体分布数学形式,只要知道各阶矩存在
如果不同原点矩,而用中心矩也可以求解:用样本中心距等于总体中心距来建立方程组
求k个参数的估计一般就列出以借据到k阶矩的方程。考试大纲只要求最多两个参数的估计,故一般最多两个方程
设$g(\alpha_1,\alpha_2)$是一阶矩$\alpha_1$和二阶矩$\alpha_2$的函数,而$\hat{\alpha}_1$和$\hat{\alpha}_2$分别为$\alpha_1$和$\alpha_2$的矩估计,则$g(\hat{\alpha}_1,\hat{\alpha}_2)$就是$g(\alpha_1,\alpha_2)$的矩估计
设$X_1,X_2,\cdots,X_n$是来自总体X的样本,$x_1,x_2,\cdots,x_n$是样本值,$\theta$是待估参数
定义 对于离散型总体X,设其概率分布为$P{X=\alpha_i}=p(\alpha_i,\theta),i=1,2,\cdots$,称函数
定义 对于给定的样本值$(x_1,x_2,\cdots,x_n)$,使似然函数$L(x_1,x_2,\cdots,x_n;\theta)$达到最大值的参数值$\hat{\theta}=\hat(x_1,x_2,\cdots,x_n)$称为未知参数$\theta$的最大似然估计值,相应的使似然函数$L(X_1,X_2,\cdots,X_n;\theta)$达到最大值的参数值$\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$称为$\theta$的最大似然估计量。一般统称为$\theta$的最大似然估计。称这种估计法为最大似然估计法
如果$L(\theta)$或$\ln L(\theta)$关于$\theta$可微,值$\hat{\theta}$往往可以从方程
如果要估计的参数是两个,$\theta_1$和$\theta_2$,则得似然方程组 $$\begin{cases}\frac{\partial L(\theta)}{\partial \theta_1}=0\ \frac{\partial L(\theta)}{\partial \theta_2}=0\end{cases}或 \begin{cases}\frac{\partial\ln L(\theta)}{\partial\theta_1}=0\ \frac{\partial\ln L(\theta)}{\partial\theta_2}=0\end{cases}$$ 解这两个方程组,可以得到$\hat{\theta_1}$和$\hat{\theta_2}$
有时,使$L(\theta)$或$\ln L(\theta)$达到最大值的$\hat{\theta}$不一定是$L(\theta)$或$\ln L(\theta)$驻点,这时不能用似然方程来求解,应采用其他方法求最大似然估计
定义 设$\theta$是总体X的未知参数,$X_1,X_2,\cdots,X_n$是来自总体X的样本,对于给定的$\alpha(0<\alpha<1)$,如果两个统计量满足
设总体$X\sim N(\mu,\sigma^2),X_1,X_2,\cdots,X_n$是来自总体X的样本,$\bar{X}$是样本均值,$S^2$是样本方差。下表列出了$\mu$和$\sigma^2$的$1-\alpha$置信区间
未知参数 |
|
---|---|
设总体$X\sim N(\mu_1,\sigma^2_1)$和总体$Y\sim N(\mu_2,\sigma^2_2),X_1,X_2,\cdots,X_{n_1}$和$Y_1,Y_2,\cdots,Y_{n_2}$分别是来自总体X和Y的样本。$\bar{X},S^2_1,\bar{Y},S^2_2$是相应的样本均值和样本方差
未知参数 |
|
---|---|
|
|
|
|
小概率事件在一次试验中实际上是不会发生的,实际推断原理又称小概率原理
- 假设是指关于总体的论断或命题,常用字母"H"表示,假设分为基本假设$H_0$(又称原假设,零假设)和备选假设(又称备择假设,对立假设)。还可将假设分为参数假设和分参数假设,参数假设是指已知总体分布函数形式,对其中未知参数的假设,其他的假设就是非参数假设,也可将假设分为简单假设和复合假设。完全决定总体分布的假设为简单假设,否则为复合假设。
- 假设检验:根据样本,按照一定规则判断所做假设$H_0$的真伪,并作出接受还是拒绝接受$H_0$的决定
拒绝实际真的假设$H_0$(弃真)称为第一类错误
接受实际不真的假设$H_0$(纳伪)称为第二类错误
- 显著性水平:在假设检验中允许犯第一类错误的概率,记为$\alpha(0<\alpha<1)$,则$\alpha$称为显著水平,它表现了对$H_0$弃真的控制程度,一般$\alpha$取0.1,0.05,0.01,0.001等值
- 显著性检验:只控制第一类错误概率$\alpha$的统计检验,称为显著性检验
-
显著性检验的一般步骤
- 根据问题要求提出原假设$H_0$
- 给出显著性水平$\alpha(0<\alpha<1)
- 确定检验统计量及拒绝域形式
- 按犯第一类错误的概率等于$\alpha$,求出拒绝域W
- 根据样本值计算检验统计量T的观测值t,当$t\in W$时,拒绝原假设$H_0$;否则,接受原假设$H_0$
设显著性水平为$\alpha$,单个正态总体为$N(\mu,\sigma^2)$的参数的假设检验以及两个正态总体$N(\mu_1,\sigma^2_1)$与$N(\mu_2,\sigma^2_2)$的$\mu_1-\mu_2$和$\sigma^2_1=\sigma^2_2$的假设检验