概率论与数理统计

概率论与数理统计

第一章概率论的基本概念

条件概率

定义

设 $A, B$ 为两事件，且 $P(A)>0$ ，则在已知“事件 $A$ 发生”的条件下，事件 $B$ 发生的条件概率 $P(B|A)$ 定义为
$P(B|A)=\frac{P(AB)}{P(A)}$

性质

非负性：对于任意事件 $B$ 有 $P(B|A) \geq 0$
归一性： $P(S|A)=1$
可列可加性：对任意的一列两两互不相容的事件 $B_{i}, \,i=1,2 \ldots$ ，有
$P\left(\bigcup_{i=1}^{\infty} B_{i} | A\right)=\sum_{i=1}^{\infty} P\left(B_{i} | A\right)$
乘法公式： $P(A B)=P(A) P(B | A)=P(B) P(A | B)$ ，其中 $P(A)>0, P(B)>0$
乘法公式的推广： $P\left(A_{1} A_{2} \ldots A_{n}\right)=P\left(A_{1}\right) P\left(A_{2} | A_{1}\right) \ldots P\left(A_{n} | A_{1} A_{2} \ldots A_{n-1}\right)$ ，其中 $P\left(A_{1} A_{2} \ldots A_{n-1}\right)>0$

全概公式和贝叶斯公式

全概公式

设 $A_{1}, A_{2}, \ldots, A_{n}$ 是样本空间 $S$ 的一个剖分，则对任意事件 $B$ ，有
$P(B)=\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B | A_{i}\right)$

贝叶斯公式

设 $A_{1}, A_{2}, \ldots, A_{n}$ 是样本空间 $S$ 的一个剖分，如果 $P\left(A_{i}\right)>0, \,i=1,2 \ldots n$ ，则对任意事件 $B$ ，只要 $P(B)>0$ ，就有
$P\left(A_{k} | B\right)=\frac{P\left(A_{k}\right) P\left(B | A_{k}\right)}{\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B | A_{i}\right)}$

事件的独立性

定义

设 $A, B$ 是任意事件，若 $P(A B)=P(A) P(B)$ ，则称事件 $A$ 与 $B$ 相互独立．

设 $A_{1}, A_{2}, \ldots, A_{n}$ 是 $n$ 个事件，若从中任取 $k$ 个事件（ $2 \leq k \leq n$ ）都有 $P\left(A_{i_{1}} A_{i_{2}} \ldots A_{i_{k}}\right)=P\left(A_{i_{1}}\right) P\left(A_{i_{2}}\right)\ldots P\left(A_{i_{k}}\right)$ ，则称这 $n$ 个事件相互独立．

相互独立 $\Rightarrow$ 两两独立
两两独立 $\nRightarrow$ 相互独立

性质

$A$ 与 $B$ ， $\overline{A}$ 与 $B$ ， $A$ 与 $\overline{B}$ ， $\overline{A}$ 与 $\overline{B}$ 只要有一个独立关系成立，则其余都成立
互不相容与相互独立不能同时成立（概率为 $0$ 或 $1$ 的事件除外）

$A$ 与 $B$ 不相容 $\langle \begin{array}{l}{\Rightarrow} \\ {\nLeftarrow}\end{array}\rangle$ $A$ 与 $B$ 不独立

$A$ 与 $B$ 相容 $\langle \begin{array}{l}{\nRightarrow} \\ {\Leftarrow}\end{array}\rangle$ $A$ 与 $B$ 独立
事件 $A$ 与 $A$ 独立 $\Leftrightarrow$ $P(A)=0$ 或 $P(A)=1$

$n$ 重伯努利试验

如果试验 $E$ 只有两个结果， $A$ 及 $\overline{A}$ ，且 $P(A)=p,\,0 < p < 1$ ，则称 $E$ 为伯努利试验．将试验 $E$ 独立地重复 $n$ 次，看成一个试验，称为 $n$ 次独立重复试验，或 $n$ 重伯努利试验，记为 $E^{n}$ ．
用 $B$ 表示事件 $A$ 在 $n$ 次重复试验中出现 $m$ 次的事件，则
$P(B)=\mathrm{C}_{n}^{m} p^{m} q^{n-m},\quad m=1,2, \dots, n$

第二章随机变量及其分布

离散型随机变量及其分布

二项分布

$X \sim B(n, p) \quad 0 < p < 1$

分布列：
$P(X=k)=\mathrm{C}_{n}^{k} p^{k} q^{n-k},\quad k=0,1,2, \dots, n$

当 $n=1$ 时称为两点分布

实际背景： $n$ 次独立重复试验中事件发生 $k$ 次的概率．

超几何分布

$X \sim H(n, M, N) \quad n \leq N, M \leq N$

分布列：
$P(X=m)=\frac{\mathrm{C}_{M}^{m} \mathrm{C}_{N-M}^{n-m}}{\mathrm{C}_{N}^{n}}, \quad m=0,1,2 \ldots, n$

实际背景： $N$ 件产品中有 $M$ 件次品，从中任取 $n$ 件，恰有 $m$ 件次品的概率．

泊松（Poisson）分布

$X \sim P(\lambda)$ 或 $X \sim \pi(\lambda)$

分布列：
$P(X=k)=\frac{\lambda^{k}}{k !} e^{-\lambda}, \quad k=0,1,2 \ldots$

泊松定理：设 $X_{n} \sim B\left(n, p_{n}\right)$ ，如果 $\lim_{n \rightarrow \infty} n p_{n}=\lambda$ ，则有
$\lim_{n \rightarrow \infty} \mathrm{C}_{n}^{k} p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\frac{\lambda^{k}}{k !} e^{-\lambda}, \quad k=0,1 \ldots$

当 $n$ 很大， $p$ 或 $1-p$ 很小时，泊松分布可以做二项分布的近似计算．

几何分布

$X \sim G(p) \quad p>0$

分布列： $P(X=k)=p(1-p)^{k-1}, \quad k=1,2 \ldots$

实际背景：独立重复试验 $k$ 次才成功的概率．

几何分布的无记忆性： $P(X>s+t | X>s)=P(X>t)$

随机变量的分布函数

定义

随机试验 $E$ ， $X$ 是其随机变量，对任意的 $x \in R$ ，称 $F(x)=P(X \leq x) \quad x \in R$ 为随机变量 $X$ 的分布函数．

性质

$F(x)$ 是 $x$ 的右连续函数．
$F(x)$ 是 $x$ 的单调不减函数．
$0 \leq F(x) \leq 1$ ．
$P(a<X \leq b)=F(b)-F(a)$

连续型随机变量

设 $X$ 是一个随机变量， $F(x)$ 是它的分布函数．如果存在一个可积函数 $f(x) \geq 0$ ，使得 $F(x)$ 满足 $F(x)=P(X \leq x)=\int_{-\infty}^{x} f(t) \, \mathrm{d} t, \quad x \in R$ 则称 $X$ 为连续型随机变量， $f(x)$ 称为 $X$ 的密度函数．

$F^{\prime}(x)=f(x)$

性质：

非负性： $f(x) \geq 0$
归一性： $\int_{-\infty}^{+\infty} f(x) \, \mathrm{d} x=1$
$\displaystyle\frac{\mathrm{d} F(x)}{\mathrm{d} x}=f(x)$
$P(a<X \leq b)=\int_{a}^{b} f(x) \, \mathrm{d} x=F(b)-F(a)$
$P(X=c) \approx f(c) \Delta x$
对任意一点 $C$ ， $P(X=c)=0$
$F(x)$ 是连续函数

常用的连续型分布

均匀分布

$X \sim U(a, b)$

密度函数：
$f(x)=\begin{cases}\displaystyle\frac{1}{b-a}, \quad &a \lt x \lt b \\ 0,\quad &\text{其他}\end{cases}$

分布函数：
$F(x)=\begin{cases} 0, \quad &x \lt a \\ \displaystyle\frac{x-a}{b-a}, \quad & a \leq x \lt b \\ 1, \quad & x \geq b \end{cases}$

指数分布

$X \sim E(\lambda)$ 或 $X \sim e(\lambda)$ ， $\lambda \gt 0$

密度函数：
$f(x)=\begin{cases} \lambda \mathrm{e}^{-\lambda x}, \quad & x \gt 0 \\ 0, \quad & x \leq 0 \end{cases}$

分布函数：
$F(x)=\begin{cases} 1-\mathrm{e}^{-\lambda x}, \quad & x \gt 0 \\ 0, \quad & x \leq 0 \end{cases}$

指数分布无记忆性

正态分布

$X \sim N(\mu, \sigma ^2) \quad -\infty \lt \mu \lt +\infty, \sigma \gt 0$

密度函数：
$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} \quad -\infty < x < +\infty$

分布函数：
$F(x)=\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(t-\mu)^{2}}{2 \sigma^{2}}} \, \mathrm{d} t \quad x \in R$

$f(x)$ 的性质：
$f(x)$ 关于 $\mu$ 对称，在 $x=\mu$ 处取得极大值 $\displaystyle\frac{1}{\sqrt{2 \pi}\sigma}\pi$ ，拐点为 $x=\mu \pm \sigma$

标准正态分布 $N(0,1)$ ：

密度函数 $\varphi(x)$

分布函数 $\varPhi(x)$

$\varPhi(-x)=1-\varPhi(x)$

$\varPhi(0) = \displaystyle\frac{1}{2}$

定理：若 $X \sim N(\mu, \sigma ^{2})$ ，则 $Z=\displaystyle\frac{X-\mu}{\sigma} \sim N(0,1)$

随机变量函数的分布

已知 $X$ 的密度 $f(x)$ ，求连续型随机变量 $Y=g(X)$ 的分布的一般步骤：

由 $X$ 的取值范围，及 $Y=g(X)$ 确定 $Y$ 的取值范围
求 $F_{Y}(y)=P(Y \leq y)=P(g(X) \leq y)=P(X \in(h(y)))$
求 $f_{Y}(y)=F_{Y}^{\prime}(y)$

定理：设连续型随机变量 $X$ 的密度函数为 $f_{X}(x)$ ， $y=g(x)$ 是一个严格单调的函数，且具有一阶连续导数，则 $Y=g(X)$ 的密度函数为 $f_{Y}(y)=f_{X}\left(g^{-1}(y)\right) |\left(g^{-1}(y)\right)^{\prime} |$

第三章二维随机变量及其分布

二维离散型随机变量

联合分布列

$P\left(X=x_{i}, Y=y_{j}\right) \stackrel{\Delta}{=} P\left\{\left(X=x_{i}\right) \cap\left(Y=y_{j}\right)\right\}=p_{i j} \quad i, j=1,2, \ldots$

边际分布列

$P\left(X=x_{i}\right)=\sum_{j=1}^{\infty} P\left(X=x_{i}, Y=y_{j}\right)=\sum_{j=1}^{\infty} p_{i j}=p_{i \cdot} \quad i=1,2 \ldots$

条件分布列

$P\left(X=x_{i} | Y=y_{j}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(Y=y_{j}\right)}=\frac{p_{i j}}{p_{\cdot j}} \quad i=1,2 \ldots$

分布函数

联合分布函数

$F(x, y)=P(X \leq x, Y \leq y)=P((X \leq x) \cap(Y \leq y)) \quad x \in R, y \in R$

边际分布函数

$F_{X}(x)=P(X \leq x)=P(X \leq x, Y \leq+\infty)=F(x,+\infty) \quad x \in R$

条件分布函数

$F_{Y | X}(y | x)=\frac{P(X=x, Y \leq y)}{P(X=x)} \quad y \in R$

二维连续型随机变量

设 $(X,Y)$ 为二维随机变量， $F(x,y)$ 是它的分布函数，若存在非负函数 $f(x,y)$ 使得对任意的 $x, y \in R$ 有 $F(x, y)=P(X \leq x, Y \leq y)=\int_{-\infty}^{x} \int_{-\infty}^{y} f(u, v) \, \mathrm{d}v \mathrm{d}u$ 则称 $(X,Y)$ 为二维连续型随机变量， $f(x,y)$ 为 $(X,Y)$ 的联合分布密度

$\frac{\partial^{2} F(x, y)}{\partial x \partial y}=f(x, y)$

边际分布密度
$f_{X}(x)=\int_{-\infty}^{\infty}f(x,y)\, \mathrm{d}y$
$f_{Y}(xy)=\int_{-\infty}^{\infty}f(x,y)\, \mathrm{d}x$

条件分布密度
$f_{X|Y}(x | y)=\frac{f(x, y)}{f_{Y}(y)}$
$f_{Y | X}(y | x)=\frac{f(x, y)}{f_{X}(x)}$

二维均匀分布

$f(x,y) = \begin{cases}\displaystyle{\frac{1}{G\text{的面积}}},\quad & (x,y)\in G \\ 0, \quad & (x,y) \notin G\end{cases}$

二维指数分布 $(\alpha \gt 0, \beta \gt 0)$

$f(x,y) = \begin{cases} \alpha \beta \mathrm{e} ^{-(\alpha x + \beta y)}, \quad & x\gt 0, y \gt 0 \\ 0, \quad & \text{其他}\end{cases}$

二维正态分布

$(X,Y) \sim N(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho)$

$f(x, y)=\frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left(\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}-\frac{2 \rho\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right)\right\}$

若 $(X,Y) \sim N(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho)$ ，则 $X \sim N(\mu_{1}, \sigma_{1}^{2})$ ， $Y \sim N(\mu_{2}, \sigma_{2}^{2})$ 且与 $\rho$ 无关

随机变量的独立性

设 $F(x,y)$ 及 $F_{X}(x),F_{Y}(y)$ 分别是二维随机变量 $(X,Y)$ 的分布函数和边际分布函数，若对所有的 $x,y$ 有：
$F(x,y)=F_{X}(x)F_{Y}(y)\quad x\in R,y \in R$
即 $P(X \leq x, Y \leq y)=P(X \leq x) P(Y \leq y)$ ，则称随机变量 $X$ 与 $Y$ 独立．

二维均匀分布：矩形域独立，圆域不独立

二维指数分布： $X$ 与 $Y$ 独立

二维正态分布： $X$ 与 $Y$ 独立 $\leftrightarrow \rho = 0$

定理：设随机变量 $X$ 与 $Y$ 独立， $g(x), h(y)$ 是 $X$ 与 $Y$ 的函数，则 $g(X)$ 与 $h(Y)$ 也独立．

二维随机变量函数的分布

离散型

泊松分布可加性：设 $X \sim P\left(\lambda_{1}\right), Y \sim P\left(\lambda_{2}\right)$ ， $X$ 与 $Y$ 独立，则 $X+Y \sim P\left(\lambda_{1}+\lambda_{2}\right)$ ．

二项分布可加性：设 $X \sim B(n, p), Y \sim B(m, p)$ ， $X$ 与 $Y$ 独立，则 $X+Y \sim B(m+n, p)$ ．

连续型

正态分布可加性：设 $X \sim N\left(\mu_{1}, \sigma_{1}^{2}\right), Y \sim N\left(\mu_{2}, \sigma_{2}^{2}\right)$ ， $X$ 与 $Y$ 独立，则 $X \pm Y \sim N\left(\mu_{1} \pm \mu_{2}, \sigma_{1}^{2}+\sigma_{2}^{2}\right)$

极值分布

极大值分布：已知 $(X,Y)$ 的分布，求 $Z=\max (X, Y)$ 的分布

已知 $(X,Y)$ 的分布函数 $F(X,Y)$
$F_{Z}(z)=P(Z \leq z)=P(\max (X, Y) \leq z)=P(X \leq z, Y \leq z)=F(z, z)$
$X$ 与 $Y$ 独立，分布函数 $F_{X}(x), F_{Y}(y)$
$F_{Z}(z)=P(Z \leq z)=F(z, z)=F_{X}(z) F_{Y}(z)$
$X$ 与 $Y$ 独立同分布，分布函数 $F(x)$
$F_{Z}(z)=P(Z \leq z)=F(z, z)=F_{X}(z) F_{Y}(z)=\{F(z)\}^{2}$

极小值分布：已知 $(X,Y)$ 的分布，求 $Z=\min (X, Y)$ 的分布

已知 $(X,Y)$ 的分布函数 $F(X,Y)$
$F_{Z}(z)=P(Z \leq z)=P(\max (X, Y) \leq z)=1-P(X \geq z, Y \geq z)$
$X$ 与 $Y$ 独立，分布函数 $F_{X}(x), F_{Y}(y)$
$\begin{aligned}F_{Z}(z)&= P(Z \leq z) \\ &= 1-P(X \geq z, Y \geq z) \\ &=1-P(X>z) P(Y>z) \\ &=1-((1-F_{X}(z))(1-F_{Y}(z)))\end{aligned}$

第四章随机变量的数字特征

数学期望

定义

设离散型随机变量 $X$ 的分布列为 $P\left(X=x_{i}\right)=p_{i},\, i=1,2 \ldots$ ，若级数 $\displaystyle\sum_{i=1}^{\infty} x_{i} p_{i}$ 绝对收敛，则称 $E X=\displaystyle\sum_{i=1}^{\infty} x_{i} p_{i}$ 为 $X$ 的数学期望（期望）．若 $\displaystyle\sum_{i=1}^{\infty}\left|x_{i}\right| p_{i}$ 不收敛，则称 $X$ 期望不存在或无穷大．

设连续型随机变量 $X$ 的密度函数为 $f(x)$ ，若积分 $\displaystyle\int_{-\infty}^{+\infty} x f(x) \, \mathrm{d} x$ 绝对收敛，则称 $E X=\displaystyle\int_{-\infty}^{+\infty} x f(x) \, \mathrm{d} x$ 为 $X$ 的数学期望（期望）．若 $\displaystyle\int_{-\infty}^{+\infty} |x| f(x) \, \mathrm{d} x$ 不收敛，则称 $X$ 期望不存在或无穷大．

性质

$E c = c$ ，其中 $c$ 为常数
$E(cX) = cEX$
$E(a X+b)=a E(X)+b$
$E(X \pm Y)=E X \pm E Y$
当 $X$ 与 $Y$ 独立时，有 $E(X Y)=E(X) E(Y)$
$E(\overline{X})=E\left(\displaystyle\frac{1}{n} \sum_{i=1}^{n} X_{i}\right)=E X$ ， $\overline{X}$ 为样本均数

常用分布的数学期望

$X \sim B(n, p) \quad E(X)=n p$
$X \sim P(\lambda) \quad E(X)=\lambda$
$X \sim G(p) \quad E(X)=1 / p$
$X \sim U(a, b) \quad E(X)=\displaystyle\frac{a+b}{2}$
$X \sim e(\lambda) \quad E(X)=\displaystyle\frac{1}{\lambda}$
$X \sim N\left(\mu, \sigma^{2}\right) \quad E(X)=\mu$

方差

定义

$X$ 是随机变量，若期望 $E(X-E(X))^{2}$ 存在，则称其为 $X$ 的方差，记为 $D(X)=E(X-E(X))^{2}$ ．

标准差： $\sigma_{X}=\sqrt{D(X)}=\sqrt{E(X-E(X))^{2}}$

$D(X)=E(X^{2})-(E X)^{2}$

性质

$D(c) = 0$ ，其中 $c$ 为常数
$D(c X)=c^{2} D(X)$
$D(a X+b)=a^{2} D(X)$
$D(X \pm Y) = D X + D Y \pm 2 E(X-E X)(Y-E Y)$
若 $X$ 与 $Y$ 独立， $E(X Y)=E(X) E(Y)$ ，则 $D(X \pm Y) = D X + D Y$
$D(\overline{X})=\displaystyle\frac{D(X)}{n}$ ， $\overline{X}$ 为样本均数

标准化的随机变量： $X^{*}=\displaystyle\frac{X-E(X)}{\sqrt{D(X)}}$ ，有 $E\left(X^{*}\right)=0, D\left(X^{*}\right)=1$

常用分布的方差

$X \sim B(n, p) \quad D(X)=np(1-p)$
$X \sim P(\lambda) \quad D(X)=\lambda$
$X \sim G(p) \quad D(X)=\displaystyle\frac{q}{p^2}$
$X \sim U(a, b) \quad D(X)=\displaystyle\frac{(b-a)^{2}}{12}$
$X \sim e(\lambda) \quad D(X)=\displaystyle\frac{1}{\lambda^{2}}$
$X \sim N\left(\mu, \sigma^{2}\right) \quad D(X)=\sigma^{2}$

协方差和相关系数

定义

设 $(X,Y)$ 为二维随机变量，若 $E((X-E X)(Y-E Y))$ 存在，则称其为随机变量 $X$ 与 $Y$ 的协方差，记为 $\operatorname{Cov}(X, Y)$ ，称 $\rho_{X Y}=\displaystyle\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$ 为随机变量 $X$ 与 $Y$ 的相关系数．

$\operatorname{Cov}(X, Y)=E(X Y) - E(X)E(Y)$

性质

协方差的性质：

$\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X)$
$\operatorname{Cov}(X, X)=D(X)$
若 $X$ 与 $Y$ 独立，则 $\operatorname{Cov}(X, Y)=0$
$\operatorname{Cov}(X, b)=0$
$\operatorname{Cov}(a X, b Y)=a b \operatorname{Cov}(X, Y)$ ， $a,b$ 为常数
$\operatorname{Cov}\left(X_{1} \pm X_{2}, Y\right)=\operatorname{Cov}\left(X_{1}, Y\right) \pm \operatorname{Cov}\left(X_{2}, Y\right)$
$\operatorname{Cov}(a X+b, Y)=a \operatorname{Cov}(X, Y)+\operatorname{Cov}(b, Y)=a \operatorname{Cov}(X, Y)$
$D(a X+b Y)=a^{2} D(X)+b^{2} D(Y)+2 a b \operatorname{Cov}(X, Y)$

二维正态分布的相关与独立

$(X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)$

$\operatorname{Cov}(X, Y)=\rho \sigma_{1} \sigma_{2},\quad\rho_{X Y}=\rho$

其他数字特征

矩

$k$ 阶原点矩： $E(X^{k})$ ， $k$ 阶中心矩： $E((X-E X)^{k})$

协方差矩阵

第五章大数定律和中心极限定理

一个定义

依概率收敛： $Y_{1}, Y_{2}, \dots Y_{n} \dots$ 是一个随机变量列， $a$ 是常数，如果对于任意给定的 $\varepsilon>0$ ，有：
$\lim _{n \rightarrow \infty} P\left(\left|Y_{n}-a\right|<\varepsilon\right)=1$
则称随机变量列 $Y_{n}$ 依概率收敛于 $a$ ，记为 $Y_{n} \stackrel{P}{\longrightarrow} a$

三个大数定律

切比雪夫大数定律

伯努利大数定律

辛钦大数定律

$X_{1}, X_{2}, \dots X_{n} \dots$ 是独立同分布的随机变量列， $E X_{i}=\mu$ 存在，构造 $\overline{X}_{n}=\displaystyle\frac{1}{n} \sum_{i=1}^{n} X_{i}$ ，有 $E \overline{X}_{n}=\mu$ ，则对 $\forall \varepsilon>0$ ，有 $\lim _{n \rightarrow \infty} P\left(\left|\overline{X}_{n}-\mu \right|<\varepsilon\right)=1$ 即 $\overline{X}_{n} \stackrel{P}{\longrightarrow} \mu$ ．

两个中心极限定理

独立同分布的中心极限定理

设 $X_{1}, X_{2}, \dots X_{n} \dots$ 是独立同分布的随机变量列， $E X_{i}=\mu, D X_{i}=\sigma ^{2}$ ，则对任意的 $x\in R$ ，有 $\lim _{n \rightarrow+\infty} P\left(\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma} \leq x\right)=\Phi(x)$

即 $\sum_{i=1}^{n} X_{i} \underset{n \rightarrow+\infty}{\sim} N\left(n \mu, n \sigma^{2}\right)$

任意试验，经大量独立重复，叠加在一起，均服从正态分布

棣莫弗-拉普拉斯中心极限定理

二项分布的极限分布是正态分布

$B(n,p)\underset{n\rightarrow +\infty}{\sim}\begin{cases}P(\lambda), \quad & p,1-p \,\text{在}\, 0,1 \, \text{附近}\\N(n p,n p (1-p)), \quad & p,1-p \,\text{在}\, 1/2 \,\text{附近，在}\, 0,1 \, \text{附近需要} \, n \, \text{很大}\end{cases}$

第六章数理统计的基本概念

统计的基本概念

总体：研究对象观察值的全体

个体：每一个观察值

样本：从总体中抽取的部分个体

简单随机样本（样本）：总体中每一个个体有同等机会被抽到，每次抽取独立进行，各个体值互不影响

样本 $X_{1}, X_{2}, \dots X_{n}$ 的联合分布

离散型：总体 $X$ 的分布列 $P\left(X=x_{i}\right)=p_{i}, \quad i=1,2, \dots$ ，样本 $X_{1}, X_{2}, \dots X_{n}$ 的联合分布列： $P\left(X_{1}=x_{1}, X_{2}=x_{2}, \dots X_{n}=x_{n}\right) = \prod_{i=1}^{n} P\left(X=x_{i}\right)$
连续型：总体 $X$ 的分布密度 $f(x)$ ，样本 $X_{1}, X_{2}, \dots X_{n}$ 的联合分布密度： $f\left(x_{1}, x_{2}, \dots x_{n}\right)=f_{1}\left(x_{1}\right) f_{2}\left(x_{2}\right) \dots f_{n}\left(x_{n}\right)=\prod_{i=1}^{n} f\left(x_{i}\right)$
连续型：总体 $X$ 的分布函数 $F(x)$ ，样本 $X_{1}, X_{2}, \dots X_{n}$ 的联合分布密度： $F\left(x_{1}, x_{2}, \ldots x_{n}\right)=F_{1}\left(x_{1}\right) F_{2}\left(x_{2}\right) \dots F_{n}\left(x_{n}\right)=\prod_{i=1}^{n} F\left(x_{i}\right)$

统计量：设 $X_{1}, X_{2}, \dots X_{n}$ 是总体 $X$ 的一个样本，若 $T=T\left(X_{1}, X_{2} \dots X_{n}\right)$ 是样本的函数，且不含任何未知参数，则称 $T$ 为统计量

设 $X_{1}, X_{2}, \dots X_{n}$ 是总体 $X$ 的一个样本，称统计量 $\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i}$ 为样本均值； $S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}$ 为样本方差； $S = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}$ 为样本标准差； $A_{k}=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{k}$ 为样本 $k$ 阶原点矩； $X_{(n)}=\max\{X_{1}, X_{2},\dots X_{n}\}$ 为极大次序统计量； $X_{(l)}=\min\{X_{1}, X_{2},\dots X_{n}\}$ 为极小次序统计量．

统计量的分布

标准正态分布

$X \sim N(\mu, \sigma^{2})$

$\chi^{2}(n)$ 分布

定义

若 $X_{1}, X_{2}, \dots X_{n}$ 独立同分布， $X_{i} \sim N(0,1), i=1,2 \dots n$ ，则 $\sum_{i=1}^{n} X_{i}^{2} \sim \chi^{2}(n)$

性质

可加性：两个变量 $\chi^{2}(n)$ 和 $\chi^{2}(m)$ 相互独立，则 $\chi^{2}(n)+\chi^{2}(m) \sim \chi^{2}(m+n)$
若 $X \sim \chi^{2}(n)$ ，则 $E\left(\chi^{2}(n)\right)=n, D\left(\chi^{2}(n)\right)=2 n$

$t$ 分布

定义

$X \sim N(0,1), Y \sim \chi^{2}(n)$ ， $X$ 与 $Y$ 独立，则称 $t=\frac{X}{\sqrt{Y / n}}$ 服从自由度为 $n$ 的 $t$ 分布，记为 $t(n)$ ．

性质

关于 $y$ 轴对称
$t(n) \stackrel{n \rightarrow \infty}{\longrightarrow} N(0,1)$
一般地，当 $n \gt 45$ 时认为 $t(n)=N(0,1)$

$F$ 分布

定义

$X \sim \chi^{2}(n), Y \sim \chi^{2}(m)$ ， $X$ 与 $Y$ 独立，则称 $F=\frac{X/n}{Y/m}$ 服从自由度为 $n,m$ 的 $F$ 分布，记为 $F(n,m)$ ．

性质

若 $X \sim F(n,m)$ ，则 $\displaystyle \frac{1}{X} \sim F(m,n)$
若 $t \sim t(n)$ ，则 $t^{2} \sim F(1,n)$
$F_{1-\alpha}(n,m) = \displaystyle \frac{1}{F_{\alpha}(m,n)}$

正态总体的抽样分布

单正态总体的抽样分布定理

设总体 $X \sim N(\mu, \sigma^{2})$ ， $X_{1}, X_{2}, \dots, X_{n}$ 为总体 $X$ 的简单随机样本，样本均值 $\displaystyle \overline{X} = \frac{1}{n} \sum^{n}_{i=1}X_{i}$ ，样本方差 $\displaystyle S^{2}=\frac{1}{n-1}\sum^{n}_{i=1}(X_{i}-\overline{X})^{2}$ ，则有

$\displaystyle \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$ ；
$\displaystyle \frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)$ ，且 $\overline{X}$ 与 $S^{2}$ 相互独立；
$\displaystyle \frac{\overline{X}-\mu}{S / \sqrt{n}} \sim t(n-1)$ ．

双正态总体的抽样分布定理

设总体 $X \sim N(\mu_{1}, \sigma_{1}^{2})$ 与总体 $Y \sim N(\mu_{2}, \sigma_{2}^{2})$ 相互独立， $X_{1}, X_{2}, \dots, X_{n}$ 与 $Y_{1}, Y_{2}, \dots, Y_{m}$ 分别为总体 $X$ 与 $Y$ 的简单随机样本， $\overline{X}, \overline{Y}, S_{1}^{2}, S_{2}^{2}$ 分别表示 $X$ 与 $Y$ 的样本均值与样本方差，则有

$\displaystyle \frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{\displaystyle\sqrt{\frac{\mu_{1}^{2}}{n}+\frac{\mu_{2}^{2}}{m}}}\sim N(0,1)$ ；
$\displaystyle \frac{S_{1}^{2}}{S_{2}^{2}} \cdot \frac{\sigma_{2}^{2}}{\sigma_{1}^{2}} \sim F(n-1,m-1)$ ；
若 $\sigma_{1}^{2} = \sigma_{2}^{2}$ ，则 $\frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{S_{\omega}\displaystyle\sqrt{\frac{1}{n}+\frac{1}{m}}} \sim t(n+m-2)$ 其中 $S_{\omega} = \sqrt{\frac{(n-1)S_{1}^{2}+(m-1)S_{2}^{2}}{n+m-2}}$

抽样分布的上 $\alpha$ 分位点

定义 1 设随机变量 $Z \sim N(0,1)$ ，若对 $\alpha \in (0,1)$ ，实数 $z_{\alpha}$ 满足 $P(Z\gt z_{\alpha})=\alpha$ 则称点 $z_{\alpha}$ 为标准正态分布的上 $\alpha$ 分位点．易知 $z_{1-\alpha} = -z_{\alpha}$ ．

定义 2 设随机变量 $\chi^{2} \sim \chi^{2}(n)$ ，若对 $\alpha \in (0,1)$ ，实数 $\chi^{2}_{\alpha}(n)$ 满足 $P(\chi^{2} \gt \chi^{2}_{\alpha}(n))=\alpha$ 则称点 $\chi^{2}_{\alpha}(n)$ 为 $\chi^{2}(n)$ 的上 $\alpha$ 分位点．易知 $P(\chi^{2} \leq \chi^{2}_{1-\alpha}(n))=\alpha$

定义 3 设随机变量 $t \sim t(n)$ ，若对 $\alpha \in (0,1)$ ，实数 $t_{\alpha}(n)$ 满足 $P(t \gt t_{\alpha}(n))=\alpha$ 则称点 $t_{\alpha}(n)$ 为 $t(n)$ 的上 $\alpha$ 分位点．类似于标准正态分布，有 $t_{1-\alpha}(n) = -t_{\alpha}(n)$ ．

定义 4 设随机变量 $F \sim F(n,m)$ ，若对 $\alpha \in (0,1)$ ，实数 $F_{\alpha}(n,m)$ 满足 $P(F \gt F_{\alpha}(n,m))=\alpha$ 则称点 $F_{\alpha}(n,m)$ 为 $F(n,m)$ 的上 $\alpha$ 分位点．利用 $F$ 分布的性质，容易证明 $F_{1-\alpha}(n,m) = \frac{1}{F_{\alpha}(n,m)}$

定义 5（统一定义） 设 $Y$ 为一个连续型随机变量，若对 $\alpha \in (0,1)$ ，实数 $Y_{\alpha}$ 满足 $P(Y\gt Y_{\alpha})=\alpha$ 则称点 $Y_{\alpha}$ 为 $Y$ 的上 $\alpha$ 分位点．容易得到

$P(Y\gt Y_{\alpha})=\alpha$ ；
$P(Y\lt Y_{1-\alpha})=\alpha$ ；
$P(Y\lt Y_{1-\alpha/2} \text{ 或 } Y\gt Y_{\alpha / 2})=\alpha$ ；
$P(Y\lt Y_{\alpha})=1-\alpha$ ；
$P(Y\gt Y_{1-\alpha})=1-\alpha$ ；
$P(Y_{1-\alpha/2} \lt Y\lt Y_{\alpha/2})=1-\alpha$ ．

使用前三个等式处理假设检验问题，使用后三个等式处理区间估计问题．

第七章参数的点估计及其优良性

设总体 $X$ 的分布函数 $F(x; \theta)$ 形式已知，其中含有未知参数 $\theta$ ．为了估计参数 $\theta$ ，首先从总体 $X$ 中抽取样本 $X_{1}, X_{2}, \dots, X_{n}$ ，然后按照一定的方法（矩估计法、极大似然估计法）构造合适的统计量 $g(X_{1}, X_{2}, \dots, X_{n})$ 作为 $\theta$ 的估计量，记为 $\hat{\theta}=g\left(X_{1}, X_{2}, \dots, X_{n}\right)$ ．代入样本观测值 $x_{1}, x_{2}, \dots, x_{n}$ ，即得到 $\theta$ 的估计值 $\hat{\theta}=g\left(x_{1}, x_{2}, \dots, x_{n}\right)$ ．

矩估计

设总体 $X$ 的分布函数为 $F(x, \theta_{1}, \theta_{2}, \dots, \theta_{t})$ ， $\theta_{1}, \theta_{2}, \dots, \theta_{t}$ 为待估参数， $X_{1}, X_{2}, \dots, X_{n}$ 是样本，构造前 $t$ 阶样本矩 $A_{k} = \displaystyle \frac{1}{n} \sum^{n}_{i=1}X_{i}^{k},\,k=1,2,\dots,t$ ，求出前 $t$ 阶总体矩 $E X^{k},\,k=1,2,\dots,t$ （是待估参数的函数），由大数定律知，当 $n\rightarrow +\infty$ 时，样本矩依概率收敛于总体矩，即 $\begin{cases}A_{1} \\ A_{2} \\ \dots \\ A_{t} \end{cases} \xrightarrow[\text{（由大数定律）}]{P} \begin{cases}E X = \mu_{1}(\theta_{1}, \theta_{2}, \dots, \theta_{t}) \\ E X^{2} = \mu_{2}(\theta_{1}, \theta_{2}, \dots, \theta_{t}) \\ \dots \\ E X^{t} = \mu_{3}(\theta_{1}, \theta_{2}, \dots, \theta_{t}) \end{cases}$ 另 $A_{k} = E X^{k}, \, k=1,2,\dots,t$ ，得 $\begin{cases}A_{1} = \mu_{1}(\hat{\theta}_{1}, \hat{\theta}_{2}, \dots, \hat{\theta}_{t}) \\ A_{2} = \mu_{2}(\hat{\theta}_{1}, \hat{\theta}_{2}, \dots, \hat{\theta}_{t}) \\ \dots \\ A_{t} = \mu_{t}(\hat{\theta}_{1}, \hat{\theta}_{2}, \dots, \hat{\theta}_{t})\end{cases}$ 从中解出 $\hat{\theta}_{1}, \hat{\theta}_{2}, \dots, \hat{\theta}_{t}$ 即可．

关于矩估计的几个问题

大样本精确，小样本不可用；
另 $A_{k}=E X^{k}$ 或 $B_{k}=E(X-E(X))^{k}$ ，阶数要相同；
使用前 $t$ 阶矩，如果有前 $t$ 阶矩为零，顺延；
矩估计缺点：总体矩必须存在，且浪费了分布的信息．

极大似然估计

定义设 $X_{1}, X_{2}, \dots, X_{n}$ 为来自总体 $X$ 的简单随机样本， $x_{1}, x_{2}, \dots, x_{n}$ 为样本观测值．称 $L(\theta)=\prod_{i=1}^{n} p(x_{i}, \theta)$ 为参数 $\theta$ 的似然函数．其中，当总体 $X$ 为离散型随机变量时， $p(x_{i}, \theta)$ 表示 $X$ 的分布列 $P(X = x_{i})$ ；当总体 $X$ 为连续型随机变量时， $p(x_{i}, \theta)$ 表示 $X$ 的密度函数 $f(x)$ 在 $x_{i}$ 处的取值．

参数 $\theta$ 的似然函数 $L(\theta)$ 实际上就是样本 $X_{1}, X_{2}, \dots, X_{n}$ 恰好取观测值 $x_{1}, x_{2}, \dots, x_{n}$ （或其邻域）的概率．

定义设 $L(\theta)=\displaystyle\prod_{i=1}^{n} p(x_{i}, \theta)$ 为参数 $\theta$ 的似然函数，若存在一个只与样本观测值 $x_{1}, x_{2}, \dots, x_{n}$ 有关的实数 $\hat{\theta}(x_{1}, x_{2}, \dots, x_{n})$ ，使得 $L(\hat{\theta}) = \max L(\theta)$ 则称 $\hat{\theta}(x_{1}, x_{2}, \dots, x_{n})$ 为参数 $\theta$ 的最大似然估计值，称 $\hat{\theta}(X_{1}, X_{2}, \dots, X_{n})$ 为参数 $\theta$ 的最大似然估计量．

点估计优良性的评定标准

无偏性

若参数 $\theta$ 的估计量 $\hat{\theta}=\hat{\theta}\left(X_{1}, X_{2} \cdots X_{n}\right)$ 满足 $E(\hat{\theta})=\theta$ 则称 $\hat{\theta}$ 为 $\theta$ 的一个无偏估计量，否则就称为有偏估计量．

有效性

设 $\hat{\theta}_{1}$ 和 $\hat{\theta}_{2}$ 都是 $\theta$ 的无偏估计量，如果 $D\left(\hat{\theta}_{1}\right) \lt D\left(\hat{\theta}_{2}\right)$ 则称 $\hat{\theta}_{1}$ 比 $\hat{\theta}_{2}$ 有效．

一致性（相合性）

设 $\hat{\theta}_{n}=\hat{\theta}\left(X_{1}, X_{2}, \dots, X_{n}\right)$ 是 $\theta$ 的一个估计量，若对于任意的 $\varepsilon \gt 0$ ，有 $\lim _{n \rightarrow \infty} P\left(\left|\hat{\theta}_{n}-\theta\right|<\varepsilon\right)=1$ 即 $\hat{\theta}_{n} \xrightarrow{P} \theta$ ，则称 $\hat{\theta}_{n}$ 是 $\theta$ 的一致估计量（或称相合估计量）

矩估计都是一致估计，极大似然估计不一定是一致估计．

第八章参数的区间估计与假设检验

区间估计

设总体 $X$ 的分布函数为 $F(x; \theta)$ ，其中 $\theta$ 为未知参数， $X_{1}, X_{2}, \dots, X_{n}$ 为来自总体的简单随机样本．对于给定的 $a \in (0,1)$ ，如果由样本确定的两个统计量 $T_{1}(X_{1}, X_{2}, \dots, X_{n})$ 和 $T_{2}(X_{1}, X_{2}, \dots, X_{n})$ 满足 $P(T_{1} \leq \theta \leq T_{2})=1-\alpha$ 则称随机区间 $[T_{1}, T_{2}]$ 是参数 $\theta$ 的置信度（或置信水平）为 $1-\alpha$ 的置信区间．
如果统计量 $T(X_{1}, X_{2}, \dots, X_{n})$ 满足 $P(\theta \leq T) = 1- \alpha \, \text{（或 } P(\theta \geq T) = 1- \alpha \text{）}$ 则称 $T$ 是参数 $\theta$ 的单侧置信上限（或单侧置信下限）．

求置信区间的一般步骤

确定 $\theta$ 的估计量 $\hat{\theta}$
确定 $\hat{\theta}$ 的分布
确定 $\hat{\theta}$ 分布的非小概率区间
从 $\hat{\theta}$ 分布的非小概率区间中解出 $\theta$

假设检验

假设的基本概念

建立假设
- 双侧检验
  原假设： $H_{0}: \theta = \theta_{0}$
  备择假设： $H_{1}: \theta \neq \theta_{0}$
- 单侧检验
  左侧检验： $H_{0}: \theta = \theta_{0}$ ， $H_{1}: \theta \lt \theta_{0}$ （有充分的理由认为 $\theta \gt \theta_{0}$ 一定不发生）
  右侧检验： $H_{0}: \theta = \theta_{0}$ ， $H_{1}: \theta \gt \theta_{0}$ （有充分的理由认为 $\theta \lt \theta_{0}$ 一定不发生）
判断准则
$X_{1}, X_{2}, \dots, X_{n}$ $X_{1}, X_{2}, \dots, X_{n}$ 为总体 $X$ $X$ 的一个样本，构造相应统计量 $g(X_{1}, X_{2}, \dots, X_{n})$ $g (X_{1}, X_{2}, \dots, X_{n})$ ，将 $g(X_{1}, X_{2}, \dots, X_{n})$ $g (X_{1}, X_{2}, \dots, X_{n})$ 的样本空间分成两部分：
- 拒绝域（小概率事件区域）：样本点落入拒绝域拒绝 $H_{0}$ ，接受 $H_{1}$ ．
- 接受域（非小概率事件区域、置信区间）：若样本点没落入拒绝域，则只能接受 $H_{0}$ ．
判断的基本原理
小概率事件原则：认为小概率事件在一次抽样试验中不会发生．

两类错误

第一类错误（弃真）：当 $H_{0}$ 实际上为真时，检验结果却是拒绝 $H_{0}$ ．犯第一类错误的概率即为显著性水平 $\alpha$ ，即 $P(\text{拒绝 }H_{0}|H_{0}\text{ 为真})=\alpha$
第二类错误（采伪）：当 $H_{0}$ 实际上为不真时，检验结果却是接受 $H_{0}$ ．犯第二类错误的概率通常记为 $\beta$ ，即 $P(\text{接受 }H_{0}|H_{0}\text{ 不真})=\beta$

显著性检验：控制第一类错误 $\alpha$ 的大小．

假设检验的基本步骤

根据实际问题建立假设，常见的四个问题： $\left\{\begin{aligned} \mu \text{ 与 } \mu_{0} \text{ 是否一致} \\ \sigma^{2} \text{ 与 } \sigma_{0}^{2} \text{ 是否一致} \\ \mu_{1} \text{ 与 } \mu_{2} \text{ 是否一致} \\ \sigma_{1}^{2} \text{ 与 } \sigma_{2}^{2} \text{ 是否一致} \end{aligned}\right.$
选择统计量 $\left\{ \begin{aligned} \displaystyle Z&=\frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \\ \displaystyle t&=\frac{\overline{X}-\mu}{S / \sqrt{n}} \\ \displaystyle \chi^{2}&=\frac{(n-1) S^{2}}{\sigma^{2}} \\ \displaystyle F&=\frac{S_{1}^{2} / S_{2}^{2}}{\sigma_{1}^{2} / \sigma_{2}^{2}}\end{aligned}\right.$
计算统计量的值
确定拒绝域
结论

常用分布表

分布	分布列或密度函数	期望	方差
二项分布 $X \sim B(n, p)$ $0 < p < 1$	$P(X=k)=\mathrm{C}_{n}^{k} p^{k} q^{n-k} \\ k=0,1,2, \ldots, n$	$n p$	$n p(1-p)$
泊松分布 $X \sim P(\lambda)$ 或 $X \sim \pi(\lambda)$ $\lambda \gt 0$	$P(X=k)=\displaystyle\frac{\lambda^{k}}{k !} e^{-\lambda} \\ k=0,1,2, \ldots$	$\lambda$	$\lambda$
几何分布 $X \sim G(p)$ $p>0$	$P(X=k)=p(1-p)^{k-1} \\ k=1,2, \ldots$	$\displaystyle\frac{1}{p}$	$\displaystyle\frac{1-p}{p^2}$
指数分布 $X \sim E(\lambda)$ 或 $X \sim e(\lambda)$ $\lambda \gt 0$	$f(x)=\begin{cases}\lambda \mathrm{e}^{-\lambda x}, \quad & x \gt 0 \\0, & x \leq 0\end{cases}$	$\displaystyle\frac{1}{\lambda}$	$\displaystyle\frac{1}{\lambda^{2}}$
正态分布 $X \sim N(\mu, \sigma ^2)$ $-\infty \lt \mu \lt +\infty, \sigma \gt 0$	$f(x)=\displaystyle\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \\ -\infty < x < +\infty$	$\mu$	$\sigma^{2}$