概率论 | 随记

古典概型

随机事件

事件分类

不可能与零概率
- 不可能事件： $A=\emptyset$
- 零概率事件： $\mathrm P\{A\}=0$
- 不可能事件一定是零概率事件，反之不一定
必然与一概率
- 必然事件： $A=\Omega$
- 一概率事件： $\mathrm P\{A\}=1$
- 必然事件一定是一概率事件，反之不一定

事件运算

并： $A\cap B=A+B$ ，表示有一个事件发生
交： $A\cup B=AB$ ，表示事件同时发生
逆： $\overline{A}$ ，表示事件不发生
差： $A-B=A\overline B$ ， $A$ 发生且 $B$ 不发生的概率

事件关系

独立
- 满足 $\mathrm P\{AB\}=\mathrm P\{A\}\mathrm P\{B\}$
- 零概率事件和一概率事件与任何事件独立
- 如果 $A,B$ 的概率都不为零， $\mathrm P\{AB\}\ne 0\Rightarrow AB\ne \emptyset$ ，即不互斥
- 证明不独立：先看是否相关，如果不相关，就找两个事件 $AB$ ，证明 $A\subset B,B\ne \Omega$ ，从而 $\mathrm P(AB)=\mathrm P(A)\gt \mathrm P(A)\mathrm P(B)$ 从而不独立
互斥（互不相容）
- 满足 $AB=\emptyset$
- 不可能事件与任何事件互斥
- 如果 $A,B$ 的概率都不为零， $AB=\emptyset\Rightarrow \mathrm P\{AB\}= 0\ne \mathrm P\{A\}\mathrm P\{B\}$ ，即不独立
- 若还满足 $A+B=\Omega$ 则为对立
包含
- $A\subset B\Rightarrow \mathrm P\{A\}\le \mathrm P\{B\}$ ， $A$ 发生则 $B$ 必然发生
- $\mathrm P\{A\}= \mathrm P\{AB\},\mathrm P\{B\}= \mathrm P\{A+B\}$

概率公式

概率基本公式

加法定律
- $\mathrm P\{A+B\}=\mathrm P\{A\}+\mathrm P\{B\}-\mathrm P\{AB\}$
- $\mathrm P\{A+B+C\}=\mathrm P\{A\}+\mathrm P\{B\}+\mathrm P\{C\}-\mathrm P\{AB\}-\mathrm P\{AC\}-\mathrm P\{BC\}+\mathrm P\{ABC\}$
减法定律
- $\mathrm P\{A-B\}=\mathrm P\{A\overline{B}\}=\mathrm P\{A\}-\mathrm P\{AB\}$
逆运算
- $\mathrm P\{\overline{A}\}=1-\mathrm P\{A\}$
分配率
- $\mathrm P\{(A+B)C\}=\mathrm P\{AC+BC\}$
- $\mathrm P\{AB+C\}=\mathrm P\{(A+C)(B+C)\}$
对偶律
- $\mathrm P\{\overline{AB}\}=\mathrm P\{\overline{A}+\overline{B}\}$
- $\mathrm P\{\overline{A+B}\}=\mathrm P\{\bar{A}\bar{B}\}$

条件概率公式

定义
$\mathrm P\{B|A\}=\frac{\mathrm P\{AB\}}{\mathrm P\{A\}}$
性质
$\begin{align} &\mathrm P\{\overline{B}|A\}=1-\mathrm P\{B|A\}=1-\frac{\mathrm P\{AB\}}{\mathrm P\{A\}} \\ &\mathrm P\{A_1+A_2|B\}=\mathrm P\{A_1|B\}+\mathrm P\{A_2|B\}-\mathrm P\{A_1A_2|B\} \end{align}$

常用结论

$AB=\bar{A}\bar{B}$ ，或 $AB=\overline{AB}$ ，或 $A+B=\bar{A}+\bar{B}$ ，或 $A+B=\overline{A+B}$ ，则 $A,B$ 对立
$\mathrm P\{AB\}=\mathrm P\{A+B\}$ 则 $\mathrm P\{AB\}=\mathrm P\{A+B\}=\mathrm P\{A\}=\mathrm P\{B\}$
事件互斥说明样本空间没有交集；样本空间相同则事件相同
相互独立一定两两独立，反之不一定
相互独立的事件分为两组，每组进行任意运算，得到的两个事件依然独立

一维随机变量

分布

分布函数

定义
- 对于任意随机变量 $X$ ，记 $F(x)=\mathrm P\{X\le x\}$ 为 $X$ 的分布函数
  $x$ 为下分位数，表示 $\{X\le x\}$ 的发生概率；同理，上分位数 $y$ ，表示 $\{X\gt y\}$ 的发生概率
- $F(x)$ 表示事件 $\{X\le x\}$ 发生的概率
性质
- $F(x)$ 单调不减， $F(x)=F(x^+)$ ，即右连续
- $F(x)\in [0,1]$ ， $f(-\infty)=0$ ， $f(+\infty)=1$
- $\mathrm P\{X\lt x\}=F(x^-)$ ， $\mathrm P\{X= x\}=F(x)-F(x^-)$

概率分布

对于离散型随机变量，概率分布指分布律
- 离散型随机变量 $X$ ，用 $\mathrm P\{X= x_i\}=p_i$ 表示 $X$ 的分布律
对于连续型随机变量，概率分布值概率密度
- 连续型随机变量 $X$ ，用 $f(x)$ 表示 $X$ 的概率密度

复合分布

离散型随机变量
- 若 $\mathrm P\{X= x_i\}=p_i$ ，则 $Y=g(X)$ 的分布律为 $\mathrm P\{X= g(x_i)\}=p_i$
连续型随机变量
- 定义法：若 $X$ 的概率密度函数为 $f_X(x)$ ， $Y=g(X)$ ，则 $F_Y(y)=\mathrm P\{g(X)\le y\}=\int_{g(x) \le y} {f_X(x)} \mathrm{d} x$ ，求导得到 $f_Y(y)$
- 公式法：若 $y=g(x)$ 处处可导且单调，则
  $\begin{align} &F_Y(y)=\mathrm P\{Y\le y\}=\mathrm P\{g(X)\le y\}=\mathrm P\{x\le g^{-1}(y)\}=F(g^{-1}(y)) \\ &f_Y(y)=\left\{\begin{array}{ll}f_X\left(g^{-1}(y)\right)\left|(g^{-1}(y))^\prime\right| & y\in g(x)\text{的值域}\\0 & \text {其他 }\end{array}\right . \end{align}$
  $X$ 的分布函数 $F(x),x\in(a,b)$ 为单调增函数，则 $Y=F(X)$ 服从 $\mathrm U(0,1)$
非离散非连续随机变量
- 画出纵坐标为 $Y$ ，横坐标为 $X$ 的关系图
- 用 $y=y_0$ 截取关系图，位于直线下方的点的横坐标范围就是 $X$ 的范围，积分结果就是 $\mathrm P\{Y\lt y_0\}$

离散型

概念

定义
- 如果随机变量 $X$ 只能取有限值或无穷可列个值 $x_i$ ，则 $X$ 为离散型随机变量
性质
- $p_i\ge 0,\sum p_i=1$
- $F(x)=\sum_{x_i\lt x} p_i$
- $F(x)$ 在 $p_i$ 处右连续，在其它点处处连续
矩
- $\mathrm E(X)=\sum p_ix_i$
- $\mathrm E(g(X))=\sum p_ig(x_i)$
- $\mathrm D(X)=\mathrm E\left[X-\mathrm E(X)\right]^2=\sum p_i(x_i-\mu)^2=\sum p_ix_i^2-(\sum p_ix_i)^2$

0-1分布

定义
- $\mathrm P\{X=k\}=p^k(1-p)^{1-k}\quad (k=0,1)$ ，则 $X$ 服从参数为 $p$ 的0-1分布/两点分布
矩
- $\mathrm E(X)=p$
- $\mathrm D(X)=p(1-p)$

二项分布

定义
- $\mathrm P\{X=k\}=\mathrm C_n^k p^k(1-p)^{n-k}\quad (k=0,1,\cdots n)$ ，则 $X$ 服从参数为 $n,p$ 的二项分布
- 记为 $X\sim \mathrm B(n,p)$
性质
- $X \sim \mathrm B(n,p)\Leftrightarrow n-X\sim B(n,1-p)$
- $X \sim \mathrm B(n,p),Y \sim \mathrm B(m,p)$ ， $X,Y$ 独立，则 $X+Y \sim \mathrm B(n+m,p)$
- 最大概率项（用概率比值法）： $\begin{cases} \left \lfloor (n+1)p \right \rfloor & \text{ if } (n+1)p\text{不是整数}\\ (n+1)p\text{或}(n+1)p-1 & \text{ if }(n+1)p\text{是整数} \end{cases}$
矩
- $\mathrm E(X)=np$
- $\mathrm D(X)=np(1-p)$

几何分布

定义
- $\mathrm P\{X=n\}=p(1-p)^{n-1}\quad (k=0,1,\cdots)$ ，则 $X$ 服从参数为 $p$ 的几何分布
性质
- 无记忆性： $\mathrm P\{X=m+n|X\gt m\}=\mathrm P\{X=n\},\ \mathrm P\{X\gt m+n|X\gt m\}=\mathrm P\{X\gt n\}$
矩
- $\mathrm E(X)=\frac{1}{p}$
- $\mathrm D(X)=\frac{1-p}{p^2}$

超几何分布

定义
- $\mathrm P\{X=k\}=\frac{\mathrm C_{N_1}^k\mathrm C_{N_2}^{n-k}}{\mathrm C_{N_1+N_2}^n}\quad (k=0,1,\cdots,\min(n,N_1))$ ，则 $X$ 服从超几何分布
- 从 $N_1$ 个白球和 $N_2$ 个黑球中一次性拿 $n$ 个球，抽到 $k$ 个白球的概率为 $\mathrm P\{X=k\}$
矩
- $\mathrm E(X)=\frac{nN_1}{N_1+N_2}$
- $\mathrm D(X)=\frac{nN_1N_2(N_1+N_2-n)}{(N_1+N_2)^2(N_1+N_2-1)}$

泊松分布

定义
- $\mathrm P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda}\quad (k=0,1,\cdots)$ ，则 $X$ 服从参数为 $\lambda$ 泊松分布
- 记为 $X\sim \mathrm P(\lambda)$
性质
- $X \sim \mathrm P(\lambda_1),Y \sim \mathrm P(\lambda_2)$ ， $X,Y$ 独立，则 $X+Y \sim \mathrm P(\lambda_1+\lambda_2)$
- 若 $X\sim \mathrm B(n,p)$ ，当 $n$ 充分大、 $p$ 充分小、 $np$ 适中时， $\mathrm B(n,p)\approx \mathrm P(np)$
矩
- $\mathrm E(X)=\lambda$
- $\mathrm D(X)=\lambda$

连续型

概念

定义
- 若随机变量 $X$ 的分布函数 $F(x)$ 连续，且存在非负可积函数 $f(x)$ ，满足
  $F(x)=\mathrm P\{X\le x\}=\int_{-\infty}^xf(t)\mathrm d t$
  则 $X$ 为连续型随机变量
性质
- $f(x)\ge0,\int_{-\infty}^{+\infty}f(t) \mathrm d t=1$
- $\mathrm P\{x_1\lt X\le x_2\}=\mathrm P\{x_1\le X\le x_2\}=\mathrm P\{x_1\le X\lt x_2\}=\mathrm P\{x_1\lt X\lt x_2\}=\int_{x_1}^{x_2}f(t) \mathrm d t$
- 若 $f(x)$ 在 $x$ 连续，则 $F^\prime(x)=f(x)$
矩
- $\mathrm E(X)=\int_{-\infty}^{+\infty}xf(x)\mathrm d x$
- $\mathrm E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)\mathrm d x$
- $\mathrm D(X)=\mathrm E\left[X-\mathrm E(X)\right]^2=\int_{-\infty}^{+\infty}(x-\mu)^2f(x)\mathrm d x=\int_{-\infty}^{+\infty}x^2f(x)\mathrm d x-(\int_{-\infty}^{+\infty}xf(x)\mathrm d x)^2$

均匀分布

定义
{f(x)}=\left\{\begin{array}{ll}\frac{1}{b-a} & a\lt x\lt b \\0 & \text {其他}\end{array}\right.\quad {F(x)}=\left\{\begin{array}{ll}0 & x\lt a \\ \frac{x-a}{b-a} & a \leqslant x\lt b \\1 & x \geqslant b \end{array}\right.
- 记为 $X \sim \mathrm U(a, b)$
矩
- $\mathrm E(X)=\frac{a+b}{2}$
- $\mathrm D(X)=\frac{(b-a)^2}{12}$

指数分布

定义
{f(x)}=\left\{\begin{array}{ll}\lambda \mathrm{e}^{-\lambda x} & x>0 \\0 & x \leqslant0\end{array}\right.\quad {F(x)}=\left\{\begin{array}{ll}1-\mathrm{e}^{-\lambda x} & x>0 \\0 & x \leqslant0\end{array}\right.
- 记为 $X \sim \mathrm E(\lambda)$
性质
- $\mathrm{P}\{X\gt x\}=\mathrm{e}^{-\lambda x}$
- 无记忆性： $\mathrm{P}\{X\gt s+t|X\gt s\}=\mathrm{P}\{X\gt t\}$
矩
- $\mathrm E(X)=\frac{1}{\lambda}$
- $\mathrm D(X)=\frac{1}{\lambda^2}$

正态分布

定义
{f(x)}=\frac{1}{\sqrt{2\pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^2}{2\sigma^2}}\quad{F(x)}=\frac{1}{\sqrt{2\pi} \sigma} \int_{-\infty}^x \mathrm{e}^{-\frac{(t-\mu)^2}{2\sigma^2}} \mathrm{~d} t
- 记为 $X \sim \mathrm N(\mu,\sigma^2)$
- 定义 $\Phi\left(\frac{x-\mu}{\sigma}\right) = {F(x)}=\mathrm{P}\{X \leqslant x\}$ ， $\Phi(x)$ 为标准正态分布的分布函数
- 定义 $\frac{1}{\sigma}\phi\left(\frac{x-\mu}{\sigma}\right) ={F^\prime(x)}= {f(x)}$ ， $\phi(x)$ 为标准正态分布的概率密度（ $[\Phi(g(x))]^\prime=g(x)^\prime\phi(g(x))$ ）
性质
- 最大值 $f(\mu)=\frac{1}{\sqrt{2\pi}\sigma}$ ，驻点 $\mu$ ，拐点 $\mu+\sigma$
- $\mathrm N(\mu_X,\sigma_X^2)\pm\mathrm N(\mu_Y,\sigma_Y^2)=\mathrm N(\mu_X\pm\mu_Y,\sigma_X^2+\sigma_Y^2)$ ，前提是独立
- $a+b\mathrm N(\mu,\sigma^2)=\mathrm N(a+b\mu,b^2\sigma^2)$
- $\Phi(-x)=1-\Phi(x),\phi(-x)=\phi(x)$
- $\int_{0}^{+\infty}x^2\phi(x)dx=\frac{1}{2},\int_{0}^{+\infty}x\phi(x)dx=\frac{1}{\sqrt{2\pi}},\int_{0}^{+\infty}\phi(x)dx=\frac{1}{2}$
矩
- $\mathrm E(X)=\mu$
- $\mathrm D(X)=\sigma^2$
- $\nu_k=\mathrm E\left[X-\mathrm E(X)\right]^k=\begin{cases} (k-1)!!\sigma^k & \text{ if }\ \text{k为偶数} \\ 0 & \text{ if }\ \text{k为奇数} \end{cases}$
- $\mu_k=\mathrm E\left(X^k\right)=\mathrm E\left[X-\mathrm E(X)+\mathrm E(X)\right]^k$ ，利用 $\nu_k$ 的展开式递推

卡方分布

定义
- $X_1,\cdots,X_n$ 独立且均服从标准正态分布 $\mathcal{N}$ ，则
  $\chi^2(n)=\sum X_i^2$
  为自由度为 $n$ 的卡方分布
- 若 $\mathrm P\{\chi^2(n)\gt\chi^2_\alpha(n)\}=\alpha$ ，记 $\chi^2_\alpha(n)$ 为 $\chi^2(n)$ 的上 $\alpha$ 位分位点
性质
- $\mathcal{N}^2\sim\chi^2(1)$
- 若 $\chi^2(n_1),\chi^2(n_2)$ 独立， $\chi^2(n_1)+\chi^2(n_2)=\chi^2(n_1+n_2)$
矩
- $\mathrm E\left[\chi^2(n)\right]=n$
- $\mathrm D\left[\chi^2(n)\right]=2n$

t分布

定义
- 若 $\mathcal N,\chi^2(n)$ 独立，则
  $\tau(n)=\frac{\mathcal N}{\sqrt{\chi^2(n)/n}}$
- 若 $\mathrm P\{\tau(n)\gt\tau_\alpha(n)\}=\alpha$ ，记 $\tau_\alpha(n)$ 为 $\tau$ 的上 $\alpha$ 位分位点
性质
- $\tau_{1-\alpha}(n)=-\tau_\alpha(n)$
- $\tau(n)\xrightarrow[n]{L} \mathcal N$
- $\tau^2(n)\sim \mathcal F(1,n)$
矩
- $\mathrm E\left[\tau(n)\right]=0$
- $\mathrm D\left[\tau(n)\right]=\frac{n}{n-2}$

F分布

定义
- 若 $\chi^2(m),\chi^2(n)$ 独立，则
  $\mathcal F(m,n)=\frac{\chi^2(m)/m}{\chi^2(n)/n}$
- 若 $\mathrm P\{\mathcal F(m,n)\gt\mathcal F_\alpha(m,n)\}=\alpha$ ，记 $\mathcal F_\alpha(m,n)$ 为 $\mathcal F(m,n)$ 的上 $\alpha$ 位分位点
性质
- $\frac{1}{\mathcal F(m,n)}\sim\mathcal F(n,m)$
- $\mathcal F_{1-\alpha}(m,n)=\frac{1}{\mathcal F_{\alpha}(n,m)}$
矩
- $\mathrm E\left[\mathcal F(m,n)\right]=\frac{n}{n-2}$
- $\mathrm D\left[\mathcal F(m,n)\right]=\frac{2n^2(m+n-2)}{m(n-2)^2(n-4)}$

二维随机变量

分布

联合分布

定义
- 对于二维随机变量 $(X,Y)$ ，对于任意实数 $x,y$ ，称二元函数 $F(x,y)=\mathrm{P}\{X \le x, Y \le y\}$ 为 $X$ 和 $Y$ 的联合分布函数，或 $(X,Y)$ 的概率分布
- $F(x,y)$ 表示 $\{X \le x\}$ 与 $\{Y \le y\}$ 同时发生的概率
性质
- $F(-\infty,-\infty)=F(-\infty,y)=F(x,-\infty)=0$ ， $F(+\infty,+\infty)=1$
- $F(x,y)=F(x^+,y)\le F(x+\delta x,y)$ ， $F(x,y)=F(x,y^+)\le F(x,y+\delta y)$ ，即对于 $x$ 和 $y$ 均右连续且单调不减
- $G=\left\{(x, y) \mid x_1 \lt X \le x_2, y_1\le Y \le y_2\right\}$ ， $\mathrm{P}\{(X, Y) \in G\}=F\left(x_2, y_2\right)-F\left(x_2, y_1\right)+F\left(x_1, y_1\right)-F\left(x_1, y_2\right)\ge0$
- $F_{aX,bY}(x,y)=F_{X,Y}(\frac{x}{a},\frac{y}{b})$ ， $F(ax,by)\rightarrow abf(ax,by)$
对于复杂联合分布，通过事件运算化简
$\begin{align} &\mathrm{P}\{\max(X,Y)\le z_1,\min(X,Y)\le z_2\} \\ =&\mathrm{P}\{\max(X,Y)\le z_1,\overline{\min(X,Y)\gt z_2}\} \\ =&\mathrm{P}\{\max(X,Y)\le z_1\}-\mathrm{P}\{\max(X,Y)\le z_1,\min(X,Y)\gt z_2\} \\ =&\mathrm{P}\{X\le z_1,Y\le z_1\}-\mathrm{P}\{z_2\lt X\le z_1,z_2\lt Y\le z_1\} \end{align}$

边缘分布

定义
- $F_X(x)=\mathrm{P}\{X \le x\}=\mathrm{P}\{X \le x, Y\lt +\infty\}={F(x,+\infty)}$ 为关于 $X$ 的边缘分布函数
- $F_Y(y)=\mathrm{P}\{Y \le y\}=\mathrm{P}\{X \lt +\infty, Y\le y\}={F(+\infty,y)}$ 为关于 $Y$ 的边缘分布函数
- $f_X(x)=\mathrm{P}\{X = x\}=\mathrm{P}\{X = x, Y\lt +\infty\}={f(x,+\infty)}$ 为关于 $X$ 的边缘密度函数
- $f_Y(y)=\mathrm{P}\{Y = y\}=\mathrm{P}\{X \lt +\infty, Y= y\}={f(+\infty,y)}$ 为关于 $Y$ 的边缘密度函数
性质
- $(X,Y)$ 的分布函数可以确定 $X$ 和 $Y$ 的边缘分布函数
- $X$ 和 $Y$ 的边缘分布函数可以确定 $(X,Y)$ 的分布函数的前提是 $X$ 和 $Y$ 相互独立

条件分布

定义
- 变量分布与另一个变量取值有关，如 $X$ 服从0-2均匀分布， $Y$ 服从0-X均匀分布
- 条件分布函数
  $F_{X \mid Y}(x \mid y)=\mathrm P\{X\le x\mid Y= y\}\quad\quad F_{Y \mid X}(y \mid x)=\mathrm P\{Y\le y\mid X= x\}$
- 条件密度函数
  $f_{X \mid Y}(x \mid y)=\mathrm P\{X= x\mid Y= y\}\quad\quad f_{Y \mid X}(y \mid x)=\mathrm P\{Y= y\mid X= x\}$
性质
- 密度乘法公式： $f(x,y)=f_X(x) f_{Y \mid X}(y \mid x)=f_Y(y) f_{X \mid Y}(x \mid y) \quad\quad\left(f_X(x)>0,f_Y(y)>0\right)$

独立分布

判断
- 对于二维离散型随机变量：对任意 $x_i,y_j$ ，都有 $\mathrm{P}\left\{X=x_i, Y=y_j\right\}=\mathrm{P}\left\{X=x_i\right\} \mathrm{P}\left\{Y=y_j\right\}$ ，即 $p_{i j}=p_{i \cdot} p_{\cdot j}$
- 对于二维连续型随机变量：对 $f(x,y)$ 上任意连续点，都有 ${f(x, y)}=f_X(x) f_Y(y)$ 或 ${F(x, y)}=F_X(x) F_Y(y)$
- 对于二维混合型随机变量：对任意 $x_i,y_j$ ，都有 $\mathrm{P}\left\{X=x_i, Y\le y_j\right\}=\mathrm{P}\left\{X=x_i\right\}\mathrm{P}\left\{Y\le y_j\right\}$
性质
- 定义域为矩形才有可能独立
- 二维离散型随机变量独立，则联合分布律的行列成比例
- 两个随机变量独立，则条件分布等于其边缘分布
- 几个相互独立的变量，它们各自的任意复合分布也相互独立

复合分布

求Z=g(X,Y)的分布
- 确定 $(X,Y)$ 的定义域
- 判断 $F_Z(z)=\mathrm P\{Z\le z\}=\mathrm P\{g(X,Y)\le z\}$ 恒成立、恒不成立时 $z$ 的取值范围，得到 $F_Z(z)$ 的一部分
- 绘制 $g(X,Y)=z$ 的图像，确定 $(X,Y)$ 的定义域中落在 $g(X,Y)\le z$ 的部分，对该区域积分得到 $F_Z(z)$ 的其余部分
- 对 $F_Z(z)$ 求导得到 $f_Z(z)$
性质
- $\mathrm E(Z)=\iint g(x,y)f(x,y)dxdy$
- $X_i$ 独立同分布，计算 $\sum X_i$ 时，多次使用卷积公式

离散型

定义
- 对于离散型随机变量 $X$ 与 $Y$ ，则 $(X,Y)$ 为二维离散型随机变量
- 联合分布律为 $\mathrm{P}\left\{X=x_i, Y=y_j\right\}=p_{i j}$
边缘分布
$\begin{align} &p_{i \cdot}=F_X(x_i)=\sum_j\mathrm{P}\left\{X=x_i, Y=y_j \right\}=\sum_j p_{ij} \\ &p_{\cdot j}=F_Y(y_j)=\sum_i\mathrm{P}\left\{X=x_i, Y=y_i \right\}=\sum_i p_{ij} \end{align}$
条件分布
$\begin{align} &\mathrm{P}\left\{X=x_i \mid Y=y_j\right\}=\frac{\mathrm{P}\left\{X=x_i, Y=y_j\right\}}{\mathrm{P}\left\{Y=y_j\right\}}=\frac{p_{i j}}{p_{\cdot j}} \\ &\mathrm{P}\left\{Y=y_j \mid X=x_i\right\}=\frac{\mathrm{P}\left\{X=x_i, Y=y_j\right\}}{\mathrm{P}\left\{X=x_i\right\}}=\frac{p_{i j}}{p_{i \cdot}} \end{align}$

连续型

概念

定义
- 设二维随机变量 $(X, Y)$ 的分布函数为 ${F(x, y)}$ ，如果存在非负的可积函数 ${f(x, y)}$ 使对于任意 $x, y$ ，有
  ${F(x, y)}=\int_{-\infty}^x \int_{-\infty}^y {f(u, v)} \mathrm{d} u \mathrm{~d} v$
- 则称 $(X, Y)$ 为二维连续型随机变量， $f(x,y)$ 为联合概率密度
- 若 ${f(x, y)}$ 在点 $(x, y)$ 处连续，则有 $\frac{\partial^2}{\partial x \partial y}F(x, y)={f(x, y)}$
- $\mathrm{P}\{g(X, Y) \gt0\}=\iint_{\left\{(x, y) \mid g(x,y)\gt0\right\}} {f(x, y)} \mathrm{d} x \mathrm{d} y$
边缘分布
\begin{align} &F_X(x)={F(x,+\infty)}=\int_{-\infty}^x\left[\int_{-\infty}^{+\infty} {f(x, y)} \mathrm{d} y\right] \mathrm{d} x\quad &f_X(x)=\int_{-\infty}^{+\infty} {f(x, y)} \mathrm{d} y \\ &F_Y(y)={F(+\infty,y)}=\int_{-\infty}^y\left[\int_{-\infty}^{+\infty} {f(x, y)} \mathrm{d} x\right] \mathrm{d} y\quad &f_Y(y)=\int_{-\infty}^{+\infty} {f(x, y)} \mathrm{d} x \end{align}
- $\mathrm{P}\{g(X) \gt0\}=\iint_{\left\{x \mid g(x)\gt0\right\}} {f(x, y)} \mathrm{d} x \mathrm{d} y=\int_{\left\{x \mid g(x)\gt0\right\}} f_X(x) \mathrm{d} x$
条件分布
\begin{align} &F_{X \mid Y}(x \mid y)=\int_{-\infty}^x \frac{{f(t, y)}}{f_Y(y)} \mathrm{d} t\quad&f_{X \mid Y}(x \mid y)=\frac{{f(x, y)}}{f_Y(y)} \\ &F_{Y \mid X}(y \mid x)=\int_{-\infty}^y \frac{{f(x, t)}}{f_X(x)} \mathrm{d} t\quad&f_{Y \mid X}(y \mid x)=\frac{{f(x, y)}}{f_X(x)} \end{align}
- 直线与概率密度定义域的交集就是条件密度的定义域
- 注意排除边缘概率等于0的点
求非独立时的联合分布函数
- 已知 $(X,Y)$ 的联合概率密度 $f(x,y)$ ，求 $(g(X),h(Y))$ 的联合概率密度
  根据 $F_{(g(X),h(Y))}(x,y)=\mathrm P\{g(X)\le x,h(Y)\le y\}$ ，确定 $X,Y$ 的取值范围 $D_X,D_Y$ ，从而 $F_{(g(X),h(Y))}(x,y)=\int_{D_X}dx\int_{Dy}f(x,y)dy$
- 已知独立变量 $X,Y$ 的概率密度 $f(x,y)$ ，求 $(g(X,Y),h(X,Y))$ 的联合概率密度
  $F_{((g(X,Y),h(X,Y)))}(x,y)=\mathrm P\{g(X,Y)\le x,h(X,Y)\le y\}=\mathrm P\{(g(X,Y)\le x)(h(X,Y)\le y)\}$ ，用概率公式化简，最终带入 $F_X(x),F_Y(y)$ ，从而 $f_{(g(X,Y),h(X,Y))}(x,y)=\frac{\partial^2}{\partial x \partial y}F_{(g(X,Y),h(X,Y))}(x,y)$
- 注意确定定义域分段时，不仅要单独看 $x,y$ ，还要考虑它们的相互关系

二维正态分布

定义
$f(x,y)\sim\mathrm N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_1)^2}{\sigma^2_1}+\frac{(y-\mu_2)^2}{\sigma^2_2}-\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}\right]}$
性质
- 独立性： $X,Y$ 相互独立 $\Leftrightarrow \rho=0$
- 若 $\begin{vmatrix} a & b\\ c &d\end{vmatrix}\ne 0$ ，则 $(aX+bY,cX+dY)$ 也服从二维正态分布

混合型

定义
- 设 $X$ 为离散型随机变量， $Y$ 为混合型随机变量，则 $(X,Y)$ 为二维混合型随机变量
- 联合分布函数
  $F(x,y)=\sum_{x_i\in X}\mathrm P\{X=x_i\} \mathrm E(\{y_i|y_i\in Y,y_i\le y\}|X=x_i)$
- 复合分布函数 $Z=g(X,Y)$
  $F_Z(z)=\mathrm P\{g(X,Y)\le z\}=\sum_{x_i\in X}P\{X=x_i\}P\{g(x_i,Y)\le z\}$
联合分布
- 求每一个部分的分布和定义域，合成得到总的分布和定义域

数字特征

期望和方差

期望的性质
- 设 $C$ 是常数，则有 $\mathrm{E}(C)=C$
- 设 $X$ 是随机变量， $C$ 是常数，则有 $\mathrm{E}(C X)=C \mathrm{E}(X)$
- 设 $X$ 和 $Y$ 是两个任意随机变量，则有 $\mathrm{E}(X \pm Y)=\mathrm{E}(X) \pm \mathrm{E}(Y)$
- 设 $X$ 和 $Y$ 是两个独立随机变量，则有 $\mathrm{E}(X Y)=\mathrm{E}(X) \mathrm{E}(Y)$
方差的性质
- $\mathrm{D}(X)=\mathrm{E}\left\{[X-\mathrm{E}(X)]^2\right\}=\mathrm{E}\left(X^2\right)-\mathrm{E}^2(X)$
- 设 $C$ 是常数，则 $\mathrm{D}(C)=0$ ；反过来不成立，只能得到 $\mathrm{P}\{X=\mathrm{E}(X)\}=1$
- 设 $X$ 是随机变量， $C$ 是常数，则有 $\mathrm{D}(X+C)=\mathrm{D}(X),\mathrm{D}(C X)=C^2\mathrm{D}(X)$
- 设随机变量 $X$ 与 $Y$ 相互独立，则有 $\mathrm{D}(X \pm Y)=\mathrm{D}(X)+\mathrm{D}(Y)$

协方差和相关系数

协方差的性质
- $\mathrm{Cov}(X, Y)=\mathrm{E}\{[X-\mathrm{E} (X)][Y-\mathrm{E} (Y)]\}=\mathrm{E}(X Y)-\mathrm{E}(X) \mathrm{E}(Y)$
- $\mathrm{D}(X \pm Y)=\mathrm{D} (X)+\mathrm{D} (Y) \pm2\mathrm{Cov}(X, Y)$
- $\mathrm{Cov}(X, Y)=\mathrm{Cov}(Y, X)$
- $\mathrm{Cov}(X, X)=\mathrm{D}(X)$
- $\mathrm{Cov}(a X, b Y)=a b \mathrm{Cov}(X, Y)$
- $\mathrm{Cov}(A+B, C-D)=\mathrm{Cov}(A,C)-\mathrm{Cov}(A,D)+\mathrm{Cov}(B,C)-\mathrm{Cov}(B,D)$
相关系数的性质
- $\rho_{X Y}=\frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{D} (X)} \sqrt{\mathrm{D} (Y)}}$
- $\left|\rho_{X Y}\right| \leqslant1$ ，取等的充要条件是存在常数 $a,b$ ，使得 $\mathrm{P}\{Y=a X+b\}=1$ ， $a\gt 0$ 时 $\rho=1$ , $a\lt 0$ 时 $\rho=-1$
- $\rho_{X Y}=0\ \Leftrightarrow\ X$ 与 $Y$ 不相关 $\ \Leftrightarrow\ \mathrm E(XY)=\mathrm E(X)\mathrm E(Y)\ \Leftrightarrow\ \mathrm D(X\pm Y)=\mathrm D(X)+\mathrm D(Y)$
- 独立一定不相关，不相关不一定独立
- 对于二维正态分布和二维0-1分布，独立等于不相关

随机变量的矩

零点矩 $\mu_k$
$\mu_k=\mathrm E\left(X^k\right)$
中心矩 $\nu_k$
$\nu_k=\mathrm E\left[X-\mathrm E(X)\right]^k$

数理统计

随机变量序列

切比雪夫不等式

定义
$\begin{align} &\mathrm P\{|X-\mathrm E(X)|\ge \varepsilon\}\le \frac{\mathrm D(X)}{ \varepsilon^2} \\ &\mathrm P\{|X-\mathrm E(X)|\lt \varepsilon\}\ge 1- \frac{\mathrm D(X)}{ \varepsilon^2} \end{align}$
作用
- 估计 $X$ 落在 $(EX-\varepsilon,EX+\varepsilon)$ 的概率

依概率收敛

定义
- 对于随机变量序列 $Y_1,\cdots,Y_n\cdots$ ，若对于常数 $a$ ，对于任意正数 $\varepsilon$ ，有
  $\lim_{n\rightarrow\infty}\mathrm P\{\left|Y_n-a\right|\lt\varepsilon\}=1$
  则 $Y_1,\cdots,Y_n\cdots$ 依概率收敛为 $a$ ，记作 $Y_n\overset{P}{\rightarrow}a$
- 表示实验次数越多， $X_n$ 落在 $(a-\varepsilon,a+\varepsilon)$ 的概率越趋向于1
性质
- $X_n\overset{P}{\rightarrow}x,Y_n\overset{P}{\rightarrow}y$ ，若 $g(x,y)$ 在 $(a,b)$ 连续，则
  $g(X_n,Y_n)\overset{P}{\rightarrow}g(x,y)$

大数定律

切比雪夫大数定律
- 随机变量之间独立，随机变量的期望存在、方差存在且有限
- 样本均值 $\overset{P}{\rightarrow}$ 对应的随机变量期望的均值
伯努利大数定律
- 对于二项分布 $X_n\sim\mathrm B(n,p)$
- 样本中实验发生概率 $\overset{P}{\rightarrow}p$
辛钦大数定律
- 考虑切比雪夫大数定律中，若随机变量同分布
- $\overline X \overset{P}{\rightarrow}\mathrm E(X_i)$
- 更进一步，由独立性的性质可得 $\overline{g(X)} \overset{P}{\rightarrow}\mathrm E(g(X_i))$

中心极限定理

列维-林德伯格定理
- 随机变量之间独立同分布，随机变量的期望存在、方差存在且有限
- 期望为 $\mu$ ，方差为 $\sigma^2$ ，则 $\overline X\xrightarrow[n]{L} \mathrm N(\mu,\frac{\sigma^2}{n})$
棣莫弗-拉普拉斯定理
- 若 $X_n\sim\mathrm B(n,p)$ ，随着 $n$ 增大， $X_n$ 趋向正态分布
- 则 $X_n\xrightarrow[n]{L} \mathrm N(np,np(1-p))$

统计量

总体与样本

相互独立且与总体X同分布的随机变量X_1,\cdots,X_n称为样本
- $n$ 为样本容量， $x_1,\cdots,x_n$ 为样本值，或 $X_1,\cdots,X_n$ 的观测值，可以来源于 $X$ 的 $n$ 次简单随机抽样
- 样本的联合分布函数 $F_{X_1,\cdots,X_n}(x_1,\cdots,x_n)=\prod F_X(x_i)$
- 样本的概率密度函数 $f_{X_1,\cdots,X_n}(x_1,\cdots,x_n)=\prod f_X(x_i)$
- 样本的分布律 $\mathrm P\{X_1=x_1,\cdots,X_n=x_n\}=\prod \mathrm P\{X=x_i\}$
样本的值域为分布的非0区域

统计量的性质

统计量的概念
- $g(X_1,\cdots,X_n)$ 为 $X_1,\cdots,X_n$ 的一个统计量， $g(x_1,\cdots,x_n)$ 为统计量的一个观测值
- 统计量也是随机变量
常用统计量
- 样本均值 $\overline X=\frac{1}{n}\sum X_i$
- 样本方差 $S^2=\frac{1}{n-1}\sum (X_i-\overline X)^2$
- 样本协方差 $S^2_{XY}=\frac{(n_X-1)S^2_X+(n_Y-1)S^2_Y}{n_X+n_Y-2}$
- 样本原点矩 $A_k=\frac{1}{n}\sum X_i^k$
- 样本中心矩 $B_k=\frac{1}{n}\sum (X_i-\overline X)^k$
统计量与实际值
- $\mathrm E\left(X_i\right)=\mathrm E\left(X\right)=\mu,\mathrm D\left(X_i\right)=\mathrm D\left(X\right)=\sigma^2$
- $\mathrm E\left(\overline X\right)=\mu,\mathrm D\left(\overline X\right)=\frac{\sigma^2}{n}$
- $\mathrm E\left(S^2\right)=\sigma^2,\mathrm D\left(S^2\right)=\frac{\nu_4}{n}-\frac{n-3}{n(n-1)} \sigma^4$

统计量的分布

若X\sim\mathrm N(\mu,\sigma^2)，则
- $\overline X$
  $\frac{\overline X-\mu}{\sigma/\sqrt n}\sim\mathcal N\quad\quad \frac{\overline X-\mu}{S/\sqrt n}\sim\tau(n-1)$
- $S^2$
  $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$
- 且 $\overline X$ 与 $S^2$ 相互独立
若X\sim\mathrm N(\mu_X,\sigma^2_X),Y\sim\mathrm N(\mu_Y,\sigma^2_Y)且X,Y独立，则
- $\overline X-\overline Y$
  $\begin{align} &\frac{(\overline X-\overline Y)-(\mu_X-\mu_Y)}{\sqrt{\sigma_X^2/n_X+\sigma_Y^2/n_Y}}\sim\mathcal N \\ 若总体同方差\ &\frac{(\overline X-\overline Y)-(\mu_X-\mu_Y)}{s_{XY}\sqrt{1/n_X+1/n_Y}}\sim\tau(n_X+n_Y-2) \end{align}$
- ${S^2_X}/{S^2_Y}$
  $\frac{{S^2_X}/{S^2_Y}}{\sigma^2_X/\sigma^2_Y}\sim\mathcal F(n_X-1,n_Y-1)$
- 若总体同方差， $S^2_{XY}$
  $\frac{(n_X+n_Y-2)S^2_{XY}}{\sigma^2}\sim\chi^2(n_X+n_Y-2)$

参数估计

矩估计法

计算总体的1\sim k阶原点矩
- 离散型
  $\mu_l\left(\theta_1, \theta_2, \cdots, \theta_k\right)=\mathrm{E}\left(X^l\right)=\sum_{i=1}^{\infty} x_i{ }^l p\left(x_i ; \theta_1, \theta_2, \cdots, \theta_k\right)\quad l=1,2, \cdots, k$
- 连续型
  $\mu_l\left(\theta_1, \theta_2, \cdots, \theta_k\right)=\mathrm{E}\left(X^l\right)=\int_{-\infty}^{+\infty} x^l f\left(x ; \theta_1, \theta_2, \cdots, \theta_k\right) \mathrm{d} x\quad l=1,2, \cdots, k$
令样本矩等于总体矩
\overline{X_i^l}=\mathrm{E}\left(X^l\right) \quad(l=1,2, \cdots, k)
- 得到关于 $\theta_1, \theta_2, \cdots, \theta_k$ 的 $k$ 个方程
- 如果某一个等式中不含 $\theta_i$ ，则需要计算 $k+1$ 阶原点矩然后令样本矩等于总体矩，重复此步直到得到新的关于 $\theta_i$ 的等式
- 多个解时，利用 $\mathrm E(X)=\bar X,\mathrm D(X)=\mathrm E(X^2)-\mathrm E^2(X)=S^2$ 求解
求解
- 得到 $\theta_l$ 的矩估计量 $\hat{\theta}_l\left(X_1, \cdots, X_n\right)$
- $\hat{\theta}_l\left(x_1, \cdots, x_n\right)$ 为矩估计值
性质
- 若 $\hat{\theta}$ 是 ${\theta}$ 的矩估计量，则 $g(\hat{\theta})$ 不是 $g(\theta)$ 的矩估计量
- $\mathrm E(X)$ 的矩估计量为 $\bar X$ ； $\mathrm D(X)$ 的矩估计量为 $\frac{n-1}{n}S^2$
- 根据 $\hat\theta$ 与 $X_i$ 的关系确定 $F_{\hat\theta}(\theta),f_{\hat\theta}(\theta)$

最大似然估计

构造似然函数
- 离散型
  $L(\theta)=\prod p(x_i,\theta)$
- 连续型
  $L(\theta)=\prod f(x_i,\theta)$
- 表示样本观测值为 $x_1,\cdots,x_n$ 的概率
找到使似然函数最大的\theta
\frac{\mathrm{d} \ln L(\theta)}{\mathrm{d} \theta}=0
- 得到 $\theta$ 的极大似然估计值 $\hat{\theta}_l\left(x_1, \cdots, x_n\right)$
- $\hat{\theta}_l\left(X_1, \cdots, X_n\right)$ 为极大似然估计量
- 若包含多个要估计的量则为
  $\frac{\partial \ln L(\mu,\sigma^2)}{\partial \mu}=0\quad\quad\frac{\partial \ln L(\mu,\sigma^2)}{\partial \sigma^2}=0$
特殊情况
- $\ln L(\theta)$ 单调递增，则 $\theta$ 越大越好，由于样本 $x_1,\cdots,x_n$ 有范围，因此 $\hat{\theta}=\min(x_1,\cdots,x_n)$
- $\ln L(\theta)$ 单调递减，则 $\theta$ 越小越好，由于样本 $x_1,\cdots,x_n$ 有范围，因此 $\hat{\theta}=\max(x_1,\cdots,x_n)$
- 对于分段 $L(\theta)$ ，则列出 $(X_i)$ 在不同取值下的似然函数，该函数取最大值时的参数就是估计值，从而得到估计值关于 $(X_i)$ 的分段关系式
  如求出来的估计值不在参数范围内，用该方法
- 对于常函数 $L(\theta)$ ，任何满足定义域的 $(x_i)$ 都取到最大值，因此 $x_i\in [a,b]$ ，满足 $\min (x_i)\ge a,\max(x_i)\le b$ 的 $g(x_i)$ 都是估计值
  这说明最大似然估计量不一定唯一，也有可能不存在
性质
- 若 $\hat{\theta}$ 是 ${\theta}$ 的极大似然估计量，则 $g(\hat{\theta})$ 也是 $g(\theta)$ 的极大似然估计量
- 根据 $\hat\theta$ 与 $X_i$ 的关系确定 $F_{\hat\theta}(\theta),f_{\hat\theta}(\theta)$

其它

伽马函数

\begin{align} &\int_0^{+\infty} x^{\alpha}e^{-x}\mathrm d x=\Gamma(\alpha + 1)=\alpha ! \\ &\left(\frac{1}{2}\right)!=\frac{\sqrt\pi}{2},\left(-\frac{1}{2}\right)!=\sqrt\pi \end{align}

卷积公式

求Z=g(X,Y)的分布
- 用 $Z,X$ 表示 $Y$ ，即 $Y=h(Z,X)$
- 则 $\iint_Df(x,y)dxdy=\iint_{D^\prime}f(x,h)\left|\frac{\partial h}{\partial z} \right|dxdz$
- 故 $(X,Z)$ 的概率密度为 $f(x,h)\left|\frac{\partial h}{\partial z} \right|$
- 故 $f_Z(z)=\int_{-\infty}^{+\infty} f(x,h)\left|\frac{\partial h}{\partial z} \right|dx$
- 同理也可以用 $Z,Y$ 表示 $X$
确定积分域
- 积分域是使得 $f(x,h)$ 不为零的范围，因此 $x$ 位于 $f_X(x)$ 的定义域且 $h$ 位于 $f_Y(y)$ 的定义域
- $x$ 位于 $f_X(x)$ 定义域得与 $z$ 无关的固定区间， $h$ 位于 $f_Y(y)$ 的定义域与 $z$ 有关的动态区间，积分域就是这两区间的交集
- 具体方法：在 $z,x$ 为横纵坐标的坐标系中根据条件画出有效域，往 $z$ 轴投影就是 $z$ 的范围，从下往上穿线就是 $x$ 的积分域
常见组合
- $Z=aX+bY$ ： $f_Z(z)=\int_{-\infty}^{+\infty} f\left(x,\frac{1}{b}z-\frac{a}{b}x\right)\left|\frac{1}{b} \right|dx=\int_{-\infty}^{+\infty} f\left(\frac{1}{a}z-\frac{b}{a}y,y\right)\left|\frac{1}{a} \right|dy$

关于min,max

Z=\min(X,Y)
- $F_Z(z)=\mathrm P\{\min(X,Y)\le z\}=1-P\{X\gt z,Y\gt z\}$
- $Z=\frac{1}{2}(X+Y-|X-Y|)$
Z=\max(X,Y)
- $F_Z(z)=\mathrm P\{\max(X,Y)\le z\}=P\{X\le z,Y\le z\}$
- $Z=\frac{1}{2}(X+Y+|X-Y|)$
P\{\max(X_1,X_2)\le X_3\}
- 先确定 $Y=\max(X_1,X_2)$ 与 $X_3$ 的概率分布
- 由独立性得到 $(Y,X_3)$ 的联合概率分布
- 在区域 $Y\le X_3$ 内对联合概率分布积分得到结果