《概率论与数理统计》笔记

发表于 2025-01-13 更新于 2026-01-15 分类于 Notes 阅读次数：本文字数： 6.2k 阅读时长 ≈ 22 分钟

自学+考前突击的产物罢了

《概率论与数理统计》笔记

随机事件与概率

随机试验与随机事件

随机试验是一个动作，随机事件是随机试验的结果。

可重复性：试验可以在相同的条件下重复进行
多结果性：每次试验可能有多个可能的结果，且在试验之前能够明确所有可能的结果
不确定性：每次试验之前不能确定哪一个结果会出现

满足上述三个特点的试验成为随机试验（简称试验）用E表示。

例如：从0~9这十个数字中任取一个数，是随机试验；从一批灯泡中任取一只，是随机试验。

样本点：随机试验的所有可能的结果。

样本空间：随机试验的所有可能的结果组成的集合。记作 $\Omega$。

例：掷一枚均匀的骰子，观察出现的点数。

样本空间：$\Omega=\{1,2,3,4,5,6\}$

样本空间也是一个事件，而且是必然事件。

投出1点，即$\{1\}$ 是一个基本事件，$\{1\}\subseteq\Omega$。基本事件是由单个的样本点组成的事件，不能再细分。

7点出现 是一个不可能事件，不含有任何样本点，记作 $\varnothing$

设随机事件 $A=\{1,3,5\}\subseteq \Omega$，该随机事件是 $\Omega$ 的子集。

事件A发生：属于A的任一样本点出现。

例：同时扔两枚硬币，A表示“正反各一枚”，B表示“至少有一枚是正面”。请写出试验的样本空间、基本事件以及事件A、事件B。

样本空间 $\Omega=\{(正,正),(反,反),(正,反),(反,正)\}$

（这是一个有限集）

$A=\{(正,反),(反,正)\}$

$B=\{(正,反),(反,正),(正,正)\}$

例：观察某城市120急救电话台一昼夜接到的呼叫次数。A表示呼叫不超过十次。写出样本空间与事件A。

$\Omega=\{0,1,2,3,4,\dots\}$

（这是一个无限集）

$A=\{0,1,2,3,\dots,10\}$

一些集合知识

\[ \begin{align} A-B=A-AB=A\overline B\\ A \cap B \sub A \sub A \cup B \sub \Omega \end{align} \]

互不相容（互斥）：$AB=\varnothing$

$A_1,A_2,\dots,A_n$ 两两互斥：$A_iA_j=\varnothing$

对立事件：$A\cup B=\Omega \and A\cap B=\varnothing$

对立只能两个事件之间；互斥可以多个事件之间两两互斥。

$A,B对立 \Rightarrow A,B互斥$

$A,B对立 \Rightarrow \overline A与\overline B对立$

$A,B互斥 \not\Rightarrow \overline A与\overline B互斥$

完备事件组：若 $A_1,\dots,A_n$ 满足： \[ \begin{equation} \left\{\begin{array}{l} A_i \cap A_j=\phi \\ \sum A_i=\Omega \end{array}\right. \end{equation} \] 即：各集合事件没有交集，且并集为全集。

集合的分配率： \[ \begin{align} (A\cup B)\cap C=(A\cap B)\cup(B\cap C)\\ (A\cap B)\cup C=(A\cup C)\cap (B\cup C) \end{align} \] 集合的对偶率： \[ \begin{align} \overline{A\cup B}=\overline A \cap \overline B\\ \overline{A\cap B}=\overline A \cup \overline B \end{align} \] 长线变短线，交并要变号

频率与概率

频率：略。

概率：$E$ 是一个随机试验，$\Omega$ 是其样本空间。则对于每一个事件 $A$ 都有一个实数 $P(A)\in[0,1]$，称为事件 $A$ 发生的概率。

其中，$P$ 是一个集合函数，

非负性：$P(A)\ge 0$
规范性：$P(\Omega)=1$
可列可加性：若$A_1,A_2,\dots,A_n,\dots$ 两两互斥，则 $P(\sum_{i=1}^\infin A_i)=\sum_{i=1}^\infin P(A_i)$

$P(\varnothing)=0$，反之不成立，即 $P(A)=0\not\Rightarrow A=\varnothing$，概率为 $0$ 的事件不是不可能事件，也有可能发生。

由可列可加性可得：如果A,B互斥，则 $P(A+B)=P(A)+P(B)$。

反之，$P(A+B)=P(A)+P(B)-P(AB)\Rightarrow P(AB)=0\not \Rightarrow AB=\varnothing$

$P(A-B)=P(A)-P(AB)$。特别地，如果 $B\subseteq A$，则有 $P(A-B)=P(A)-P(B)$，且$P(A)\ge P(B)$

加法公式：$P(A\cup B)=P(A)+P(B)-P(AB)$

古典概型和几何概型

古典概型

有限个样本点
等可能性

这一部分就是高中学的，略。

几何概型

长度，面积，体积。$P(A)=\frac{\mu(A)}{\mu(\Omega)}$

条件概率与乘法公式

条件概率

引：在有两个孩子的家庭中，至少有一个男孩求另一个也是男孩的概率。

$\Omega=\{(男,男),(女,男),(男,女),(女,女)\}$

$A=\{(男,男),(女,男),(男,女)\}$

$B=\{(男,男)\}$

$P(B|A)=\frac13$

此时，样本空间变成了 $A$ 而不是 $\Omega$ 了。

定义

某试验的样本空间是 $\Omega$，有 $A,B$ 两事件，$P(A)>0$，在事件 $A$ 已发生的概率下事件 $B$ 的概率，就是 $B$ 对 $A$ 的条件概率，记作 $P(B|A)$。

简单的条件概率问题，可通过画图快速解决。

复杂一点的，套公式： \[ \begin{align} P(A|B)&=\frac{P(AB)}{P(B)}\quad P(B)>0\\ P(AB)&=P(A|B) \cdot P(B) \end{align} \]

记忆：挺好记的，$A|B$ 长的就像是 $A/B$，所以要 $\times P(B)$ 抵掉。（我乱说的，仅供辅助记忆）

公理

非负性。$P(A|B)\ge 0$
规范性。$P(A|\Omega)=1$
可列可加性。若$B_1,B_2,\dots$两两互斥，则有 $P(\sum_{i=1}^\infin B_i|A)=\sum_{i=1}^\infin P(B_i|A)$

根据上述1、2可得：$0\le P(A|B)\le 1$

性质

$P(\varnothing|A)=0$

$P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)-P(B_1B_2|A)$

特别地，当 $B_1,B_2$互斥，则有 $P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)$

$P(B|A)+P(\overline B|A)=1$

乘法公式

即上面的推的 \[ \begin{align} P(AB)&=P(A|B) \cdot P(B)\quad P(B)>0\\ &=P(B|A) \cdot P(A)\quad P(A)>0 \end{align} \] 推广到三个事件： \[ \begin{align} P(ABC)&=P(AB)\cdot P(C|AB)\\ &=P(A)\cdot P(B|A) \cdot P(C|AB) \end{align} \]

例：设某光学仪器厂制造的透镜，第一次落下时打破的概率为 0.5，若第一次落下未打破，第二次落下打破的概率为 0.7，若前两次落下未打破，第三次落下打破为概率为 0.9。求透镜落下三次而未打破的概率。

设 $A_1,A_2,A_3$ 表示三次落下会打破。

故已知：

$P(A_1)=0.5$

$P(A_2|\overline {A_1})=0.7$

$P(A_3|\overline{A_1}\ \overline {A_2})=0.9$

欲求 $P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})$。

看到题目给的信息可能第一反应：

$P(A_1)=0.5\Rightarrow P(\overline{A_1})=0.5$

$P(A_2)=P(A_2|\overline{A_1})\cdot P(A_1)=0.7\times 0.5=0.35$

$\dots$

但是这里需要求的是 $P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})$

一定要看清楚题目要求的是什么。

直接用乘法公式展开得： \[ \begin{align} P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})&=P(\overline{A_1}\ \overline{A_2})\cdot P(\overline{A_3}|\overline{A_1}\ \overline{A_2})\\ &=P(\overline{A_1})\cdot P(\overline{A_2}|\overline{A_1}) \cdot P(\overline{A_3}|\overline{A_1}\ \overline{A_2})\\ &=(1-P(A_1))\cdot (1-P(\overline{A_2}|\overline{A_1})) \cdot (1-P(\overline{A_3}|\overline{A_1}\ \overline{A_2}))\\ &=0.5\times 0.3\times 0.1\\ &=0.015 \end{align} \] 先用乘法公式展开，可全部展开成变成题目所给的条件概率了。

另外，注意区分题目问的到底是条件概率 $P(A|BC)$ 还是普通概率 $P(ABC)$。

全概率公式与贝叶斯公式

全概率公式

定义

样本空间的划分，也叫做完备事件组：

设事件 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一组事件，且满足：

两两互斥：$A_iA_j=\varnothing (i\not =j)$
并集为样本空间：$\bigcup_{i=1}^nA_i=\Omega$

则称 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一个划分。

全概率公式

设事件 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一个划分，且 $P(A_i)>0,i=1,2,\dots,n$，则对于任意事件 $B$，有 \[ \begin{align} P(B)=\sum_{i=1}^nP(A_i)P(B|A_i) \end{align} \]

应用

如果试验 $E$ 有两个相关的试验 $E_1,E_2$ 复合而成，$E_1$ 有若干种可能的结果，$E_2$ 在 $E_1$ 的基础上也有若干种可能的结果。如果求和 $E_2$ 的结果有关的概率，可以用全概率公式。试验 $E_1$ 的几种可能的结果就构成了完备事件组。

例：设袋中有12个乒乓球，9个新球，3个旧球。第一次比赛取3球，比赛后放回；第二次比赛再任取3球，求第二次比赛取得3个新球的概率。

这里的两次试验分别是：

$E_1=\{第一次比赛取三个球\}$

$E_2=\{第二次比赛取三个球\}$

设：

$A_i=第一次比赛恰取出i个新球(i=0,1,2,3)$

$B=第二次比赛取出了3个新球$

此时，$A_0,A_1,A_2,A_3$ 恰好构成了对于样本空间的一个划分。

套用全概率公式：

$P(B)=\sum_{i=0}^3P(A_i)P(B|A_i)$

贝叶斯公式

引：设仑库中共有10箱产品，其中甲乙丙三厂各有 $5、3、2$ 箱, 且已知甲乙丙三厂的次品率分别为 $10 \% 、 15 \% 、 20 \%$，现从中任取1箱，再从该箱中任取1件产品，若取得的产品为次品，问该产品是甲厂生产的概率是多少?

该问题不是求取得的产品为正品、次品问题，而是在明确知道产品品质的情况下，分析“货出谁家”的问题。

设

$A_1=\{甲厂生产的产品\}$

$A_2=\{乙厂生产的产品 \}$

$A_3=\{ 丙厂生产的产品 \}$

$B=\{ 取得次品 \}$

该问题要求的是

$P(A_1|B)\quad i=1,2,3$

推导

由条件概率的定义 \[ \begin{align} P\left(A_j | B\right)=\frac{P\left(A_j B\right)}{P(B)}=\frac{P\left(A_j\right) P\left(B | A_j\right)}{P(B)} \end{align} \] 其中，由全概率公式可知 \[ \begin{align} P(B)=\sum_{i=1}^nP(A_i)P(B|A_i) \end{align} \] 代入得 \[ \begin{align} P(A_j|B)=\frac{P(A_j)P(B|A_j)}{\sum_{i=1}^nP(A_i)P(B|A_i)}\quad(j=1,2,\dots,n) \end{align} \]

应用

如果试验 $E$ 有两个相关的试验 $E_1, E_2$ 复合而成, $E_1$ 有若干种可能的结果，$E_2$ 在 $E_1$ 的基础上也有若干种可能的结果，如果已知和 $E_2$ 的结果有关某事件发生了，求和试验 $E_1$ 的结果有关事件的概率，可以用贝叶斯公式。试验 $E_1$ 的几种可能的结果就构成了完备事件组。

如果把样本空间的一个划分 $A_1, A_2, \dots, A_n$ 看作是导致事件 $B$ 发生的各种原因, 事件 $B$ 是伴随着“原因” $A_i$ 中的一个出现的。如果 $B$ 发生了, 求 $P\left(A_j | B\right)$ 可以用贝叶斯公式。

所以把 $P(A_1),P(A_2)$ 成为先验概率，把 $P(A_1|B),P(A|2,B)$ 称为后验概率。

例：某商店由三个厂购进一批灯泡，其中甲厂占 $25\%$，乙厂占 $35\%$，丙厂占 $40 \%$ ，且各厂的次品率分别为 $5 \%, 4 \%, 2 \%$ 。如果消费者已经买到一个次品灯泡，问是哪个厂出产的可能性大？

设：

$A_1=\{灯泡是甲厂出产的\}$

$A_2=\{灯泡是乙厂出产的\}$

$A_3=\{灯泡是丙厂出产的\}$

$B=\{买到一个次品灯泡\}$

题目的条件可以化为：

$P(A_1)=0.25,P(A_2)=0.35,P(A_3)=0.4$

$P(B|A_1)=0.05,P(B|A_2)=0.04,P(B|A_3)=0.02$

由全概率公式得：

$P(B)=\sum_{i=1}^3P(A_i)P(B|A_i)=0.0345$

由贝叶斯公式得：

$P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(B|A_1)P(A_1)}{P(B)}=\frac{0.05\times0.25}{0.0345}=0.3623$

同理算出 $P(A_2|B),P(A_3|B)$ ，然后比较大小即可。

总结

知因求果：全概率公式

执果索因：贝叶斯公式

事件的独立性

性质

若 $P(A)>0,P(B)>0$，则 $A$ 和 $B$ 独立的充分必要条件是： \[ \begin{align} P(B|A)=P(B)\\ P(A|B)=P(A) \end{align} \] 即，“$A$ 是否发生”对于 $B$ 事件没有影响，“$B$ 是否发生”对于 $A$ 也没有影响。

如果 $A$ 与 $B$ 相互独立，则 $\overline{A}$ 与 $B$、$A$ 与 $\overline{B}$、$\overline{A}$ 与$\overline{B}$ 都是两两独立的。

随机变量及其分布

离散型分布

01分布

01分布（也称为伯努利分布）只有两个样本点：0和1。其概率质量函数为： \[ \begin{align} P(X = 1) = p\\ P(X = 0) = 1 - p \end{align} \] 其中，$p$ 是事件发生的概率（$0 \leq p \leq 1$）。

记作 $X\sim B(1,p)$。

二项分布

如果有 $n$ 次独立的伯努利试验，每次试验成功的概率为 $p$，则随机变量 $X$ 表示成功的次数，服从二项分布，其概率质量函数为：

\[ \begin{align} P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \end{align} \] 其中： - $n$ 是试验的总次数。 - $k$ 是成功的次数（$k = 0, 1, \ldots, n$）。 - $\binom{n}{k}$ 是组合数，表示从 $n$ 次中选择 $k$ 次成功的方式。

记作 $X\sim B(n,p)$。

泊松分布

\[ \begin{align} P(X=k)=\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \]

泊松定理

当试验次数 $n$ 趋近于无穷大、成功概率 $p$ 趋近于零、但 $np$ 保持恒定的情况下，成功次数 $X$ 的分布趋近于 $\lambda=np$ 的泊松分布。 \[ \begin{align} \lim_{n\to \infin} P(X_n=k)=\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \] 所以在 $n$ 较大、$p$ 较小时，常用泊松分布来代替计算二项分布。 \[ \begin{align} C_n^kp^k(1-p)^{n-k}\approx\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \] 其中，$\lambda=np$。

连续型分布

均匀分布

略。

指数分布

\[ \begin{align} f(x)= \begin{cases}\lambda e^{-\lambda x}, & x>0 \\ 0, & x \leq 0 \end{cases} \end{align} \]

其中 $\lambda>0$ 是常数。

通常用于各种寿命的分布，或者某一时间发生的等待时间。

容易看出，$f(x)$ 的原函数 $F(x)=-e^{-\lambda x}$。常需要计算随机变量在一段区间内的取值范围。

正态分布

正态分布的密度函数为： \[ \begin{align} f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \end{align} \] 则其分布函数为 \[ \begin{align} F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^xe^{-\frac{(x-\mu)^2}{2\sigma^2}}\mathrm dx \end{align} \] 正态分布用得很多。最常见（$\mathrm{N}ormal$）。二项分布、泊松分布的极限是正态分布。

求导： \[ \begin{align} f'(x)=-\frac{x-\mu}{\sigma^2}f(x) \end{align} \] 在 $x=\mu$ 处取得极大值 $f(\mu)=\frac{1}{\sqrt{2\pi}\sigma}$。

随着 $\sigma\uparrow$，$f(\mu)\downarrow$，图像变平坦。

标准正态分布

若随机变量 $x$ 服从均值为 $\mu$，标准差为 $\sigma$ 的正态分布，

$x\sim N(\mu,\sigma^2)$ 。而当 $\mu=0,\sigma=1$ 时称为为标准正态分布。

密度函数为： \[ \begin{align} \phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \end{align} \] 分布函数为： \[ \begin{align} \Phi(x)=\int_{-\infin}^x\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\mathrm dt \end{align} \] 该函数有一个性质：$\Phi(x)=1-\Phi(-x)$。

所以，如果 $X\sim N(0,1)$，则有： \[ \begin{align} &P(X\le b)=\Phi(b)\\ &P(X>a)=1-\Phi(a)\\ &P(a<X\le b)=\Phi(b)-\Phi(a)\\ &P(|X|\le a)=2\Phi(a)-1(a>0) \end{align} \]

正态分布的标准化

若 $X\sim N(\mu,\sigma^2)$，则 $F(x)=\Phi(\frac{x-\mu}{\sigma})$。这样，我们就可以通过查表得到 $\Phi$ 值，反推 $F(x)$。

也就是说，如果 $X\sim N(\mu,\sigma^2)$，则 $\frac{X-\mu}{\sigma}\sim N(0,1)$。

离散型随机变量函数的分布

如果 $X$ 是一个随机变量，而 $Y=g(X)$，那么 $Y$ 也是个随机变量。$Y$ 的分布就得看 $X$ 的分布以及 $g(x)$ 了。

如果 $X$ 的分布给的是个分布列，求 $Y$ 的分布列，那么直接算就好，最后记得合并相同的 $Y$ 的取值（概率相加即可），并且按照 $Y$ 的取值单调递增排序。

连续型随机变量函数的分布

其实之前提到的“正态分布标准化”就是一种随机变量函数。

简单来说，若 $X\sim N(\mu,\sigma^2)$，则 $Y=aX+b(a\not=0)\sim N(a\mu+b,(a\sigma)^2)$。

通用一点，如果 $Y=aX+b$ 而 $X$ 的概率密度函数为 $f_X(x)$，则 $Y$ 的概率密度函数 $f_Y(y)=\frac1{|a|}f_X(\frac{y-b}{a})$。

例：设 $X$ 在 $(0,1)$ 内服从均匀分布，求 $Y=-2\ln X$ 的概率密度函数。

首先写出均匀分布的概率密度函数： \[ f_X(x) = \begin{cases} 1, & 0 < x < 1 \\ 0, & \text{其他} \end{cases} \]

已知 $Y=-2\ln X$，我们需要求 $X$ 关于 $Y$ 的表达式：

\[ X = e^{-\frac{Y}{2}} \]

当 $X$ 从 0 到 1 变化时，$Y$ 的取值范围为： \[ \begin{align} Y &= -2\ln X \\ 0 &< X < 1 \\ 0 &< Y < +\infty \end{align} \]

所以也需要对于 $Y$ 的取值进行分类讨论的。

当 $y>0$ 时， \[ \begin{align} F_y(y)&=P(Y\le y)\\ &=P(-2\ln X\le y)\\ &=P(X\ge e^{-\frac{y}{2}})\\ &=1-P(X<e^{-\frac{y}{2}})\\ &=1-F_X(e^{-\frac{y}{2}}) \end{align} \] 当 $y\le 0$ 时，$F_Y(y)=0$

将上述两个合并，即为答案。

同时还可以发现，这个就是 $\lambda=\frac12$ 的指数分布。

二维随机变量

二维离散随机变量

$(x,y)$ 的联合分布列：

若 $(X,Y)$ 的所有可能的取值为 $x_i,y_j\quad i,j=1,2,3\dots$，且 $p_{ij}=P(X=x_i,Y=y_i),\quad i,j=1,2,3\dots$，则称这一列式子为 $(x,y)$ 的联合分布列。

性质肯定还是和一维随机变量一样： \[ \begin{align} p_{ij}\ge 0\\ \sum_{i=1}^\infin\sum_{j=1}^\infin p_{ij}=1 \end{align} \] 如何求联合分布列？

全列出来。先确定两个随机变量的取值范围，然后计算每一种组合的概率，最后按照顺序画出二维表格。

二维连续随机变量

\[ \begin{align} P((X,Y)\in D)=\iint_D f(x,y)\mathrm dx\mathrm dy \end{align} \]

其中，$f(x,y)$ 是一个非负可积函数，表示落入 $(x,y)$ 的概率。

非负性：$f(x,y)\ge 0$

规范性：$\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}f(x,y)\mathrm dx\mathrm dy=1$

常见二维随机分布

二维均匀分布。类似一维均匀分布，利用面积 $A$ 进行计算，区域 $G$ 内处处有 $f(x,y)=\frac1A$。

二维正态分布。 $$ \[\begin{aligned} f(x, y)= &\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \\ &\exp \left \{-\frac{1}{2\left(1-\rho^2\right)}\left[\frac{\left(x-\mu_1\right)^2}{\sigma_1^2}-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right]\right\} \quad\\ &(-\infty<x<+\infty,-\infty<y<+\infty) \end{aligned}\]

$$ 其中有五个参数 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$，且 $\sigma_1>0,\sigma_2>0,|\rho|<1$。

如果 $\rho=0$，则交叉项没了，外面的分母也只剩 $2\pi\sigma_1\sigma_2$。

二维随机变量的分布函数

也叫联合分布函数。 \[ \begin{align} F(x,y)=P(\{X\le x\}\cup\{Y\le y\})=P(X\le x,Y\le y) \end{align} \] 其表示随机点落在以 $(x,y)$ 为右顶点的在左下方的无穷矩形区域内的概率。

那么如果需要求指定方形区域 $x_1<X\le x_2,y_1<Y\le y_2$ 的概率，则类似于二位前缀和公式： \[ \begin{align} P(x_1<X\le x_2,y_1<Y\le y_2)=F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1) \end{align} \] 如果是连续型随机变量的话，$f(x,y)$ 为其密度函数，则有： \[ \begin{align} F(x,y)&=P(X\le x,Y\le y)=\int_{-\infin}^{x}\int_{-\infin}^y f(u,v)\mathrm du\mathrm dv\\ f(x,y)&=\frac{\partial^2F(x,y)}{\partial x\partial y} \end{align} \] 基本性质：类似一维概率分布函数，特殊边界值和单调性。略。

二维离散型随机变量的边缘分布

比较简单，对一列或一行相加即可。 \[ \begin{align} p_{i\cdot}=P(X=x_i)\sum_{j=1}^\infin p_{ij}\\ p_{\cdot j}=P(Y=y_j)\sum_{i=1}^\infin p_{ij} \end{align} \]

二维连续型随机变量的边缘分布

二维连续型随机变量的边缘密度函数，记作 $f_X(x)$ 和 $f_Y(y)$。

公式： \[ \begin{align} f_X(x)&=\int_{-\infin}^{\infin}f(x,y)\mathrm dy\\ f_Y(y)&=\int_{-\infin}^{\infin}f(x,y)\mathrm dx \end{align} \] 而边缘分布函数，记作 $F_X(x),F_(y)$。 \[ \begin{align} F_X(x)&=P(X\le x)=P(X\le x,Y< +\infin)\\ &=\int_{-\infin}^x[\int_{-\infin}^{+\infin}f(x,y)\mathrm dv]\mathrm du\\ f_X(x)&=\int_{-\infin}^{+\infin}f(x,y)\mathrm dy \end{align} \] 即，要求关于 $x$ 的边缘密度函数 $f_X(x)$，就对另一个变量 $y$ 计算 $\int_{-\infin}^{+\infin}\mathrm dy$ 即可。（可能可以使用“偶倍奇零”原则对被积函数进行化简）

二维正态分布的边缘概率密度函数为一维正态分布，且与 $\rho$ 无关。

已知联合分布可以计算边缘密度函数；但已知边缘密度函数不能反推联合分布。

边缘分布函数还有一种方式计算： \[ \begin{align} F_X(x)&=P(X\le x)\\ &=P(X\le x,Y< \infin)\\ &= F(x,+\infin)\\ &=\lim_{y\to +\infin}F(x,y) \end{align} \] 其实也和边缘密度函数一样：对另一维变量取极限，得到关于该维变量的边缘分布函数。

大数定律与中心极限定理

依概率收敛和依分布收敛

\[ \begin{align} X_n\xrightarrow[] L X&\quad(X_n 依分布收敛于 X)\\ Y_n\xrightarrow[] P a&\quad(Y_n 依概率收敛于 a) \end{align} \]

两个随机变量序列之和（差、积、商）依【概率/分布】收敛于两个随机变量序列依【概率/分布】的值的和（差、积、商）

其中，依概率是一种强收敛，而依分布收敛是一种弱收敛。

可以从强的推到至弱的：$X_n\xrightarrow[]P a\Rightarrow X_n\xrightarrow[]L a$。

切比雪夫不等式

不知道具体分布，只知道期望与方差的情况下，可以估计随机变量偏离其期望的概率。毕竟知道了方差，那么随机变量可不能偏离的太远嘛。

切比雪夫不等式是概率论中的一个重要定理，它为随机变量偏离其期望值的概率提供了一个上界。

切比雪夫不等式的表达式如下：

\[ \begin{align} P(|X - E(X)| \geq \varepsilon) \leq \frac{Var(X)}{\varepsilon^2} \end{align} \]

其中：

$X$ 是随机变量
$E(X)$ 是 $X$ 的期望值
$Var(X)$ 是 $X$ 的方差
$\varepsilon$ 是任意正实数

这个不等式告诉我们，随机变量 $X$ 偏离其期望值 $E(X)$ 至少 $\varepsilon$ 的概率不超过 $\frac{Var(X)}{\varepsilon^2}$。

例如，如果我们有一个随机变量 $X$，其期望为 10，方差为 4，我们想知道 $X$ 偏离其期望值至少 3 个单位的概率上界，我们可以这样计算：

\[ \begin{align} P(|X - 10| \geq 3) \leq \frac{4}{3^2} = \frac{4}{9} \approx 0.444 \end{align} \]

这意味着，$X$ 偏离 10 至少 3 个单位的概率不会超过 44.4%。

例：随机变量 $X$ 和 $Y$ 的数学期望均为 5 ，方差分别为 1 和 9 ，而相关系数为 0.5 ，则根据切比雪夫不等式可知 $P(|X-Y| \geq 4) \leq ?$

设 $Z=X-Y$，计算 $E(Z)$ 和 $Var(Z)$。 \[ \begin{align} E(Z)&=E(X)-E(Y)\\ &=0\\ Var(Z)&=Var(X-Y)\\ &=Var(X)+Var(Y)-2Cov(X,Y)\\ &=Var(X)+Var(Y)-2\cdot \rho \sqrt{Var(X)\cdot Var(Y)}\\ &=1+9-2\times0.5\times \sqrt{1\times9}\\ &=7 \end{align} \] 故，题目要求的切比雪夫不等式可以化为： \[ \begin{align} P(|Z-E(Z)|>4)\le \frac{Var(Z)}{4^2}=\frac{7}{16} \end{align} \]

大数定律

大量随机事件的平均结果趋近于期望值

切比雪夫大数定律

切比雪夫大数定律（弱大数定律）

弱大数定律表述如下：对于一个随机变量序列 $X_1, X_2, ..., X_n$，如果这些随机变量是独立同分布的，且具有有限的期望 $\mu$ 和方差 $\sigma^2$，那么它们的算术平均值会依概率收敛于期望值 $\mu$。

\[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right) = 1, \quad \forall \varepsilon > 0 \end{align} \]

伯努利大数定律

在 $n$ 次独立重复的伯努利试验中，如果每次试验成功的概率为 $p$，失败的概率为 $1-p$，那么当 $n$ 趋于无穷大时，成功次数的频率 $f_n$ 几乎必然收敛于概率 $p$。

\[ \begin{align} P\left(\lim_{n \to \infty} f_n = p\right) = 1 \end{align} \]

其中，$f_n = \frac{X_n}{n}$，$X_n$ 表示 $n$ 次试验中成功的次数。

更具体地，对于任意小的正数 $\varepsilon$，我们有：

\[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{X_n}{n} - p\right| < \varepsilon\right) = 1 \end{align} \]

在大量重复的伯努利试验中，成功的相对频率会趋近于成功的概率。

这就是以频率定义概率的合理性依据。

辛钦大数定律

辛钦大数定律是一种弱大数定律，它放宽了对随机变量方差的要求。辛钦定理表述如下：

对于一个随机变量序列 $X_1, X_2, ..., X_n$，如果这些随机变量是独立同分布的，且具有有限的期望 $\mu$（不要求方差有限），那么它们的算术平均值会依概率收敛于期望值 $\mu$。 \[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right) = 1, \quad \forall \varepsilon > 0 \end{align} \]

辛钦大数定律只要求有限期望，适用范围更广。

辛钦大数定律为寻找随机变量的期望值提供了一条实际可行的途径。