《概率论与数理统计》笔记
《概率论与数理统计》笔记
随机事件与概率
随机试验与随机事件
随机试验是一个动作,随机事件是随机试验的结果。
- 可重复性:试验可以在相同的条件下重复进行
- 多结果性:每次试验可能有多个可能的结果,且在试验之前能够明确所有可能的结果
- 不确定性:每次试验之前不能确定哪一个结果会出现
满足上述三个特点的试验成为随机试验(简称试验)用E表示。
例如:从0~9这十个数字中任取一个数,是随机试验;从一批灯泡中任取一只,是随机试验。
样本点:随机试验的所有可能的结果。
样本空间:随机试验的所有可能的结果组成的集合。记作 \(\Omega\)。
例:掷一枚均匀的骰子,观察出现的点数。
样本空间:\(\Omega=\{1,2,3,4,5,6\}\)
样本空间也是一个事件,而且是必然事件。
投出1点
,即\(\{1\}\) 是一个基本事件,\(\{1\}\subseteq\Omega\)。基本事件是由单个的样本点组成的事件,不能再细分。
7点出现
是一个不可能事件,不含有任何样本点,记作 \(\varnothing\)
设随机事件 \(A=\{1,3,5\}\subseteq \Omega\),该随机事件是 \(\Omega\) 的子集。
事件A发生:属于A的任一样本点出现。
例:同时扔两枚硬币,A表示“正反各一枚”,B表示“至少有一枚是正面”。请写出试验的样本空间、基本事件以及事件A、事件B。
样本空间 \(\Omega=\{(正,正),(反,反),(正,反),(反,正)\}\)
(这是一个有限集)
\(A=\{(正,反),(反,正)\}\)
\(B=\{(正,反),(反,正),(正,正)\}\)
例:观察某城市120急救电话台一昼夜接到的呼叫次数。A表示呼叫不超过十次。写出样本空间与事件A。
\(\Omega=\{0,1,2,3,4,\dots\}\)
(这是一个无限集)
\(A=\{0,1,2,3,\dots,10\}\)
一些集合知识
\[ \begin{align} A-B=A-AB=A\overline B\\ A \cap B \sub A \sub A \cup B \sub \Omega \end{align} \]
互不相容(互斥):\(AB=\varnothing\)
\(A_1,A_2,\dots,A_n\) 两两互斥:\(A_iA_j=\varnothing\)
对立事件:\(A\cup B=\Omega \and A\cap B=\varnothing\)
对立只能两个事件之间;互斥可以多个事件之间两两互斥。
\(A,B对立 \Rightarrow A,B互斥\)
\(A,B对立 \Rightarrow \overline A与\overline B对立\)
\(A,B互斥 \not\Rightarrow \overline A与\overline B互斥\)
完备事件组:若 \(A_1,\dots,A_n\) 满足: \[ \begin{equation} \left\{\begin{array}{l} A_i \cap A_j=\phi \\ \sum A_i=\Omega \end{array}\right. \end{equation} \] 即:各集合事件没有交集,且并集为全集。
集合的分配率: \[ \begin{align} (A\cup B)\cap C=(A\cap B)\cup(B\cap C)\\ (A\cap B)\cup C=(A\cup C)\cap (B\cup C) \end{align} \] 集合的对偶率: \[ \begin{align} \overline{A\cup B}=\overline A \cap \overline B\\ \overline{A\cap B}=\overline A \cup \overline B \end{align} \] 长线变短线,交并要变号
频率与概率
频率:略。
概率:\(E\) 是一个随机试验,\(\Omega\) 是其样本空间。则对于每一个事件 \(A\) 都有一个实数 \(P(A)\in[0,1]\),称为事件 \(A\) 发生的概率。
其中,\(P\) 是一个集合函数,
- 非负性:\(P(A)\ge 0\)
- 规范性:\(P(\Omega)=1\)
- 可列可加性:若\(A_1,A_2,\dots,A_n,\dots\) 两两互斥,则 \(P(\sum_{i=1}^\infin A_i)=\sum_{i=1}^\infin P(A_i)\)
\(P(\varnothing)=0\),反之不成立,即 \(P(A)=0\not\Rightarrow A=\varnothing\),概率为 \(0\) 的事件不是不可能事件,也有可能发生。
由可列可加性可得:如果A,B互斥,则 \(P(A+B)=P(A)+P(B)\)。
反之,\(P(A+B)=P(A)+P(B)-P(AB)\Rightarrow P(AB)=0\not \Rightarrow AB=\varnothing\)
\(P(A-B)=P(A)-P(AB)\)。特别地,如果 \(B\subseteq A\),则有 \(P(A-B)=P(A)-P(B)\),且\(P(A)\ge P(B)\)
加法公式:\(P(A\cup B)=P(A)+P(B)-P(AB)\)
古典概型和几何概型
古典概型
- 有限个样本点
- 等可能性
这一部分就是高中学的,略。
几何概型
长度,面积,体积。\(P(A)=\frac{\mu(A)}{\mu(\Omega)}\)
条件概率与乘法公式
条件概率
引:在有两个孩子的家庭中,至少有一个男孩求另一个也是男孩的概率。
\(\Omega=\{(男,男),(女,男),(男,女),(女,女)\}\)
\(A=\{(男,男),(女,男),(男,女)\}\)
\(B=\{(男,男)\}\)
\(P(B|A)=\frac13\)
此时,样本空间变成了 \(A\) 而不是 \(\Omega\) 了。
定义
某试验的样本空间是 \(\Omega\),有 \(A,B\) 两事件,\(P(A)>0\),在事件 \(A\) 已发生的概率下事件 \(B\) 的概率,就是 \(B\) 对 \(A\) 的条件概率,记作 \(P(B|A)\)。
简单的条件概率问题,可通过画图快速解决。
复杂一点的,套公式: \[ \begin{align} P(A|B)&=\frac{P(AB)}{P(B)}\quad P(B)>0\\ P(AB)&=P(A|B) \cdot P(B) \end{align} \]
记忆:挺好记的,\(A|B\) 长的就像是 \(A/B\),所以要 \(\times P(B)\) 抵掉。(我乱说的,仅供辅助记忆)
公理
- 非负性。\(P(A|B)\ge 0\)
- 规范性。\(P(A|\Omega)=1\)
- 可列可加性。若\(B_1,B_2,\dots\)两两互斥,则有 \(P(\sum_{i=1}^\infin B_i|A)=\sum_{i=1}^\infin P(B_i|A)\)
根据上述1、2可得:\(0\le P(A|B)\le 1\)
性质
\(P(\varnothing|A)=0\)
\(P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)-P(B_1B_2|A)\)
特别地,当 \(B_1,B_2\)互斥,则有 \(P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)\)
\(P(B|A)+P(\overline B|A)=1\)
乘法公式
即上面的推的 \[ \begin{align} P(AB)&=P(A|B) \cdot P(B)\quad P(B)>0\\ &=P(B|A) \cdot P(A)\quad P(A)>0 \end{align} \] 推广到三个事件: \[ \begin{align} P(ABC)&=P(AB)\cdot P(C|AB)\\ &=P(A)\cdot P(B|A) \cdot P(C|AB) \end{align} \]
例:设某光学仪器厂制造的透镜,第一次落下时打破的概率为 0.5,若第一次落下未打破,第二次落下打破的概率为 0.7,若前两次落下未打破,第三次落下打破为概率为 0.9。求透镜落下三次而未打破的概率。
设 \(A_1,A_2,A_3\) 表示三次落下会打破。
故已知:
\(P(A_1)=0.5\)
\(P(A_2|\overline {A_1})=0.7\)
\(P(A_3|\overline{A_1}\ \overline {A_2})=0.9\)
欲求 \(P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})\)。
看到题目给的信息可能第一反应:
\(P(A_1)=0.5\Rightarrow P(\overline{A_1})=0.5\)
\(P(A_2)=P(A_2|\overline{A_1})\cdot P(A_1)=0.7\times 0.5=0.35\)
\(\dots\)
但是这里需要求的是 \(P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})\)
一定要看清楚题目要求的是什么。
直接用乘法公式展开得: \[ \begin{align} P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})&=P(\overline{A_1}\ \overline{A_2})\cdot P(\overline{A_3}|\overline{A_1}\ \overline{A_2})\\ &=P(\overline{A_1})\cdot P(\overline{A_2}|\overline{A_1}) \cdot P(\overline{A_3}|\overline{A_1}\ \overline{A_2})\\ &=(1-P(A_1))\cdot (1-P(\overline{A_2}|\overline{A_1})) \cdot (1-P(\overline{A_3}|\overline{A_1}\ \overline{A_2}))\\ &=0.5\times 0.3\times 0.1\\ &=0.015 \end{align} \] 先用乘法公式展开,可全部展开成变成题目所给的条件概率了。
另外,注意区分题目问的到底是条件概率 \(P(A|BC)\) 还是普通概率 \(P(ABC)\)。
全概率公式与贝叶斯公式
全概率公式
定义
样本空间的划分,也叫做完备事件组:
设事件 \(A_1,A_2,\dots,A_n\) 为样本空间 \(\Omega\) 的一组事件,且满足:
- 两两互斥:\(A_iA_j=\varnothing (i\not =j)\)
- 并集为样本空间:\(\bigcup_{i=1}^nA_i=\Omega\)
则称 \(A_1,A_2,\dots,A_n\) 为样本空间 \(\Omega\) 的一个划分。
全概率公式
设事件 \(A_1,A_2,\dots,A_n\) 为样本空间 \(\Omega\) 的一个划分,且 \(P(A_i)>0,i=1,2,\dots,n\),则对于任意事件 \(B\),有 \[ \begin{align} P(B)=\sum_{i=1}^nP(A_i)P(B|A_i) \end{align} \]
应用
如果试验 \(E\) 有两个相关的试验 \(E_1,E_2\) 复合而成,\(E_1\) 有若干种可能的结果,\(E_2\) 在 \(E_1\) 的基础上也有若干种可能的结果。如果求和 \(E_2\) 的结果有关的概率,可以用全概率公式。试验 \(E_1\) 的几种可能的结果就构成了完备事件组。
例:设袋中有12个乒乓球,9个新球,3个旧球。第一次比赛取3球,比赛后放回;第二次比赛再任取3球,求第二次比赛取得3个新球的概率。
这里的两次试验分别是:
\(E_1=\{第一次比赛取三个球\}\)
\(E_2=\{第二次比赛取三个球\}\)
设:
\(A_i=第一次比赛恰取出i个新球(i=0,1,2,3)\)
\(B=第二次比赛取出了3个新球\)
此时,\(A_0,A_1,A_2,A_3\) 恰好构成了对于样本空间的一个划分。
套用全概率公式:
\(P(B)=\sum_{i=0}^3P(A_i)P(B|A_i)\)
贝叶斯公式
引:设仑库中共有10箱产品,其中甲乙丙三厂各有 \(5、3、2\) 箱, 且已知甲乙丙三厂的次品率分别为 \(10 \% 、 15 \% 、 20 \%\),现从中任取1箱,再从该箱中任取1件产品,若取得的产品为次品,问该产品是甲厂生产的概率是多少?
该问题不是求取得的产品为正品、次品问题,而是在明确知道产品品质的情况下,分析“货出谁家”的问题。
设
\(A_1=\{甲厂生产的产品\}\)
\(A_2=\{乙厂生产的产品 \}\)
\(A_3=\{ 丙厂生产的产品 \}\)
\(B=\{ 取得次品 \}\)
该问题要求的是
\(P(A_1|B)\quad i=1,2,3\)
推导
由条件概率的定义 \[ \begin{align} P\left(A_j | B\right)=\frac{P\left(A_j B\right)}{P(B)}=\frac{P\left(A_j\right) P\left(B | A_j\right)}{P(B)} \end{align} \] 其中,由全概率公式可知 \[ \begin{align} P(B)=\sum_{i=1}^nP(A_i)P(B|A_i) \end{align} \] 代入得 \[ \begin{align} P(A_j|B)=\frac{P(A_j)P(B|A_j)}{\sum_{i=1}^nP(A_i)P(B|A_i)}\quad(j=1,2,\dots,n) \end{align} \]
应用
如果试验 \(E\) 有两个相关的试验 \(E_1, E_2\) 复合而成, \(E_1\) 有若干种可能的结果,\(E_2\) 在 \(E_1\) 的基础上也有若干种可能的结果,如果已知和 \(E_2\) 的结果有关某事件发生了,求和试验 \(E_1\) 的结果有关事件的概率,可以用贝叶斯公式。试验 \(E_1\) 的几种可能的结果就构成了完备事件组。
如果把样本空间的一个划分 \(A_1, A_2, \dots, A_n\) 看作是导致事件 \(B\) 发生的各种原因, 事件 \(B\) 是伴随着“原因” \(A_i\) 中的一个出现的。如果 \(B\) 发生了, 求 \(P\left(A_j | B\right)\) 可以用贝叶斯公式。
所以把 \(P(A_1),P(A_2)\) 成为先验概率,把 \(P(A_1|B),P(A|2,B)\) 称为后验概率。
例:某商店由三个厂购进一批灯泡,其中甲厂占 \(25\%\),乙厂占 \(35\%\),丙厂占 \(40 \%\) ,且各厂的次品率分别为 \(5 \%, 4 \%, 2 \%\) 。如果消费者已经买到一个次品灯泡,问是哪个厂出产的可能性大?
设:
\(A_1=\{灯泡是甲厂出产的\}\)
\(A_2=\{灯泡是乙厂出产的\}\)
\(A_3=\{灯泡是丙厂出产的\}\)
\(B=\{买到一个次品灯泡\}\)
题目的条件可以化为:
\(P(A_1)=0.25,P(A_2)=0.35,P(A_3)=0.4\)
\(P(B|A_1)=0.05,P(B|A_2)=0.04,P(B|A_3)=0.02\)
由全概率公式得:
\(P(B)=\sum_{i=1}^3P(A_i)P(B|A_i)=0.0345\)
由贝叶斯公式得:
\(P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(B|A_1)P(A_1)}{P(B)}=\frac{0.05\times0.25}{0.0345}=0.3623\)
同理算出 \(P(A_2|B),P(A_3|B)\) ,然后比较大小即可。
总结
知因求果:全概率公式
执果索因:贝叶斯公式
事件的独立性
性质
若 \(P(A)>0,P(B)>0\),则 \(A\) 和 \(B\) 独立的充分必要条件是: \[ \begin{align} P(B|A)=P(B)\\ P(A|B)=P(A) \end{align} \] 即,“\(A\) 是否发生”对于 \(B\) 事件没有影响,“\(B\) 是否发生”对于 \(A\) 也没有影响。
如果 \(A\) 与 \(B\) 相互独立,则 \(\overline{A}\) 与 \(B\)、\(A\) 与 \(\overline{B}\)、\(\overline{A}\) 与\(\overline{B}\) 都是两两独立的。
随机变量及其分布
离散型分布
01分布
01分布(也称为伯努利分布)只有两个样本点:0和1。其概率质量函数为: \[ \begin{align} P(X = 1) = p\\ P(X = 0) = 1 - p \end{align} \] 其中,\(p\) 是事件发生的概率(\(0 \leq p \leq 1\))。
记作 \(X\sim B(1,p)\)。
二项分布
如果有 \(n\) 次独立的伯努利试验,每次试验成功的概率为 \(p\),则随机变量 \(X\) 表示成功的次数,服从二项分布,其概率质量函数为:
\[ \begin{align} P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \end{align} \] 其中: - \(n\) 是试验的总次数。 - \(k\) 是成功的次数(\(k = 0, 1, \ldots, n\))。 - \(\binom{n}{k}\) 是组合数,表示从 \(n\) 次中选择 \(k\) 次成功的方式。
记作 \(X\sim B(n,p)\)。
泊松分布
\[ \begin{align} P(X=k)=\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \]
泊松定理
当试验次数 \(n\) 趋近于无穷大、成功概率 \(p\) 趋近于零、但 \(np\) 保持恒定的情况下,成功次数 \(X\) 的分布趋近于 \(\lambda=np\) 的泊松分布。 \[ \begin{align} \lim_{n\to \infin} P(X_n=k)=\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \] 所以在 \(n\) 较大、\(p\) 较小时,常用泊松分布来代替计算二项分布。 \[ \begin{align} C_n^kp^k(1-p)^{n-k}\approx\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \] 其中,\(\lambda=np\)。
连续型分布
均匀分布
略。
指数分布
\[ \begin{align} f(x)= \begin{cases}\lambda e^{-\lambda x}, & x>0 \\ 0, & x \leq 0 \end{cases} \end{align} \]
其中 \(\lambda>0\) 是常数。
通常用于各种寿命的分布,或者某一时间发生的等待时间。
容易看出,\(f(x)\) 的原函数 \(F(x)=-e^{-\lambda x}\)。常需要计算随机变量在一段区间内的取值范围。
正态分布
正态分布的密度函数为: \[ \begin{align} f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \end{align} \] 则其分布函数为 \[ \begin{align} F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^xe^{-\frac{(x-\mu)^2}{2\sigma^2}}\mathrm dx \end{align} \] 正态分布用得很多。最常见(\(\mathrm{N}ormal\))。二项分布、泊松分布的极限是正态分布。
求导: \[ \begin{align} f'(x)=-\frac{x-\mu}{\sigma^2}f(x) \end{align} \] 在 \(x=\mu\) 处取得极大值 \(f(\mu)=\frac{1}{\sqrt{2\pi}\sigma}\)。
随着 \(\sigma\uparrow\),\(f(\mu)\downarrow\),图像变平坦。
标准正态分布
若随机变量 \(x\) 服从均值为 \(\mu\),标准差为 \(\sigma\) 的正态分布,
\(x\sim N(\mu,\sigma^2)\) 。而当 \(\mu=0,\sigma=1\) 时称为为标准正态分布。
密度函数为: \[ \begin{align} \phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \end{align} \] 分布函数为: \[ \begin{align} \Phi(x)=\int_{-\infin}^x\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\mathrm dt \end{align} \] 该函数有一个性质:\(\Phi(x)=1-\Phi(-x)\)。
所以,如果 \(X\sim N(0,1)\),则有: \[ \begin{align} &P(X\le b)=\Phi(b)\\ &P(X>a)=1-\Phi(a)\\ &P(a<X\le b)=\Phi(b)-\Phi(a)\\ &P(|X|\le a)=2\Phi(a)-1(a>0) \end{align} \]
正态分布的标准化
若 \(X\sim N(\mu,\sigma^2)\),则 \(F(x)=\Phi(\frac{x-\mu}{\sigma})\)。这样,我们就可以通过查表得到 \(\Phi\) 值,反推 \(F(x)\)。
也就是说,如果 \(X\sim N(\mu,\sigma^2)\),则 \(\frac{X-\mu}{\sigma}\sim N(0,1)\)。
离散型随机变量函数的分布
如果 \(X\) 是一个随机变量,而 \(Y=g(X)\),那么 \(Y\) 也是个随机变量。\(Y\) 的分布就得看 \(X\) 的分布以及 \(g(x)\) 了。
如果 \(X\) 的分布给的是个分布列,求 \(Y\) 的分布列,那么直接算就好,最后记得合并相同的 \(Y\) 的取值(概率相加即可),并且按照 \(Y\) 的取值单调递增排序。
连续型随机变量函数的分布
其实之前提到的“正态分布标准化”就是一种随机变量函数。
简单来说,若 \(X\sim N(\mu,\sigma^2)\),则 \(Y=aX+b(a\not=0)\sim N(a\mu+b,(a\sigma)^2)\)。
通用一点,如果 \(Y=aX+b\) 而 \(X\) 的概率密度函数为 \(f_X(x)\),则 \(Y\) 的概率密度函数 \(f_Y(y)=\frac1{|a|}f_X(\frac{y-b}{a})\)。
例:设 \(X\) 在 \((0,1)\) 内服从均匀分布,求 \(Y=-2\ln X\) 的概率密度函数。
首先写出均匀分布的概率密度函数: \[ f_X(x) = \begin{cases} 1, & 0 < x < 1 \\ 0, & \text{其他} \end{cases} \]
已知 \(Y=-2\ln X\),我们需要求 \(X\) 关于 \(Y\) 的表达式:
\[ X = e^{-\frac{Y}{2}} \]
当 \(X\) 从 0 到 1 变化时,\(Y\) 的取值范围为: \[ \begin{align} Y &= -2\ln X \\ 0 &< X < 1 \\ 0 &< Y < +\infty \end{align} \]
所以也需要对于 \(Y\) 的取值进行分类讨论的。
当 \(y>0\) 时, \[ \begin{align} F_y(y)&=P(Y\le y)\\ &=P(-2\ln X\le y)\\ &=P(X\ge e^{-\frac{y}{2}})\\ &=1-P(X<e^{-\frac{y}{2}})\\ &=1-F_X(e^{-\frac{y}{2}}) \end{align} \] 当 \(y\le 0\) 时,\(F_Y(y)=0\)
将上述两个合并,即为答案。
同时还可以发现,这个就是 \(\lambda=\frac12\) 的指数分布。
二维随机变量
二维离散随机变量
\((x,y)\) 的联合分布列:
若 \((X,Y)\) 的所有可能的取值为 \(x_i,y_j\quad i,j=1,2,3\dots\),且 \(p_{ij}=P(X=x_i,Y=y_i),\quad i,j=1,2,3\dots\),则称这一列式子为 \((x,y)\) 的联合分布列。
性质肯定还是和一维随机变量一样: \[ \begin{align} p_{ij}\ge 0\\ \sum_{i=1}^\infin\sum_{j=1}^\infin p_{ij}=1 \end{align} \] 如何求联合分布列?
全列出来。先确定两个随机变量的取值范围,然后计算每一种组合的概率,最后按照顺序画出二维表格。
二维连续随机变量
\[ \begin{align} P((X,Y)\in D)=\iint_D f(x,y)\mathrm dx\mathrm dy \end{align} \]
其中,\(f(x,y)\) 是一个非负可积函数,表示落入 \((x,y)\) 的概率。
非负性:\(f(x,y)\ge 0\)
规范性:\(\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}f(x,y)\mathrm dx\mathrm dy=1\)
常见二维随机分布
二维均匀分布。类似一维均匀分布,利用面积 \(A\) 进行计算,区域 \(G\) 内处处有 \(f(x,y)=\frac1A\)。
二维正态分布。 $$ \[\begin{aligned} f(x, y)= &\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \\ &\exp \left \{-\frac{1}{2\left(1-\rho^2\right)}\left[\frac{\left(x-\mu_1\right)^2}{\sigma_1^2}-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right]\right\} \quad\\ &(-\infty<x<+\infty,-\infty<y<+\infty) \end{aligned}\]$$ 其中有五个参数 \(\mu_1,\mu_2,\sigma_1,\sigma_2,\rho\),且 \(\sigma_1>0,\sigma_2>0,|\rho|<1\)。
如果 \(\rho=0\),则交叉项没了,外面的分母也只剩 \(2\pi\sigma_1\sigma_2\)。
二维随机变量的分布函数
也叫联合分布函数。 \[ \begin{align} F(x,y)=P(\{X\le x\}\cup\{Y\le y\})=P(X\le x,Y\le y) \end{align} \] 其表示随机点落在以 \((x,y)\) 为右顶点的在左下方的无穷矩形区域内的概率。
那么如果需要求指定方形区域 \(x_1<X\le x_2,y_1<Y\le y_2\) 的概率,则类似于二位前缀和公式: \[ \begin{align} P(x_1<X\le x_2,y_1<Y\le y_2)=F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1) \end{align} \] 如果是连续型随机变量的话,\(f(x,y)\) 为其密度函数,则有: \[ \begin{align} F(x,y)&=P(X\le x,Y\le y)=\int_{-\infin}^{x}\int_{-\infin}^y f(u,v)\mathrm du\mathrm dv\\ f(x,y)&=\frac{\partial^2F(x,y)}{\partial x\partial y} \end{align} \] 基本性质:类似一维概率分布函数,特殊边界值和单调性。略。
二维离散型随机变量的边缘分布
比较简单,对一列或一行相加即可。 \[ \begin{align} p_{i\cdot}=P(X=x_i)\sum_{j=1}^\infin p_{ij}\\ p_{\cdot j}=P(Y=y_j)\sum_{i=1}^\infin p_{ij} \end{align} \]
二维连续型随机变量的边缘分布
二维连续型随机变量的边缘密度函数,记作 \(f_X(x)\) 和 \(f_Y(y)\)。
公式: \[ \begin{align} f_X(x)&=\int_{-\infin}^{\infin}f(x,y)\mathrm dy\\ f_Y(y)&=\int_{-\infin}^{\infin}f(x,y)\mathrm dx \end{align} \] 而边缘分布函数,记作 \(F_X(x),F_(y)\)。 \[ \begin{align} F_X(x)&=P(X\le x)=P(X\le x,Y< +\infin)\\ &=\int_{-\infin}^x[\int_{-\infin}^{+\infin}f(x,y)\mathrm dv]\mathrm du\\ f_X(x)&=\int_{-\infin}^{+\infin}f(x,y)\mathrm dy \end{align} \] 即,要求关于 \(x\) 的边缘密度函数 \(f_X(x)\),就对另一个变量 \(y\) 计算 \(\int_{-\infin}^{+\infin}\mathrm dy\) 即可。(可能可以使用“偶倍奇零”原则对被积函数进行化简)
二维正态分布的边缘概率密度函数为一维正态分布,且与 \(\rho\) 无关。
已知联合分布可以计算边缘密度函数;但已知边缘密度函数不能反推联合分布。
边缘分布函数还有一种方式计算: \[ \begin{align} F_X(x)&=P(X\le x)\\ &=P(X\le x,Y< \infin)\\ &= F(x,+\infin)\\ &=\lim_{y\to +\infin}F(x,y) \end{align} \] 其实也和边缘密度函数一样:对另一维变量取极限,得到关于该维变量的边缘分布函数。
大数定律与中心极限定理
依概率收敛和依分布收敛
\[ \begin{align} X_n\xrightarrow[] L X&\quad(X_n 依分布收敛于 X)\\ Y_n\xrightarrow[] P a&\quad(Y_n 依概率收敛于 a) \end{align} \]
两个随机变量序列之和(差、积、商)依【概率/分布】收敛于两个随机变量序列依【概率/分布】的值的和(差、积、商)
其中,依概率是一种强收敛,而依分布收敛是一种弱收敛。
可以从强的推到至弱的:\(X_n\xrightarrow[]P a\Rightarrow X_n\xrightarrow[]L a\)。
切比雪夫不等式
不知道具体分布,只知道期望与方差的情况下,可以估计随机变量偏离其期望的概率。毕竟知道了方差,那么随机变量可不能偏离的太远嘛。
切比雪夫不等式是概率论中的一个重要定理,它为随机变量偏离其期望值的概率提供了一个上界。
切比雪夫不等式的表达式如下:
\[ \begin{align} P(|X - E(X)| \geq \varepsilon) \leq \frac{Var(X)}{\varepsilon^2} \end{align} \]
其中:
- \(X\) 是随机变量
- \(E(X)\) 是 \(X\) 的期望值
- \(Var(X)\) 是 \(X\) 的方差
- \(\varepsilon\) 是任意正实数
这个不等式告诉我们,随机变量 \(X\) 偏离其期望值 \(E(X)\) 至少 \(\varepsilon\) 的概率不超过 \(\frac{Var(X)}{\varepsilon^2}\)。
例如,如果我们有一个随机变量 \(X\),其期望为 10,方差为 4,我们想知道 \(X\) 偏离其期望值至少 3 个单位的概率上界,我们可以这样计算:
\[ \begin{align} P(|X - 10| \geq 3) \leq \frac{4}{3^2} = \frac{4}{9} \approx 0.444 \end{align} \]
这意味着,\(X\) 偏离 10 至少 3 个单位的概率不会超过 44.4%。
例:随机变量 \(X\) 和 \(Y\) 的数学期望均为 5 ,方差分别为 1 和 9 ,而相关系数为 0.5 ,则根据切比雪夫不等式可知 \(P(|X-Y| \geq 4) \leq ?\)
设 \(Z=X-Y\),计算 \(E(Z)\) 和 \(Var(Z)\)。 \[ \begin{align} E(Z)&=E(X)-E(Y)\\ &=0\\ Var(Z)&=Var(X-Y)\\ &=Var(X)+Var(Y)-2Cov(X,Y)\\ &=Var(X)+Var(Y)-2\cdot \rho \sqrt{Var(X)\cdot Var(Y)}\\ &=1+9-2\times0.5\times \sqrt{1\times9}\\ &=7 \end{align} \] 故,题目要求的切比雪夫不等式可以化为: \[ \begin{align} P(|Z-E(Z)|>4)\le \frac{Var(Z)}{4^2}=\frac{7}{16} \end{align} \]
大数定律
大量随机事件的平均结果趋近于期望值
切比雪夫大数定律
切比雪夫大数定律(弱大数定律)
弱大数定律表述如下:对于一个随机变量序列 \(X_1, X_2, ..., X_n\),如果这些随机变量是独立同分布的,且具有有限的期望 \(\mu\) 和方差 \(\sigma^2\),那么它们的算术平均值会依概率收敛于期望值 \(\mu\)。
\[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right) = 1, \quad \forall \varepsilon > 0 \end{align} \]
伯努利大数定律
在 \(n\) 次独立重复的伯努利试验中,如果每次试验成功的概率为 \(p\),失败的概率为 \(1-p\),那么当 \(n\) 趋于无穷大时,成功次数的频率 \(f_n\) 几乎必然收敛于概率 \(p\)。
\[ \begin{align} P\left(\lim_{n \to \infty} f_n = p\right) = 1 \end{align} \]
其中,\(f_n = \frac{X_n}{n}\),\(X_n\) 表示 \(n\) 次试验中成功的次数。
更具体地,对于任意小的正数 \(\varepsilon\),我们有:
\[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{X_n}{n} - p\right| < \varepsilon\right) = 1 \end{align} \]
在大量重复的伯努利试验中,成功的相对频率会趋近于成功的概率。
这就是以频率定义概率的合理性依据。
辛钦大数定律
辛钦大数定律是一种弱大数定律,它放宽了对随机变量方差的要求。辛钦定理表述如下:
对于一个随机变量序列 \(X_1, X_2, ..., X_n\),如果这些随机变量是独立同分布的,且具有有限的期望 \(\mu\)(不要求方差有限),那么它们的算术平均值会依概率收敛于期望值 \(\mu\)。 \[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right) = 1, \quad \forall \varepsilon > 0 \end{align} \]
辛钦大数定律只要求有限期望,适用范围更广。
辛钦大数定律为寻找随机变量的期望值提供了一条实际可行的途径。
!中心极限定理
!参数检验
!线性回归
!参数估计
矩估计
最大似然估计