《概率论与数理统计》笔记

《概率论与数理统计》笔记

随机事件与概率

随机试验与随机事件

随机试验是一个动作,随机事件是随机试验的结果。

  1. 可重复性:试验可以在相同的条件下重复进行
  2. 多结果性:每次试验可能有多个可能的结果,且在试验之前能够明确所有可能的结果
  3. 不确定性:每次试验之前不能确定哪一个结果会出现

满足上述三个特点的试验成为随机试验(简称试验)用E表示。

例如:从0~9这十个数字中任取一个数,是随机试验;从一批灯泡中任取一只,是随机试验。

样本点:随机试验的所有可能的结果。

样本空间:随机试验的所有可能的结果组成的集合。记作 \(\Omega\)

例:掷一枚均匀的骰子,观察出现的点数。

样本空间:\(\Omega=\{1,2,3,4,5,6\}\)

样本空间也是一个事件,而且是必然事件

投出1点,即\(\{1\}\) 是一个基本事件\(\{1\}\subseteq\Omega\)。基本事件是由单个的样本点组成的事件,不能再细分。

7点出现 是一个不可能事件,不含有任何样本点,记作 \(\varnothing\)

随机事件 \(A=\{1,3,5\}\subseteq \Omega\),该随机事件是 \(\Omega\) 的子集。

事件A发生:属于A的任一样本点出现。


例:同时扔两枚硬币,A表示“正反各一枚”,B表示“至少有一枚是正面”。请写出试验的样本空间、基本事件以及事件A、事件B。

样本空间 \(\Omega=\{(正,正),(反,反),(正,反),(反,正)\}\)

(这是一个有限集)

\(A=\{(正,反),(反,正)\}\)

\(B=\{(正,反),(反,正),(正,正)\}\)


例:观察某城市120急救电话台一昼夜接到的呼叫次数。A表示呼叫不超过十次。写出样本空间与事件A。

\(\Omega=\{0,1,2,3,4,\dots\}\)

(这是一个无限集)

\(A=\{0,1,2,3,\dots,10\}\)


一些集合知识

\[ \begin{align} A-B=A-AB=A\overline B\\ A \cap B \sub A \sub A \cup B \sub \Omega \end{align} \]

互不相容(互斥):\(AB=\varnothing\)

\(A_1,A_2,\dots,A_n\) 两两互斥\(A_iA_j=\varnothing\)

对立事件:\(A\cup B=\Omega \and A\cap B=\varnothing\)

对立只能两个事件之间;互斥可以多个事件之间两两互斥。

\(A,B对立 \Rightarrow A,B互斥\)

\(A,B对立 \Rightarrow \overline A与\overline B对立\)

\(A,B互斥 \not\Rightarrow \overline A与\overline B互斥\)

完备事件组:若 \(A_1,\dots,A_n\) 满足: \[ \begin{equation} \left\{\begin{array}{l} A_i \cap A_j=\phi \\ \sum A_i=\Omega \end{array}\right. \end{equation} \] 即:各集合事件没有交集,且并集为全集。

集合的分配率\[ \begin{align} (A\cup B)\cap C=(A\cap B)\cup(B\cap C)\\ (A\cap B)\cup C=(A\cup C)\cap (B\cup C) \end{align} \] 集合的对偶率\[ \begin{align} \overline{A\cup B}=\overline A \cap \overline B\\ \overline{A\cap B}=\overline A \cup \overline B \end{align} \] 长线变短线,交并要变号

频率与概率

频率:略。

概率:\(E\) 是一个随机试验,\(\Omega\) 是其样本空间。则对于每一个事件 \(A\) 都有一个实数 \(P(A)\in[0,1]\),称为事件 \(A\) 发生的概率。

其中,\(P\) 是一个集合函数,

  1. 非负性:\(P(A)\ge 0\)
  2. 规范性:\(P(\Omega)=1\)
  3. 可列可加性:若\(A_1,A_2,\dots,A_n,\dots\) 两两互斥,则 \(P(\sum_{i=1}^\infin A_i)=\sum_{i=1}^\infin P(A_i)\)

\(P(\varnothing)=0\),反之不成立,即 \(P(A)=0\not\Rightarrow A=\varnothing\),概率为 \(0\) 的事件不是不可能事件,也有可能发生。

由可列可加性可得:如果A,B互斥,则 \(P(A+B)=P(A)+P(B)\)

反之,\(P(A+B)=P(A)+P(B)-P(AB)\Rightarrow P(AB)=0\not \Rightarrow AB=\varnothing\)

\(P(A-B)=P(A)-P(AB)\)。特别地,如果 \(B\subseteq A\),则有 \(P(A-B)=P(A)-P(B)\),且\(P(A)\ge P(B)\)

加法公式:\(P(A\cup B)=P(A)+P(B)-P(AB)\)

古典概型和几何概型

古典概型

  1. 有限个样本点
  2. 等可能性

这一部分就是高中学的,略。

几何概型

长度,面积,体积。\(P(A)=\frac{\mu(A)}{\mu(\Omega)}\)

条件概率与乘法公式

条件概率

引:在有两个孩子的家庭中,至少有一个男孩求另一个也是男孩的概率。

\(\Omega=\{(男,男),(女,男),(男,女),(女,女)\}\)

\(A=\{(男,男),(女,男),(男,女)\}\)

\(B=\{(男,男)\}\)

\(P(B|A)=\frac13\)

此时,样本空间变成了 \(A\) 而不是 \(\Omega\) 了。

定义

某试验的样本空间是 \(\Omega\),有 \(A,B\) 两事件,\(P(A)>0\),在事件 \(A\) 已发生的概率下事件 \(B\) 的概率,就是 \(B\)\(A\) 的条件概率,记作 \(P(B|A)\)

简单的条件概率问题,可通过画图快速解决。

复杂一点的,套公式: \[ \begin{align} P(A|B)&=\frac{P(AB)}{P(B)}\quad P(B)>0\\ P(AB)&=P(A|B) \cdot P(B) \end{align} \]

记忆:挺好记的,\(A|B\) 长的就像是 \(A/B\),所以要 \(\times P(B)\) 抵掉。(我乱说的,仅供辅助记忆)

公理

  1. 非负性。\(P(A|B)\ge 0\)
  2. 规范性。\(P(A|\Omega)=1\)
  3. 可列可加性。若\(B_1,B_2,\dots\)两两互斥,则有 \(P(\sum_{i=1}^\infin B_i|A)=\sum_{i=1}^\infin P(B_i|A)\)

根据上述1、2可得:\(0\le P(A|B)\le 1\)

性质

\(P(\varnothing|A)=0\)

\(P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)-P(B_1B_2|A)\)

特别地,当 \(B_1,B_2\)互斥,则有 \(P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)\)

\(P(B|A)+P(\overline B|A)=1\)

乘法公式

即上面的推的 \[ \begin{align} P(AB)&=P(A|B) \cdot P(B)\quad P(B)>0\\ &=P(B|A) \cdot P(A)\quad P(A)>0 \end{align} \] 推广到三个事件: \[ \begin{align} P(ABC)&=P(AB)\cdot P(C|AB)\\ &=P(A)\cdot P(B|A) \cdot P(C|AB) \end{align} \]

例:设某光学仪器厂制造的透镜,第一次落下时打破的概率为 0.5,若第一次落下未打破,第二次落下打破的概率为 0.7,若前两次落下未打破,第三次落下打破为概率为 0.9。求透镜落下三次而未打破的概率。

\(A_1,A_2,A_3\) 表示三次落下会打破。

故已知:

\(P(A_1)=0.5\)

\(P(A_2|\overline {A_1})=0.7\)

\(P(A_3|\overline{A_1}\ \overline {A_2})=0.9\)

欲求 \(P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})\)

看到题目给的信息可能第一反应:

\(P(A_1)=0.5\Rightarrow P(\overline{A_1})=0.5\)

\(P(A_2)=P(A_2|\overline{A_1})\cdot P(A_1)=0.7\times 0.5=0.35\)

\(\dots\)

但是这里需要求的是 \(P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})\)

一定要看清楚题目要求的是什么。

直接用乘法公式展开得: \[ \begin{align} P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})&=P(\overline{A_1}\ \overline{A_2})\cdot P(\overline{A_3}|\overline{A_1}\ \overline{A_2})\\ &=P(\overline{A_1})\cdot P(\overline{A_2}|\overline{A_1}) \cdot P(\overline{A_3}|\overline{A_1}\ \overline{A_2})\\ &=(1-P(A_1))\cdot (1-P(\overline{A_2}|\overline{A_1})) \cdot (1-P(\overline{A_3}|\overline{A_1}\ \overline{A_2}))\\ &=0.5\times 0.3\times 0.1\\ &=0.015 \end{align} \] 先用乘法公式展开,可全部展开成变成题目所给的条件概率了。

另外,注意区分题目问的到底是条件概率 \(P(A|BC)\) 还是普通概率 \(P(ABC)\)

全概率公式与贝叶斯公式

全概率公式

定义

样本空间的划分,也叫做完备事件组

设事件 \(A_1,A_2,\dots,A_n\) 为样本空间 \(\Omega\) 的一组事件,且满足:

  1. 两两互斥:\(A_iA_j=\varnothing (i\not =j)\)
  2. 并集为样本空间:\(\bigcup_{i=1}^nA_i=\Omega\)

则称 \(A_1,A_2,\dots,A_n\) 为样本空间 \(\Omega\) 的一个划分。

全概率公式

设事件 \(A_1,A_2,\dots,A_n\) 为样本空间 \(\Omega\) 的一个划分,且 \(P(A_i)>0,i=1,2,\dots,n\),则对于任意事件 \(B\),有 \[ \begin{align} P(B)=\sum_{i=1}^nP(A_i)P(B|A_i) \end{align} \]

应用

如果试验 \(E\) 有两个相关的试验 \(E_1,E_2\) 复合而成,\(E_1\) 有若干种可能的结果,\(E_2\)\(E_1\) 的基础上也有若干种可能的结果。如果求和 \(E_2\) 的结果有关的概率,可以用全概率公式。试验 \(E_1\) 的几种可能的结果就构成了完备事件组。

例:设袋中有12个乒乓球,9个新球,3个旧球。第一次比赛取3球,比赛后放回;第二次比赛再任取3球,求第二次比赛取得3个新球的概率。

这里的两次试验分别是:

\(E_1=\{第一次比赛取三个球\}\)

\(E_2=\{第二次比赛取三个球\}\)

设:

\(A_i=第一次比赛恰取出i个新球(i=0,1,2,3)\)

\(B=第二次比赛取出了3个新球\)

此时,\(A_0,A_1,A_2,A_3\) 恰好构成了对于样本空间的一个划分。

套用全概率公式:

\(P(B)=\sum_{i=0}^3P(A_i)P(B|A_i)\)

贝叶斯公式

引:设仑库中共有10箱产品,其中甲乙丙三厂各有 \(5、3、2\) 箱, 且已知甲乙丙三厂的次品率分别为 \(10 \% 、 15 \% 、 20 \%\),现从中任取1箱,再从该箱中任取1件产品,若取得的产品为次品,问该产品是甲厂生产的概率是多少?

该问题不是求取得的产品为正品、次品问题,而是在明确知道产品品质的情况下,分析“货出谁家”的问题。

\(A_1=\{甲厂生产的产品\}\)

\(A_2=\{乙厂生产的产品 \}\)

\(A_3=\{ 丙厂生产的产品 \}\)

\(B=\{ 取得次品 \}\)

该问题要求的是

\(P(A_1|B)\quad i=1,2,3\)

推导

由条件概率的定义 \[ \begin{align} P\left(A_j | B\right)=\frac{P\left(A_j B\right)}{P(B)}=\frac{P\left(A_j\right) P\left(B | A_j\right)}{P(B)} \end{align} \] 其中,由全概率公式可知 \[ \begin{align} P(B)=\sum_{i=1}^nP(A_i)P(B|A_i) \end{align} \] 代入得 \[ \begin{align} P(A_j|B)=\frac{P(A_j)P(B|A_j)}{\sum_{i=1}^nP(A_i)P(B|A_i)}\quad(j=1,2,\dots,n) \end{align} \]

应用

如果试验 \(E\) 有两个相关的试验 \(E_1, E_2\) 复合而成, \(E_1\) 有若干种可能的结果,\(E_2\)\(E_1\) 的基础上也有若干种可能的结果,如果已知和 \(E_2\) 的结果有关某事件发生了,求和试验 \(E_1\) 的结果有关事件的概率,可以用贝叶斯公式。试验 \(E_1\) 的几种可能的结果就构成了完备事件组。

如果把样本空间的一个划分 \(A_1, A_2, \dots, A_n\) 看作是导致事件 \(B\) 发生的各种原因, 事件 \(B\) 是伴随着“原因” \(A_i\) 中的一个出现的。如果 \(B\) 发生了, 求 \(P\left(A_j | B\right)\) 可以用贝叶斯公式。

所以把 \(P(A_1),P(A_2)\) 成为先验概率,把 \(P(A_1|B),P(A|2,B)\) 称为后验概率

例:某商店由三个厂购进一批灯泡,其中甲厂占 \(25\%\),乙厂占 \(35\%\),丙厂占 \(40 \%\) ,且各厂的次品率分别为 \(5 \%, 4 \%, 2 \%\) 。如果消费者已经买到一个次品灯泡,问是哪个厂出产的可能性大?

设:

\(A_1=\{灯泡是甲厂出产的\}\)

\(A_2=\{灯泡是乙厂出产的\}\)

\(A_3=\{灯泡是丙厂出产的\}\)

\(B=\{买到一个次品灯泡\}\)

题目的条件可以化为:

\(P(A_1)=0.25,P(A_2)=0.35,P(A_3)=0.4\)

\(P(B|A_1)=0.05,P(B|A_2)=0.04,P(B|A_3)=0.02\)

由全概率公式得:

\(P(B)=\sum_{i=1}^3P(A_i)P(B|A_i)=0.0345\)

由贝叶斯公式得:

\(P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(B|A_1)P(A_1)}{P(B)}=\frac{0.05\times0.25}{0.0345}=0.3623\)

同理算出 \(P(A_2|B),P(A_3|B)\) ,然后比较大小即可。


总结

知因求果:全概率公式

执果索因:贝叶斯公式

事件的独立性

性质

\(P(A)>0,P(B)>0\),则 \(A\)\(B\) 独立的充分必要条件是: \[ \begin{align} P(B|A)=P(B)\\ P(A|B)=P(A) \end{align} \] 即,“\(A\) 是否发生”对于 \(B\) 事件没有影响,“\(B\) 是否发生”对于 \(A\) 也没有影响。

如果 \(A\)\(B\) 相互独立,则 \(\overline{A}\)\(B\)\(A\)\(\overline{B}\)\(\overline{A}\)\(\overline{B}\) 都是两两独立的。

随机变量及其分布

离散型分布

01分布

01分布(也称为伯努利分布)只有两个样本点:0和1。其概率质量函数为: \[ \begin{align} P(X = 1) = p\\ P(X = 0) = 1 - p \end{align} \] 其中,\(p\) 是事件发生的概率(\(0 \leq p \leq 1\))。

记作 \(X\sim B(1,p)\)

二项分布

如果有 \(n\) 次独立的伯努利试验,每次试验成功的概率为 \(p\),则随机变量 \(X\) 表示成功的次数,服从二项分布,其概率质量函数为:

\[ \begin{align} P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} \end{align} \] 其中: - \(n\) 是试验的总次数。 - \(k\) 是成功的次数(\(k = 0, 1, \ldots, n\))。 - \(\binom{n}{k}\) 是组合数,表示从 \(n\) 次中选择 \(k\) 次成功的方式。

记作 \(X\sim B(n,p)\)

泊松分布

\[ \begin{align} P(X=k)=\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \]

泊松定理

当试验次数 \(n\) 趋近于无穷大、成功概率 \(p\) 趋近于零、但 \(np\) 保持恒定的情况下,成功次数 \(X\) 的分布趋近于 \(\lambda=np\) 的泊松分布。 \[ \begin{align} \lim_{n\to \infin} P(X_n=k)=\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \] 所以在 \(n\) 较大、\(p\) 较小时,常用泊松分布来代替计算二项分布。 \[ \begin{align} C_n^kp^k(1-p)^{n-k}\approx\frac{\lambda^ke^{-\lambda}}{k!} \end{align} \] 其中,\(\lambda=np\)

连续型分布

均匀分布

略。

指数分布

\[ \begin{align} f(x)= \begin{cases}\lambda e^{-\lambda x}, & x>0 \\ 0, & x \leq 0 \end{cases} \end{align} \]

其中 \(\lambda>0\) 是常数。

通常用于各种寿命的分布,或者某一时间发生的等待时间。

容易看出,\(f(x)\) 的原函数 \(F(x)=-e^{-\lambda x}\)。常需要计算随机变量在一段区间内的取值范围。

正态分布

正态分布的密度函数为: \[ \begin{align} f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \end{align} \] 则其分布函数\[ \begin{align} F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^xe^{-\frac{(x-\mu)^2}{2\sigma^2}}\mathrm dx \end{align} \] 正态分布用得很多。最常见(\(\mathrm{N}ormal\))。二项分布、泊松分布的极限是正态分布。

求导\[ \begin{align} f'(x)=-\frac{x-\mu}{\sigma^2}f(x) \end{align} \]\(x=\mu\) 处取得极大值 \(f(\mu)=\frac{1}{\sqrt{2\pi}\sigma}\)

随着 \(\sigma\uparrow\)\(f(\mu)\downarrow\),图像变平坦

标准正态分布

若随机变量 \(x\) 服从均值为 \(\mu\),标准差为 \(\sigma\) 的正态分布,

\(x\sim N(\mu,\sigma^2)\) 。而当 \(\mu=0,\sigma=1\) 时称为为标准正态分布。

密度函数为: \[ \begin{align} \phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \end{align} \] 分布函数为: \[ \begin{align} \Phi(x)=\int_{-\infin}^x\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\mathrm dt \end{align} \] 该函数有一个性质:\(\Phi(x)=1-\Phi(-x)\)

所以,如果 \(X\sim N(0,1)\),则有: \[ \begin{align} &P(X\le b)=\Phi(b)\\ &P(X>a)=1-\Phi(a)\\ &P(a<X\le b)=\Phi(b)-\Phi(a)\\ &P(|X|\le a)=2\Phi(a)-1(a>0) \end{align} \]

正态分布的标准化

\(X\sim N(\mu,\sigma^2)\),则 \(F(x)=\Phi(\frac{x-\mu}{\sigma})\)。这样,我们就可以通过查表得到 \(\Phi\) 值,反推 \(F(x)\)

也就是说,如果 \(X\sim N(\mu,\sigma^2)\),则 \(\frac{X-\mu}{\sigma}\sim N(0,1)\)

离散型随机变量函数的分布

如果 \(X\) 是一个随机变量,而 \(Y=g(X)\),那么 \(Y\) 也是个随机变量。\(Y\) 的分布就得看 \(X\) 的分布以及 \(g(x)\) 了。

如果 \(X\) 的分布给的是个分布列,求 \(Y\) 的分布列,那么直接算就好,最后记得合并相同的 \(Y\) 的取值(概率相加即可),并且按照 \(Y\) 的取值单调递增排序。

连续型随机变量函数的分布

其实之前提到的“正态分布标准化”就是一种随机变量函数。

简单来说,若 \(X\sim N(\mu,\sigma^2)\),则 \(Y=aX+b(a\not=0)\sim N(a\mu+b,(a\sigma)^2)\)

通用一点,如果 \(Y=aX+b\)\(X\) 的概率密度函数为 \(f_X(x)\),则 \(Y\) 的概率密度函数 \(f_Y(y)=\frac1{|a|}f_X(\frac{y-b}{a})\)

例:设 \(X\)\((0,1)\) 内服从均匀分布,求 \(Y=-2\ln X\) 的概率密度函数。

首先写出均匀分布的概率密度函数: \[ f_X(x) = \begin{cases} 1, & 0 < x < 1 \\ 0, & \text{其他} \end{cases} \]

已知 \(Y=-2\ln X\),我们需要求 \(X\) 关于 \(Y\) 的表达式:

\[ X = e^{-\frac{Y}{2}} \]

\(X\) 从 0 到 1 变化时,\(Y\) 的取值范围为: \[ \begin{align} Y &= -2\ln X \\ 0 &< X < 1 \\ 0 &< Y < +\infty \end{align} \]

所以也需要对于 \(Y\) 的取值进行分类讨论的。

\(y>0\) 时, \[ \begin{align} F_y(y)&=P(Y\le y)\\ &=P(-2\ln X\le y)\\ &=P(X\ge e^{-\frac{y}{2}})\\ &=1-P(X<e^{-\frac{y}{2}})\\ &=1-F_X(e^{-\frac{y}{2}}) \end{align} \]\(y\le 0\) 时,\(F_Y(y)=0\)

将上述两个合并,即为答案。

同时还可以发现,这个就是 \(\lambda=\frac12\) 的指数分布。

二维随机变量

二维离散随机变量

\((x,y)\) 的联合分布列:

\((X,Y)\) 的所有可能的取值为 \(x_i,y_j\quad i,j=1,2,3\dots\),且 \(p_{ij}=P(X=x_i,Y=y_i),\quad i,j=1,2,3\dots\),则称这一列式子为 \((x,y)\) 的联合分布列。

性质肯定还是和一维随机变量一样: \[ \begin{align} p_{ij}\ge 0\\ \sum_{i=1}^\infin\sum_{j=1}^\infin p_{ij}=1 \end{align} \] 如何求联合分布列?

全列出来。先确定两个随机变量的取值范围,然后计算每一种组合的概率,最后按照顺序画出二维表格。

二维连续随机变量

\[ \begin{align} P((X,Y)\in D)=\iint_D f(x,y)\mathrm dx\mathrm dy \end{align} \]

其中,\(f(x,y)\) 是一个非负可积函数,表示落入 \((x,y)\) 的概率。

非负性:\(f(x,y)\ge 0\)

规范性:\(\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}f(x,y)\mathrm dx\mathrm dy=1\)

常见二维随机分布

二维均匀分布。类似一维均匀分布,利用面积 \(A\) 进行计算,区域 \(G\) 内处处有 \(f(x,y)=\frac1A\)

二维正态分布。 $$ \[\begin{aligned} f(x, y)= &\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \\ &\exp \left \{-\frac{1}{2\left(1-\rho^2\right)}\left[\frac{\left(x-\mu_1\right)^2}{\sigma_1^2}-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right]\right\} \quad\\ &(-\infty<x<+\infty,-\infty<y<+\infty) \end{aligned}\]

$$ 其中有五个参数 \(\mu_1,\mu_2,\sigma_1,\sigma_2,\rho\),且 \(\sigma_1>0,\sigma_2>0,|\rho|<1\)

如果 \(\rho=0\),则交叉项没了,外面的分母也只剩 \(2\pi\sigma_1\sigma_2\)

二维随机变量的分布函数

也叫联合分布函数\[ \begin{align} F(x,y)=P(\{X\le x\}\cup\{Y\le y\})=P(X\le x,Y\le y) \end{align} \] 其表示随机点落在以 \((x,y)\) 为右顶点的在左下方的无穷矩形区域内的概率。

那么如果需要求指定方形区域 \(x_1<X\le x_2,y_1<Y\le y_2\) 的概率,则类似于二位前缀和公式: \[ \begin{align} P(x_1<X\le x_2,y_1<Y\le y_2)=F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1) \end{align} \] 如果是连续型随机变量的话,\(f(x,y)\) 为其密度函数,则有: \[ \begin{align} F(x,y)&=P(X\le x,Y\le y)=\int_{-\infin}^{x}\int_{-\infin}^y f(u,v)\mathrm du\mathrm dv\\ f(x,y)&=\frac{\partial^2F(x,y)}{\partial x\partial y} \end{align} \] 基本性质:类似一维概率分布函数,特殊边界值和单调性。略。

二维离散型随机变量的边缘分布

比较简单,对一列或一行相加即可。 \[ \begin{align} p_{i\cdot}=P(X=x_i)\sum_{j=1}^\infin p_{ij}\\ p_{\cdot j}=P(Y=y_j)\sum_{i=1}^\infin p_{ij} \end{align} \]

二维连续型随机变量的边缘分布

二维连续型随机变量的边缘密度函数,记作 \(f_X(x)\)\(f_Y(y)\)

公式: \[ \begin{align} f_X(x)&=\int_{-\infin}^{\infin}f(x,y)\mathrm dy\\ f_Y(y)&=\int_{-\infin}^{\infin}f(x,y)\mathrm dx \end{align} \] 而边缘分布函数,记作 \(F_X(x),F_(y)\)\[ \begin{align} F_X(x)&=P(X\le x)=P(X\le x,Y< +\infin)\\ &=\int_{-\infin}^x[\int_{-\infin}^{+\infin}f(x,y)\mathrm dv]\mathrm du\\ f_X(x)&=\int_{-\infin}^{+\infin}f(x,y)\mathrm dy \end{align} \] 即,要求关于 \(x\) 的边缘密度函数 \(f_X(x)\),就对另一个变量 \(y\) 计算 \(\int_{-\infin}^{+\infin}\mathrm dy\) 即可。(可能可以使用“偶倍奇零”原则对被积函数进行化简)

二维正态分布的边缘概率密度函数为一维正态分布,且与 \(\rho\) 无关。

已知联合分布可以计算边缘密度函数;但已知边缘密度函数不能反推联合分布。

边缘分布函数还有一种方式计算: \[ \begin{align} F_X(x)&=P(X\le x)\\ &=P(X\le x,Y< \infin)\\ &= F(x,+\infin)\\ &=\lim_{y\to +\infin}F(x,y) \end{align} \] 其实也和边缘密度函数一样:对另一维变量取极限,得到关于该维变量的边缘分布函数

大数定律与中心极限定理

依概率收敛和依分布收敛

\[ \begin{align} X_n\xrightarrow[] L X&\quad(X_n 依分布收敛于 X)\\ Y_n\xrightarrow[] P a&\quad(Y_n 依概率收敛于 a) \end{align} \]

两个随机变量序列之和(差、积、商)依【概率/分布】收敛于两个随机变量序列依【概率/分布】的值的和(差、积、商)

其中,依概率是一种强收敛,而依分布收敛是一种弱收敛。

可以从强的推到至弱的:\(X_n\xrightarrow[]P a\Rightarrow X_n\xrightarrow[]L a\)

切比雪夫不等式

不知道具体分布,只知道期望与方差的情况下,可以估计随机变量偏离其期望的概率。毕竟知道了方差,那么随机变量可不能偏离的太远嘛。

切比雪夫不等式是概率论中的一个重要定理,它为随机变量偏离其期望值的概率提供了一个上界。

切比雪夫不等式的表达式如下:

\[ \begin{align} P(|X - E(X)| \geq \varepsilon) \leq \frac{Var(X)}{\varepsilon^2} \end{align} \]

其中:

  • \(X\) 是随机变量
  • \(E(X)\)\(X\) 的期望值
  • \(Var(X)\)\(X\) 的方差
  • \(\varepsilon\) 是任意正实数

这个不等式告诉我们,随机变量 \(X\) 偏离其期望值 \(E(X)\) 至少 \(\varepsilon\) 的概率不超过 \(\frac{Var(X)}{\varepsilon^2}\)

例如,如果我们有一个随机变量 \(X\),其期望为 10,方差为 4,我们想知道 \(X\) 偏离其期望值至少 3 个单位的概率上界,我们可以这样计算:

\[ \begin{align} P(|X - 10| \geq 3) \leq \frac{4}{3^2} = \frac{4}{9} \approx 0.444 \end{align} \]

这意味着,\(X\) 偏离 10 至少 3 个单位的概率不会超过 44.4%。

例:随机变量 \(X\)\(Y\) 的数学期望均为 5 ,方差分别为 1 和 9 ,而相关系数为 0.5 ,则根据切比雪夫不等式可知 \(P(|X-Y| \geq 4) \leq ?\)

\(Z=X-Y\),计算 \(E(Z)\)\(Var(Z)\)\[ \begin{align} E(Z)&=E(X)-E(Y)\\ &=0\\ Var(Z)&=Var(X-Y)\\ &=Var(X)+Var(Y)-2Cov(X,Y)\\ &=Var(X)+Var(Y)-2\cdot \rho \sqrt{Var(X)\cdot Var(Y)}\\ &=1+9-2\times0.5\times \sqrt{1\times9}\\ &=7 \end{align} \] 故,题目要求的切比雪夫不等式可以化为: \[ \begin{align} P(|Z-E(Z)|>4)\le \frac{Var(Z)}{4^2}=\frac{7}{16} \end{align} \]

大数定律

大量随机事件的平均结果趋近于期望值

切比雪夫大数定律

切比雪夫大数定律(弱大数定律)

弱大数定律表述如下:对于一个随机变量序列 \(X_1, X_2, ..., X_n\),如果这些随机变量是独立同分布的,且具有有限的期望 \(\mu\) 和方差 \(\sigma^2\),那么它们的算术平均值会依概率收敛于期望值 \(\mu\)

\[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right) = 1, \quad \forall \varepsilon > 0 \end{align} \]

伯努利大数定律

\(n\) 次独立重复的伯努利试验中,如果每次试验成功的概率为 \(p\),失败的概率为 \(1-p\),那么当 \(n\) 趋于无穷大时,成功次数的频率 \(f_n\) 几乎必然收敛于概率 \(p\)

\[ \begin{align} P\left(\lim_{n \to \infty} f_n = p\right) = 1 \end{align} \]

其中,\(f_n = \frac{X_n}{n}\)\(X_n\) 表示 \(n\) 次试验中成功的次数。

更具体地,对于任意小的正数 \(\varepsilon\),我们有:

\[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{X_n}{n} - p\right| < \varepsilon\right) = 1 \end{align} \]

在大量重复的伯努利试验中,成功的相对频率会趋近于成功的概率。

这就是以频率定义概率的合理性依据。

辛钦大数定律

辛钦大数定律是一种弱大数定律,它放宽了对随机变量方差的要求。辛钦定理表述如下:

对于一个随机变量序列 \(X_1, X_2, ..., X_n\),如果这些随机变量是独立同分布的,且具有有限的期望 \(\mu\)(不要求方差有限),那么它们的算术平均值会依概率收敛于期望值 \(\mu\)\[ \begin{align} \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right) = 1, \quad \forall \varepsilon > 0 \end{align} \]

辛钦大数定律只要求有限期望,适用范围更广。

辛钦大数定律为寻找随机变量的期望值提供了一条实际可行的途径。

!中心极限定理

!参数检验

!线性回归

!参数估计

矩估计

最大似然估计

!方差分析