《概率论与数理统计》笔记

《概率论与数理统计》笔记

随机事件与概率

随机试验与随机事件

随机试验是一个动作,随机事件是随机试验的结果。

  1. 可重复性:试验可以在相同的条件下重复进行
  2. 多结果性:每次试验可能有多个可能的结果,且在试验之前能够明确所有可能的结果
  3. 不确定性:每次试验之前不能确定哪一个结果会出现

满足上述三个特点的试验成为随机试验(简称试验)用E表示。

例如:从0~9这十个数字中任取一个数,是随机试验;从一批灯泡中任取一只,是随机试验。

样本点:随机试验的所有可能的结果。

样本空间:随机试验的所有可能的结果组成的集合。记作 $\Omega$。

例:掷一枚均匀的骰子,观察出现的点数。

样本空间:$\Omega={1,2,3,4,5,6}$

样本空间也是一个事件,而且是必然事件

投出1点,即${1}$ 是一个基本事件,${1}\subseteq\Omega$。基本事件是由单个的样本点组成的事件,不能再细分。

7点出现 是一个不可能事件,不含有任何样本点,记作 $\varnothing$

随机事件 $A={1,3,5}\subseteq \Omega$,该随机事件是 $\Omega$ 的子集。

事件A发生:属于A的任一样本点出现。


例:同时扔两枚硬币,A表示“正反各一枚”,B表示“至少有一枚是正面”。请写出试验的样本空间、基本事件以及事件A、事件B。

样本空间 $\Omega={(正,正),(反,反),(正,反),(反,正)}$

(这是一个有限集)

$A={(正,反),(反,正)}$

$B={(正,反),(反,正),(正,正)}$


例:观察某城市120急救电话台一昼夜接到的呼叫次数。A表示呼叫不超过十次。写出样本空间与事件A。

$\Omega={0,1,2,3,4,\dots}$

(这是一个无限集)

$A={0,1,2,3,\dots,10}$


一些集合知识

互不相容(互斥):$AB=\varnothing$

$A_1,A_2,\dots,A_n$ 两两互斥:$A_iA_j=\varnothing$

对立事件:$A\cup B=\Omega \and A\cap B=\varnothing$

对立只能两个事件之间;互斥可以多个事件之间两两互斥。

$A,B对立 \Rightarrow A,B互斥$

$A,B对立 \Rightarrow \overline A与\overline B对立$

$A,B互斥 \not\Rightarrow \overline A与\overline B互斥$

完备事件组:若 $A_1,\dots,A_n$ 满足:

即:各集合事件没有交集,且并集为全集。

集合的分配率

集合的对偶率

长线变短线,交并要变号

频率与概率

频率:略。

概率:$E$ 是一个随机试验,$\Omega$ 是其样本空间。则对于每一个事件 $A$ 都有一个实数 $P(A)\in[0,1]$,称为事件 $A$ 发生的概率。

其中,$P$ 是一个集合函数,

  1. 非负性:$P(A)\ge 0$
  2. 规范性:$P(\Omega)=1$
  3. 可列可加性:若$A1,A_2,\dots,A_n,\dots$ 两两互斥,则 $P(\sum{i=1}^\infin Ai)=\sum{i=1}^\infin P(A_i)$

$P(\varnothing)=0$,反之不成立,即 $P(A)=0\not\Rightarrow A=\varnothing$,概率为 $0$ 的事件不是不可能事件,也有可能发生。

由可列可加性可得:如果A,B互斥,则 $P(A+B)=P(A)+P(B)$。

反之,$P(A+B)=P(A)+P(B)-P(AB)\Rightarrow P(AB)=0\not \Rightarrow AB=\varnothing$

$P(A-B)=P(A)-P(AB)$。特别地,如果 $B\subseteq A$,则有 $P(A-B)=P(A)-P(B)$,且$P(A)\ge P(B)$

加法公式:$P(A\cup B)=P(A)+P(B)-P(AB)$

古典概型和几何概型

古典概型

  1. 有限个样本点
  2. 等可能性

这一部分就是高中学的,略。

几何概型

长度,面积,体积。$P(A)=\frac{\mu(A)}{\mu(\Omega)}$

条件概率与乘法公式

条件概率

引:在有两个孩子的家庭中,至少有一个男孩求另一个也是男孩的概率。

$\Omega={(男,男),(女,男),(男,女),(女,女)}$

$A={(男,男),(女,男),(男,女)}$

$B={(男,男)}$

$P(B|A)=\frac13$

此时,样本空间变成了 $A$ 而不是 $\Omega$ 了。

定义

某试验的样本空间是 $\Omega$,有 $A,B$ 两事件,$P(A)>0$,在事件 $A$ 已发生的概率下事件 $B$ 的概率,就是 $B$ 对 $A$ 的条件概率,记作 $P(B|A)$。

简单的条件概率问题,可通过画图快速解决。

复杂一点的,套公式:

记忆:挺好记的,$A|B$ 长的就像是 $A/B$,所以要 $\times P(B)$ 抵掉。(我乱说的,仅供辅助记忆)

公理

  1. 非负性。$P(A|B)\ge 0$
  2. 规范性。$P(A|\Omega)=1$
  3. 可列可加性。若$B1,B_2,\dots$两两互斥,则有 $P(\sum{i=1}^\infin Bi|A)=\sum{i=1}^\infin P(B_i|A)$

根据上述1、2可得:$0\le P(A|B)\le 1$

性质

$P(\varnothing|A)=0$

$P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)-P(B_1B_2|A)$

特别地,当 $B_1,B_2$互斥,则有 $P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)$

$P(B|A)+P(\overline B|A)=1$

乘法公式

即上面的推的

推广到三个事件:

例:设某光学仪器厂制造的透镜,第一次落下时打破的概率为 0.5,若第一次落下未打破,第二次落下打破的概率为 0.7,若前两次落下未打破,第三次落下打破为概率为 0.9。求透镜落下三次而未打破的概率。

设 $A_1,A_2,A_3$ 表示三次落下会打破。

故已知:

$P(A_1)=0.5$

$P(A_2|\overline {A_1})=0.7$

$P(A_3|\overline{A_1}\ \overline {A_2})=0.9$

欲求 $P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})$。

看到题目给的信息可能第一反应:

$P(A_1)=0.5\Rightarrow P(\overline{A_1})=0.5$

$P(A_2)=P(A_2|\overline{A_1})\cdot P(A_1)=0.7\times 0.5=0.35$

$\dots$

但是这里需要求的是 $P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})$

一定要看清楚题目要求的是什么。

直接用乘法公式展开得:

先用乘法公式展开,可全部展开成变成题目所给的条件概率了。

另外,注意区分题目问的到底是条件概率 $P(A|BC)$ 还是普通概率 $P(ABC)$。

全概率公式与贝叶斯公式

全概率公式

定义

样本空间的划分,也叫做完备事件组

设事件 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一组事件,且满足:

  1. 两两互斥:$A_iA_j=\varnothing (i\not =j)$
  2. 并集为样本空间:$\bigcup_{i=1}^nA_i=\Omega$

则称 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一个划分。

全概率公式

设事件 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一个划分,且 $P(A_i)>0,i=1,2,\dots,n$,则对于任意事件 $B$,有

应用

如果试验 $E$ 有两个相关的试验 $E_1,E_2$ 复合而成,$E_1$ 有若干种可能的结果,$E_2$ 在 $E_1$ 的基础上也有若干种可能的结果。如果求和 $E_2$ 的结果有关的概率,可以用全概率公式。试验 $E_1$ 的几种可能的结果就构成了完备事件组。

例:设袋中有12个乒乓球,9个新球,3个旧球。第一次比赛取3球,比赛后放回;第二次比赛再任取3球,求第二次比赛取得3个新球的概率。

这里的两次试验分别是:

$E_1={第一次比赛取三个球}$

$E_2={第二次比赛取三个球}$

设:

$A_i=第一次比赛恰取出i个新球(i=0,1,2,3)$

$B=第二次比赛取出了3个新球$

此时,$A_0,A_1,A_2,A_3$ 恰好构成了对于样本空间的一个划分。

套用全概率公式:

$P(B)=\sum_{i=0}^3P(A_i)P(B|A_i)$

贝叶斯公式

引:设仑库中共有10箱产品,其中甲乙丙三厂各有 $5、3、2$ 箱, 且已知甲乙丙三厂的次品率分别为 $10 \% 、 15 \% 、 20 \%$,现从中任取1箱,再从该箱中任取1件产品,若取得的产品为次品,问该产品是甲厂生产的概率是多少?

该问题不是求取得的产品为正品、次品问题,而是在明确知道产品品质的情况下,分析“货出谁家”的问题。

$A_1={甲厂生产的产品}$

$A_2={乙厂生产的产品 }$

$A_3={ 丙厂生产的产品 }$

$B={ 取得次品 }$

该问题要求的是

$P(A_1|B)\quad i=1,2,3$

推导

由条件概率的定义

其中,由全概率公式可知

代入得

应用

如果试验 $E$ 有两个相关的试验 $E_1, E_2$ 复合而成, $E_1$ 有若干种可能的结果,$E_2$ 在 $E_1$ 的基础上也有若干种可能的结果,如果已知和 $E_2$ 的结果有关某事件发生了,求和试验 $E_1$ 的结果有关事件的概率,可以用贝叶斯公式。试验 $E_1$ 的几种可能的结果就构成了完备事件组。

如果把样本空间的一个划分 $A_1, A_2, \dots, A_n$ 看作是导致事件 $B$ 发生的各种原因, 事件 $B$ 是伴随着“原因” $A_i$ 中的一个出现的。如果 $B$ 发生了, 求 $P\left(A_j | B\right)$ 可以用贝叶斯公式。

所以把 $P(A_1),P(A_2)$ 成为先验概率,把 $P(A_1|B),P(A|2,B)$ 称为后验概率

例:某商店由三个厂购进一批灯泡,其中甲厂占 $25\%$,乙厂占 $35\%$,丙厂占 $40 \%$ ,且各厂的次品率分别为 $5 \%, 4 \%, 2 \%$ 。如果消费者已经买到一个次品灯泡,问是哪个厂出产的可能性大?

设:

$A_1={灯泡是甲厂出产的}$

$A_2={灯泡是乙厂出产的}$

$A_3={灯泡是丙厂出产的}$

$B={买到一个次品灯泡}$

题目的条件可以化为:

$P(A_1)=0.25,P(A_2)=0.35,P(A_3)=0.4$

$P(B|A_1)=0.05,P(B|A_2)=0.04,P(B|A_3)=0.02$

由全概率公式得:

$P(B)=\sum_{i=1}^3P(A_i)P(B|A_i)=0.0345$

由贝叶斯公式得:

$P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(B|A_1)P(A_1)}{P(B)}=\frac{0.05\times0.25}{0.0345}=0.3623$

同理算出 $P(A_2|B),P(A_3|B)$ ,然后比较大小即可。


总结

知因求果:全概率公式

执果索因:贝叶斯公式

事件的独立性

性质

若 $P(A)>0,P(B)>0$,则 $A$ 和 $B$ 独立的充分必要条件是:

即,“$A$ 是否发生”对于 $B$ 事件没有影响,“$B$ 是否发生”对于 $A$ 也没有影响。

如果 $A$ 与 $B$ 相互独立,则 $\overline{A}$ 与 $B$、$A$ 与 $\overline{B}$、$\overline{A}$ 与$\overline{B}$ 都是两两独立的。

随机变量及其分布

离散型分布

01分布

01分布(也称为伯努利分布)只有两个样本点:0和1。其概率质量函数为:

其中,$p$ 是事件发生的概率($0 \leq p \leq 1$)。

记作 $X\sim B(1,p)$。

二项分布

如果有 $n$ 次独立的伯努利试验,每次试验成功的概率为 $p$,则随机变量 $X$ 表示成功的次数,服从二项分布,其概率质量函数为:

其中:

  • $n$ 是试验的总次数。
  • $k$ 是成功的次数($k = 0, 1, \ldots, n$)。
  • $\binom{n}{k}$ 是组合数,表示从 $n$ 次中选择 $k$ 次成功的方式。

记作 $X\sim B(n,p)$。

泊松分布

泊松定理

当试验次数 $n$ 趋近于无穷大、成功概率 $p$ 趋近于零、但 $np$ 保持恒定的情况下,成功次数 $X$ 的分布趋近于 $\lambda=np$ 的泊松分布。

所以在 $n$ 较大、$p$ 较小时,常用泊松分布来代替计算二项分布。

其中,$\lambda=np$。

连续型分布

均匀分布

略。

指数分布

其中 $\lambda>0$ 是常数。

通常用于各种寿命的分布,或者某一时间发生的等待时间。

容易看出,$f(x)$ 的原函数 $F(x)=-e^{-\lambda x}$。常需要计算随机变量在一段区间内的取值范围。

正态分布

正态分布的密度函数为:

则其分布函数

正态分布用得很多。最常见($\mathrm{N}ormal$)。二项分布、泊松分布的极限是正态分布。

求导

在 $x=\mu$ 处取得极大值 $f(\mu)=\frac{1}{\sqrt{2\pi}\sigma}$。

随着 $\sigma\uparrow$,$f(\mu)\downarrow$,图像变平坦

标准正态分布

若随机变量 $x$ 服从均值为 $\mu$,标准差为 $\sigma$ 的正态分布,

$x\sim N(\mu,\sigma^2)$ 。而当 $\mu=0,\sigma=1$ 时称为为标准正态分布。

密度函数为:

分布函数为:

该函数有一个性质:$\Phi(x)=1-\Phi(-x)$。

所以,如果 $X\sim N(0,1)$,则有:

正态分布的标准化

若 $X\sim N(\mu,\sigma^2)$,则 $F(x)=\Phi(\frac{x-\mu}{\sigma})$。这样,我们就可以通过查表得到 $\Phi$ 值,反推 $F(x)$。

也就是说,如果 $X\sim N(\mu,\sigma^2)$,则 $\frac{X-\mu}{\sigma}\sim N(0,1)$。

离散型随机变量函数的分布

如果 $X$ 是一个随机变量,而 $Y=g(X)$,那么 $Y$ 也是个随机变量。$Y$ 的分布就得看 $X$ 的分布以及 $g(x)$ 了。

如果 $X$ 的分布给的是个分布列,求 $Y$ 的分布列,那么直接算就好,最后记得合并相同的 $Y$ 的取值(概率相加即可),并且按照 $Y$ 的取值单调递增排序。

连续型随机变量函数的分布

其实之前提到的“正态分布标准化”就是一种随机变量函数。

简单来说,若 $X\sim N(\mu,\sigma^2)$,则 $Y=aX+b(a\not=0)\sim N(a\mu+b,(a\sigma)^2)$。

通用一点,如果 $Y=aX+b$ 而 $X$ 的概率密度函数为 $f_X(x)$,则 $Y$ 的概率密度函数 $f_Y(y)=\frac1{|a|}f_X(\frac{y-b}{a})$。

例:设 $X$ 在 $(0,1)$ 内服从均匀分布,求 $Y=-2\ln X$ 的概率密度函数。

首先写出均匀分布的概率密度函数:

已知 $Y=-2\ln X$,我们需要求 $X$ 关于 $Y$ 的表达式:

当 $X$ 从 0 到 1 变化时,$Y$ 的取值范围为:

所以也需要对于 $Y$ 的取值进行分类讨论的。

当 $y>0$ 时,

当 $y\le 0$ 时,$F_Y(y)=0$

将上述两个合并,即为答案。

同时还可以发现,这个就是 $\lambda=\frac12$ 的指数分布。

二维随机变量

二维离散随机变量

$(x,y)$ 的联合分布列:

若 $(X,Y)$ 的所有可能的取值为 $xi,y_j\quad i,j=1,2,3\dots$,且 $p{ij}=P(X=x_i,Y=y_i),\quad i,j=1,2,3\dots$,则称这一列式子为 $(x,y)$ 的联合分布列。

性质肯定还是和一维随机变量一样:

如何求联合分布列?

全列出来。先确定两个随机变量的取值范围,然后计算每一种组合的概率,最后按照顺序画出二维表格。

二维连续随机变量

其中,$f(x,y)$ 是一个非负可积函数,表示落入 $(x,y)$ 的概率。

非负性:$f(x,y)\ge 0$

规范性:$\int{-\infin}^{+\infin}\int{-\infin}^{+\infin}f(x,y)\mathrm dx\mathrm dy=1$

常见二维随机分布

二维均匀分布。类似一维均匀分布,利用面积 $A$ 进行计算,区域 $G$ 内处处有 $f(x,y)=\frac1A$。

二维正态分布。

其中有五个参数 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$,且 $\sigma_1>0,\sigma_2>0,|\rho|<1$。

如果 $\rho=0$,则交叉项没了,外面的分母也只剩 $2\pi\sigma_1\sigma_2$。

二维随机变量的分布函数

也叫联合分布函数

其表示随机点落在以 $(x,y)$ 为右顶点的在左下方的无穷矩形区域内的概率。

那么如果需要求指定方形区域 $x_1<X\le x_2,y_1<Y\le y_2$ 的概率,则类似于二位前缀和公式:

如果是连续型随机变量的话,$f(x,y)$ 为其密度函数,则有:

基本性质:类似一维概率分布函数,特殊边界值和单调性。略。

二维离散型随机变量的边缘分布

比较简单,对一列或一行相加即可。

二维连续型随机变量的边缘分布

二维连续型随机变量的边缘密度函数,记作 $f_X(x)$ 和 $f_Y(y)$。

公式:

而边缘分布函数,记作 $FX(x),F(y)$。

即,要求关于 $x$ 的边缘密度函数 $fX(x)$,就对另一个变量 $y$ 计算 $\int{-\infin}^{+\infin}\mathrm dy$ 即可。(可能可以使用“偶倍奇零”原则对被积函数进行化简)

二维正态分布的边缘概率密度函数为一维正态分布,且与 $\rho$ 无关。

已知联合分布可以计算边缘密度函数;但已知边缘密度函数不能反推联合分布。

边缘分布函数还有一种方式计算:

其实也和边缘密度函数一样:对另一维变量取极限,得到关于该维变量的边缘分布函数

大数定律与中心极限定理

依概率收敛和依分布收敛

两个随机变量序列之和(差、积、商)依【概率/分布】收敛于两个随机变量序列依【概率/分布】的值的和(差、积、商)

其中,依概率是一种强收敛,而依分布收敛是一种弱收敛。

可以从强的推到至弱的:$X_n\xrightarrow[]P a\Rightarrow X_n\xrightarrow[]L a$。

切比雪夫不等式

不知道具体分布,只知道期望与方差的情况下,可以估计随机变量偏离其期望的概率。毕竟知道了方差,那么随机变量可不能偏离的太远嘛。

切比雪夫不等式是概率论中的一个重要定理,它为随机变量偏离其期望值的概率提供了一个上界。

切比雪夫不等式的表达式如下:

其中:

  • $X$ 是随机变量
  • $E(X)$ 是 $X$ 的期望值
  • $Var(X)$ 是 $X$ 的方差
  • $\varepsilon$ 是任意正实数

这个不等式告诉我们,随机变量 $X$ 偏离其期望值 $E(X)$ 至少 $\varepsilon$ 的概率不超过 $\frac{Var(X)}{\varepsilon^2}$。

例如,如果我们有一个随机变量 $X$,其期望为 10,方差为 4,我们想知道 $X$ 偏离其期望值至少 3 个单位的概率上界,我们可以这样计算:

这意味着,$X$ 偏离 10 至少 3 个单位的概率不会超过 44.4%。

例:随机变量 $X$ 和 $Y$ 的数学期望均为 5 ,方差分别为 1 和 9 ,而相关系数为 0.5 ,则根据切比雪夫不等式可知 $P(|X-Y| \geq 4) \leq ?$

设 $Z=X-Y$,计算 $E(Z)$ 和 $Var(Z)$。

故,题目要求的切比雪夫不等式可以化为:

大数定律

大量随机事件的平均结果趋近于期望值

切比雪夫大数定律

切比雪夫大数定律(弱大数定律)

弱大数定律表述如下:对于一个随机变量序列 $X_1, X_2, …, X_n$,如果这些随机变量是独立同分布的,且具有有限的期望 $\mu$ 和方差 $\sigma^2$,那么它们的算术平均值会依概率收敛于期望值 $\mu$。

伯努利大数定律

在 $n$ 次独立重复的伯努利试验中,如果每次试验成功的概率为 $p$,失败的概率为 $1-p$,那么当 $n$ 趋于无穷大时,成功次数的频率 $f_n$ 几乎必然收敛于概率 $p$。

其中,$f_n = \frac{X_n}{n}$,$X_n$ 表示 $n$ 次试验中成功的次数。

更具体地,对于任意小的正数 $\varepsilon$,我们有:

在大量重复的伯努利试验中,成功的相对频率会趋近于成功的概率。

这就是以频率定义概率的合理性依据。

辛钦大数定律

辛钦大数定律是一种弱大数定律,它放宽了对随机变量方差的要求。辛钦定理表述如下:

对于一个随机变量序列 $X_1, X_2, …, X_n$,如果这些随机变量是独立同分布的,且具有有限的期望 $\mu$(不要求方差有限),那么它们的算术平均值会依概率收敛于期望值 $\mu$。

辛钦大数定律只要求有限期望,适用范围更广。

辛钦大数定律为寻找随机变量的期望值提供了一条实际可行的途径。

!中心极限定理

!参数检验

!线性回归

!参数估计

矩估计

最大似然估计

!方差分析