《概率论与数理统计》笔记
《概率论与数理统计》笔记
随机事件与概率
随机试验与随机事件
随机试验是一个动作,随机事件是随机试验的结果。
- 可重复性:试验可以在相同的条件下重复进行
- 多结果性:每次试验可能有多个可能的结果,且在试验之前能够明确所有可能的结果
- 不确定性:每次试验之前不能确定哪一个结果会出现
满足上述三个特点的试验成为随机试验(简称试验)用E表示。
例如:从0~9这十个数字中任取一个数,是随机试验;从一批灯泡中任取一只,是随机试验。
样本点:随机试验的所有可能的结果。
样本空间:随机试验的所有可能的结果组成的集合。记作 $\Omega$。
例:掷一枚均匀的骰子,观察出现的点数。
样本空间:$\Omega={1,2,3,4,5,6}$
样本空间也是一个事件,而且是必然事件。
投出1点,即${1}$ 是一个基本事件,${1}\subseteq\Omega$。基本事件是由单个的样本点组成的事件,不能再细分。
7点出现 是一个不可能事件,不含有任何样本点,记作 $\varnothing$
设随机事件 $A={1,3,5}\subseteq \Omega$,该随机事件是 $\Omega$ 的子集。
事件A发生:属于A的任一样本点出现。
例:同时扔两枚硬币,A表示“正反各一枚”,B表示“至少有一枚是正面”。请写出试验的样本空间、基本事件以及事件A、事件B。
样本空间 $\Omega={(正,正),(反,反),(正,反),(反,正)}$
(这是一个有限集)
$A={(正,反),(反,正)}$
$B={(正,反),(反,正),(正,正)}$
例:观察某城市120急救电话台一昼夜接到的呼叫次数。A表示呼叫不超过十次。写出样本空间与事件A。
$\Omega={0,1,2,3,4,\dots}$
(这是一个无限集)
$A={0,1,2,3,\dots,10}$
一些集合知识
互不相容(互斥):$AB=\varnothing$
$A_1,A_2,\dots,A_n$ 两两互斥:$A_iA_j=\varnothing$
对立事件:$A\cup B=\Omega \and A\cap B=\varnothing$
对立只能两个事件之间;互斥可以多个事件之间两两互斥。
$A,B对立 \Rightarrow A,B互斥$
$A,B对立 \Rightarrow \overline A与\overline B对立$
$A,B互斥 \not\Rightarrow \overline A与\overline B互斥$
完备事件组:若 $A_1,\dots,A_n$ 满足:
即:各集合事件没有交集,且并集为全集。
集合的分配率:
集合的对偶率:
长线变短线,交并要变号
频率与概率
频率:略。
概率:$E$ 是一个随机试验,$\Omega$ 是其样本空间。则对于每一个事件 $A$ 都有一个实数 $P(A)\in[0,1]$,称为事件 $A$ 发生的概率。
其中,$P$ 是一个集合函数,
- 非负性:$P(A)\ge 0$
- 规范性:$P(\Omega)=1$
- 可列可加性:若$A1,A_2,\dots,A_n,\dots$ 两两互斥,则 $P(\sum{i=1}^\infin Ai)=\sum{i=1}^\infin P(A_i)$
$P(\varnothing)=0$,反之不成立,即 $P(A)=0\not\Rightarrow A=\varnothing$,概率为 $0$ 的事件不是不可能事件,也有可能发生。
由可列可加性可得:如果A,B互斥,则 $P(A+B)=P(A)+P(B)$。
反之,$P(A+B)=P(A)+P(B)-P(AB)\Rightarrow P(AB)=0\not \Rightarrow AB=\varnothing$
$P(A-B)=P(A)-P(AB)$。特别地,如果 $B\subseteq A$,则有 $P(A-B)=P(A)-P(B)$,且$P(A)\ge P(B)$
加法公式:$P(A\cup B)=P(A)+P(B)-P(AB)$
古典概型和几何概型
古典概型
- 有限个样本点
- 等可能性
这一部分就是高中学的,略。
几何概型
长度,面积,体积。$P(A)=\frac{\mu(A)}{\mu(\Omega)}$
条件概率与乘法公式
条件概率
引:在有两个孩子的家庭中,至少有一个男孩求另一个也是男孩的概率。
$\Omega={(男,男),(女,男),(男,女),(女,女)}$
$A={(男,男),(女,男),(男,女)}$
$B={(男,男)}$
$P(B|A)=\frac13$
此时,样本空间变成了 $A$ 而不是 $\Omega$ 了。
定义
某试验的样本空间是 $\Omega$,有 $A,B$ 两事件,$P(A)>0$,在事件 $A$ 已发生的概率下事件 $B$ 的概率,就是 $B$ 对 $A$ 的条件概率,记作 $P(B|A)$。
简单的条件概率问题,可通过画图快速解决。
复杂一点的,套公式:
记忆:挺好记的,$A|B$ 长的就像是 $A/B$,所以要 $\times P(B)$ 抵掉。(我乱说的,仅供辅助记忆)
公理
- 非负性。$P(A|B)\ge 0$
- 规范性。$P(A|\Omega)=1$
- 可列可加性。若$B1,B_2,\dots$两两互斥,则有 $P(\sum{i=1}^\infin Bi|A)=\sum{i=1}^\infin P(B_i|A)$
根据上述1、2可得:$0\le P(A|B)\le 1$
性质
$P(\varnothing|A)=0$
$P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)-P(B_1B_2|A)$
特别地,当 $B_1,B_2$互斥,则有 $P(B_1\cup B_2|A)=P(B_1|A)+P(B_2|A)$
$P(B|A)+P(\overline B|A)=1$
乘法公式
即上面的推的
推广到三个事件:
例:设某光学仪器厂制造的透镜,第一次落下时打破的概率为 0.5,若第一次落下未打破,第二次落下打破的概率为 0.7,若前两次落下未打破,第三次落下打破为概率为 0.9。求透镜落下三次而未打破的概率。
设 $A_1,A_2,A_3$ 表示三次落下会打破。
故已知:
$P(A_1)=0.5$
$P(A_2|\overline {A_1})=0.7$
$P(A_3|\overline{A_1}\ \overline {A_2})=0.9$
欲求 $P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})$。
看到题目给的信息可能第一反应:
$P(A_1)=0.5\Rightarrow P(\overline{A_1})=0.5$
$P(A_2)=P(A_2|\overline{A_1})\cdot P(A_1)=0.7\times 0.5=0.35$
$\dots$
但是这里需要求的是 $P(\overline{A_1}\ \overline{A_2}\ \overline{A_3})$
一定要看清楚题目要求的是什么。
直接用乘法公式展开得:
先用乘法公式展开,可全部展开成变成题目所给的条件概率了。
另外,注意区分题目问的到底是条件概率 $P(A|BC)$ 还是普通概率 $P(ABC)$。
全概率公式与贝叶斯公式
全概率公式
定义
样本空间的划分,也叫做完备事件组:
设事件 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一组事件,且满足:
- 两两互斥:$A_iA_j=\varnothing (i\not =j)$
- 并集为样本空间:$\bigcup_{i=1}^nA_i=\Omega$
则称 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一个划分。
全概率公式
设事件 $A_1,A_2,\dots,A_n$ 为样本空间 $\Omega$ 的一个划分,且 $P(A_i)>0,i=1,2,\dots,n$,则对于任意事件 $B$,有
应用
如果试验 $E$ 有两个相关的试验 $E_1,E_2$ 复合而成,$E_1$ 有若干种可能的结果,$E_2$ 在 $E_1$ 的基础上也有若干种可能的结果。如果求和 $E_2$ 的结果有关的概率,可以用全概率公式。试验 $E_1$ 的几种可能的结果就构成了完备事件组。
例:设袋中有12个乒乓球,9个新球,3个旧球。第一次比赛取3球,比赛后放回;第二次比赛再任取3球,求第二次比赛取得3个新球的概率。
这里的两次试验分别是:
$E_1={第一次比赛取三个球}$
$E_2={第二次比赛取三个球}$
设:
$A_i=第一次比赛恰取出i个新球(i=0,1,2,3)$
$B=第二次比赛取出了3个新球$
此时,$A_0,A_1,A_2,A_3$ 恰好构成了对于样本空间的一个划分。
套用全概率公式:
$P(B)=\sum_{i=0}^3P(A_i)P(B|A_i)$
贝叶斯公式
引:设仑库中共有10箱产品,其中甲乙丙三厂各有 $5、3、2$ 箱, 且已知甲乙丙三厂的次品率分别为 $10 \% 、 15 \% 、 20 \%$,现从中任取1箱,再从该箱中任取1件产品,若取得的产品为次品,问该产品是甲厂生产的概率是多少?
该问题不是求取得的产品为正品、次品问题,而是在明确知道产品品质的情况下,分析“货出谁家”的问题。
设
$A_1={甲厂生产的产品}$
$A_2={乙厂生产的产品 }$
$A_3={ 丙厂生产的产品 }$
$B={ 取得次品 }$
该问题要求的是
$P(A_1|B)\quad i=1,2,3$
推导
由条件概率的定义
其中,由全概率公式可知
代入得
应用
如果试验 $E$ 有两个相关的试验 $E_1, E_2$ 复合而成, $E_1$ 有若干种可能的结果,$E_2$ 在 $E_1$ 的基础上也有若干种可能的结果,如果已知和 $E_2$ 的结果有关某事件发生了,求和试验 $E_1$ 的结果有关事件的概率,可以用贝叶斯公式。试验 $E_1$ 的几种可能的结果就构成了完备事件组。
如果把样本空间的一个划分 $A_1, A_2, \dots, A_n$ 看作是导致事件 $B$ 发生的各种原因, 事件 $B$ 是伴随着“原因” $A_i$ 中的一个出现的。如果 $B$ 发生了, 求 $P\left(A_j | B\right)$ 可以用贝叶斯公式。
所以把 $P(A_1),P(A_2)$ 成为先验概率,把 $P(A_1|B),P(A|2,B)$ 称为后验概率。
例:某商店由三个厂购进一批灯泡,其中甲厂占 $25\%$,乙厂占 $35\%$,丙厂占 $40 \%$ ,且各厂的次品率分别为 $5 \%, 4 \%, 2 \%$ 。如果消费者已经买到一个次品灯泡,问是哪个厂出产的可能性大?
设:
$A_1={灯泡是甲厂出产的}$
$A_2={灯泡是乙厂出产的}$
$A_3={灯泡是丙厂出产的}$
$B={买到一个次品灯泡}$
题目的条件可以化为:
$P(A_1)=0.25,P(A_2)=0.35,P(A_3)=0.4$
$P(B|A_1)=0.05,P(B|A_2)=0.04,P(B|A_3)=0.02$
由全概率公式得:
$P(B)=\sum_{i=1}^3P(A_i)P(B|A_i)=0.0345$
由贝叶斯公式得:
$P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(B|A_1)P(A_1)}{P(B)}=\frac{0.05\times0.25}{0.0345}=0.3623$
同理算出 $P(A_2|B),P(A_3|B)$ ,然后比较大小即可。
总结
知因求果:全概率公式
执果索因:贝叶斯公式
事件的独立性
性质
若 $P(A)>0,P(B)>0$,则 $A$ 和 $B$ 独立的充分必要条件是:
即,“$A$ 是否发生”对于 $B$ 事件没有影响,“$B$ 是否发生”对于 $A$ 也没有影响。
如果 $A$ 与 $B$ 相互独立,则 $\overline{A}$ 与 $B$、$A$ 与 $\overline{B}$、$\overline{A}$ 与$\overline{B}$ 都是两两独立的。
随机变量及其分布
离散型分布
01分布
01分布(也称为伯努利分布)只有两个样本点:0和1。其概率质量函数为:
其中,$p$ 是事件发生的概率($0 \leq p \leq 1$)。
记作 $X\sim B(1,p)$。
二项分布
如果有 $n$ 次独立的伯努利试验,每次试验成功的概率为 $p$,则随机变量 $X$ 表示成功的次数,服从二项分布,其概率质量函数为:
其中:
- $n$ 是试验的总次数。
- $k$ 是成功的次数($k = 0, 1, \ldots, n$)。
- $\binom{n}{k}$ 是组合数,表示从 $n$ 次中选择 $k$ 次成功的方式。
记作 $X\sim B(n,p)$。
泊松分布
泊松定理
当试验次数 $n$ 趋近于无穷大、成功概率 $p$ 趋近于零、但 $np$ 保持恒定的情况下,成功次数 $X$ 的分布趋近于 $\lambda=np$ 的泊松分布。
所以在 $n$ 较大、$p$ 较小时,常用泊松分布来代替计算二项分布。
其中,$\lambda=np$。
连续型分布
均匀分布
略。
指数分布
其中 $\lambda>0$ 是常数。
通常用于各种寿命的分布,或者某一时间发生的等待时间。
容易看出,$f(x)$ 的原函数 $F(x)=-e^{-\lambda x}$。常需要计算随机变量在一段区间内的取值范围。
正态分布
正态分布的密度函数为:
则其分布函数为
正态分布用得很多。最常见($\mathrm{N}ormal$)。二项分布、泊松分布的极限是正态分布。
求导:
在 $x=\mu$ 处取得极大值 $f(\mu)=\frac{1}{\sqrt{2\pi}\sigma}$。
随着 $\sigma\uparrow$,$f(\mu)\downarrow$,图像变平坦。
标准正态分布
若随机变量 $x$ 服从均值为 $\mu$,标准差为 $\sigma$ 的正态分布,
$x\sim N(\mu,\sigma^2)$ 。而当 $\mu=0,\sigma=1$ 时称为为标准正态分布。
密度函数为:
分布函数为:
该函数有一个性质:$\Phi(x)=1-\Phi(-x)$。
所以,如果 $X\sim N(0,1)$,则有:
正态分布的标准化
若 $X\sim N(\mu,\sigma^2)$,则 $F(x)=\Phi(\frac{x-\mu}{\sigma})$。这样,我们就可以通过查表得到 $\Phi$ 值,反推 $F(x)$。
也就是说,如果 $X\sim N(\mu,\sigma^2)$,则 $\frac{X-\mu}{\sigma}\sim N(0,1)$。
离散型随机变量函数的分布
如果 $X$ 是一个随机变量,而 $Y=g(X)$,那么 $Y$ 也是个随机变量。$Y$ 的分布就得看 $X$ 的分布以及 $g(x)$ 了。
如果 $X$ 的分布给的是个分布列,求 $Y$ 的分布列,那么直接算就好,最后记得合并相同的 $Y$ 的取值(概率相加即可),并且按照 $Y$ 的取值单调递增排序。
连续型随机变量函数的分布
其实之前提到的“正态分布标准化”就是一种随机变量函数。
简单来说,若 $X\sim N(\mu,\sigma^2)$,则 $Y=aX+b(a\not=0)\sim N(a\mu+b,(a\sigma)^2)$。
通用一点,如果 $Y=aX+b$ 而 $X$ 的概率密度函数为 $f_X(x)$,则 $Y$ 的概率密度函数 $f_Y(y)=\frac1{|a|}f_X(\frac{y-b}{a})$。
例:设 $X$ 在 $(0,1)$ 内服从均匀分布,求 $Y=-2\ln X$ 的概率密度函数。
首先写出均匀分布的概率密度函数:
已知 $Y=-2\ln X$,我们需要求 $X$ 关于 $Y$ 的表达式:
当 $X$ 从 0 到 1 变化时,$Y$ 的取值范围为:
所以也需要对于 $Y$ 的取值进行分类讨论的。
当 $y>0$ 时,
当 $y\le 0$ 时,$F_Y(y)=0$
将上述两个合并,即为答案。
同时还可以发现,这个就是 $\lambda=\frac12$ 的指数分布。
二维随机变量
二维离散随机变量
$(x,y)$ 的联合分布列:
若 $(X,Y)$ 的所有可能的取值为 $xi,y_j\quad i,j=1,2,3\dots$,且 $p{ij}=P(X=x_i,Y=y_i),\quad i,j=1,2,3\dots$,则称这一列式子为 $(x,y)$ 的联合分布列。
性质肯定还是和一维随机变量一样:
如何求联合分布列?
全列出来。先确定两个随机变量的取值范围,然后计算每一种组合的概率,最后按照顺序画出二维表格。
二维连续随机变量
其中,$f(x,y)$ 是一个非负可积函数,表示落入 $(x,y)$ 的概率。
非负性:$f(x,y)\ge 0$
规范性:$\int{-\infin}^{+\infin}\int{-\infin}^{+\infin}f(x,y)\mathrm dx\mathrm dy=1$
常见二维随机分布
二维均匀分布。类似一维均匀分布,利用面积 $A$ 进行计算,区域 $G$ 内处处有 $f(x,y)=\frac1A$。
二维正态分布。
其中有五个参数 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$,且 $\sigma_1>0,\sigma_2>0,|\rho|<1$。
如果 $\rho=0$,则交叉项没了,外面的分母也只剩 $2\pi\sigma_1\sigma_2$。
二维随机变量的分布函数
也叫联合分布函数。
其表示随机点落在以 $(x,y)$ 为右顶点的在左下方的无穷矩形区域内的概率。
那么如果需要求指定方形区域 $x_1<X\le x_2,y_1<Y\le y_2$ 的概率,则类似于二位前缀和公式:
如果是连续型随机变量的话,$f(x,y)$ 为其密度函数,则有:
基本性质:类似一维概率分布函数,特殊边界值和单调性。略。
二维离散型随机变量的边缘分布
比较简单,对一列或一行相加即可。
二维连续型随机变量的边缘分布
二维连续型随机变量的边缘密度函数,记作 $f_X(x)$ 和 $f_Y(y)$。
公式:
而边缘分布函数,记作 $FX(x),F(y)$。
即,要求关于 $x$ 的边缘密度函数 $fX(x)$,就对另一个变量 $y$ 计算 $\int{-\infin}^{+\infin}\mathrm dy$ 即可。(可能可以使用“偶倍奇零”原则对被积函数进行化简)
二维正态分布的边缘概率密度函数为一维正态分布,且与 $\rho$ 无关。
已知联合分布可以计算边缘密度函数;但已知边缘密度函数不能反推联合分布。
边缘分布函数还有一种方式计算:
其实也和边缘密度函数一样:对另一维变量取极限,得到关于该维变量的边缘分布函数。
大数定律与中心极限定理
依概率收敛和依分布收敛
两个随机变量序列之和(差、积、商)依【概率/分布】收敛于两个随机变量序列依【概率/分布】的值的和(差、积、商)
其中,依概率是一种强收敛,而依分布收敛是一种弱收敛。
可以从强的推到至弱的:$X_n\xrightarrow[]P a\Rightarrow X_n\xrightarrow[]L a$。
切比雪夫不等式
不知道具体分布,只知道期望与方差的情况下,可以估计随机变量偏离其期望的概率。毕竟知道了方差,那么随机变量可不能偏离的太远嘛。
切比雪夫不等式是概率论中的一个重要定理,它为随机变量偏离其期望值的概率提供了一个上界。
切比雪夫不等式的表达式如下:
其中:
- $X$ 是随机变量
- $E(X)$ 是 $X$ 的期望值
- $Var(X)$ 是 $X$ 的方差
- $\varepsilon$ 是任意正实数
这个不等式告诉我们,随机变量 $X$ 偏离其期望值 $E(X)$ 至少 $\varepsilon$ 的概率不超过 $\frac{Var(X)}{\varepsilon^2}$。
例如,如果我们有一个随机变量 $X$,其期望为 10,方差为 4,我们想知道 $X$ 偏离其期望值至少 3 个单位的概率上界,我们可以这样计算:
这意味着,$X$ 偏离 10 至少 3 个单位的概率不会超过 44.4%。
例:随机变量 $X$ 和 $Y$ 的数学期望均为 5 ,方差分别为 1 和 9 ,而相关系数为 0.5 ,则根据切比雪夫不等式可知 $P(|X-Y| \geq 4) \leq ?$
设 $Z=X-Y$,计算 $E(Z)$ 和 $Var(Z)$。
故,题目要求的切比雪夫不等式可以化为:
大数定律
大量随机事件的平均结果趋近于期望值
切比雪夫大数定律
切比雪夫大数定律(弱大数定律)
弱大数定律表述如下:对于一个随机变量序列 $X_1, X_2, …, X_n$,如果这些随机变量是独立同分布的,且具有有限的期望 $\mu$ 和方差 $\sigma^2$,那么它们的算术平均值会依概率收敛于期望值 $\mu$。
伯努利大数定律
在 $n$ 次独立重复的伯努利试验中,如果每次试验成功的概率为 $p$,失败的概率为 $1-p$,那么当 $n$ 趋于无穷大时,成功次数的频率 $f_n$ 几乎必然收敛于概率 $p$。
其中,$f_n = \frac{X_n}{n}$,$X_n$ 表示 $n$ 次试验中成功的次数。
更具体地,对于任意小的正数 $\varepsilon$,我们有:
在大量重复的伯努利试验中,成功的相对频率会趋近于成功的概率。
这就是以频率定义概率的合理性依据。
辛钦大数定律
辛钦大数定律是一种弱大数定律,它放宽了对随机变量方差的要求。辛钦定理表述如下:
对于一个随机变量序列 $X_1, X_2, …, X_n$,如果这些随机变量是独立同分布的,且具有有限的期望 $\mu$(不要求方差有限),那么它们的算术平均值会依概率收敛于期望值 $\mu$。
辛钦大数定律只要求有限期望,适用范围更广。
辛钦大数定律为寻找随机变量的期望值提供了一条实际可行的途径。
!中心极限定理
!参数检验
!线性回归
!参数估计
矩估计
最大似然估计