概率论与数理统计

概率论与数理统计

概率

概率计算公式

1. 加法公式

加法公式用于计算两个事件至少有一个发生的概率 ,即事件A或事件B发生的概率。

如果事件A和事件B不是互斥的,那么需要减去它们同时发生的概率,以避免重复计算:
[ P(A \cup B) = P(A) + P(B) - P(A \cap B) ]

如果事件A和事件B是互斥的(即它们不能同时发生),那么加法公式可以表示为:
[ P(A \cup B) = P(A) + P(B) ]

其中:

  • ( P(A \cup B) ) 是事件A或事件B发生的概率。
  • ( P(A) ) 是事件A发生的概率。
  • ( P(B) ) 是事件B发生的概率。
  • ( P(A \cap B) ) 是事件A和事件B同时发生的概率。

2. 乘法公式

乘法公式用于计算两个事件同时发生的概率,即事件A和事件B的联合概率。

如果事件A和事件B不是独立的,那么需要使用条件概率来计算它们的联合概率:
[ P(A \cap B) = P(A) \times P(B | A) ]
或者
[ P(A \cap B) = P(B) \times P(A | B) ]

如果事件A和B是独立的,那么它们的联合概率可以通过它们各自的概率相乘得到:
[ P(A \cap B) = P(A) \times P(B) ]

其中:

  • ( P(A \cap B) ) 是事件A和事件B同时发生的概率。
  • ( P(B | A) ) 是在事件A发生的条件下事件B发生的概率,即条件概率。
  • ( P(A | B) ) 是在事件B发生的条件下事件A发生的概率。

3. 全概率公式(原因推结果)

全概率公式用于计算一个事件的结果,当这个事件是由多个互斥原因引起的。如果事件A是由多个互斥的子事件B1, B2, …, Bn引起的,那么事件A发生的概率可以通过以下公式计算:
[ P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + \ldots + P(A|B_n)P(B_n) ]
其中:

  • ( P(A) ) 是事件A发生的概率。
  • ( P(B_i) ) 是第i个原因发生的概率。
  • ( P(A|B_i) ) 是在第i个原因发生的条件下,事件A发生的概率。

全概率公式允许我们通过已知的各个原因的概率和它们导致结果的条件概率,来计算结果发生的概率

4. 贝叶斯公式(结果推原因)

贝叶斯公式是一种逆概率计算方法,它允许我们根据已知的结果来推断原因的概率。贝叶斯公式可以表示为:
[ P(B_i|A) = \frac{P(A|B_i)P(B_i)}{P(A)} ]
其中:

  • ( P(B_i|A) ) 是在事件A发生的条件下,原因Bi发生的概率。
  • ( P(A|B_i) ) 是在原因Bi发生的条件下,事件A发生的概率。
  • ( P(B_i) ) 是原因Bi发生的概率。
  • ( P(A) ) 是事件A发生的概率。

贝叶斯公式的核心思想是,通过已知的事件A发生的条件概率和原因的概率,以及事件A发生的概率,来计算在事件A发生的情况下,各个原因发生的概率。

这两个公式在处理不确定性和进行决策时非常有用,特别是在我们只有部分信息的情况下。例如,在医学诊断、风险评估、机器学习中的分类问题等领域,全概率公式和贝叶斯公式都发挥着重要作用。

事件独立性

分布

离散分布

1. 伯努利分布(0-1分布)

描述了只有两种可能结果(成功和失败,通常用1和0表示)的单次随机试验。

2. 二项分布(n重 伯努利分布)

描述了固定次数 𝑛的独立重复的伯努利试验中成功的次数。

3. 几何分布

描述了在一系列独立的伯努利试验中,得到第一次成功所需的试验次数。
意义:n 次伯努利试验中前 k-1 次皆失败,第 k 次成功的概率。

4. 泊松分布(0-1分布)

二项分布的极限。期望和方差均为λ。
当二项分布 n 很大 p 很小时,泊松分布可作为二项分布的近似,其中 λ 为 np。

参数 λ 是单位时间(或单位面积)内随机事件的平均发生次数,满足线性相加(2 倍单位时间内…服从 2λ分布)。

泊松分布适合于描述单位时间内随机事件发生的次数

连续分布

概率论与数理统计中的均匀分布、指数分布和正态分布是三种非常重要的连续概率分布,它们在不同的领域和情境下有着广泛的应用。

均匀分布(Uniform Distribution)
均匀分布是一种最简单的连续概率分布,其中随机变量在某个区间内取任何值的概率是相同的。如果随机变量 ( X ) 在区间 ( [a, b] ) 上服从均匀分布,其概率密度函数(PDF)为:
[ f(x) = \begin{cases}
\frac{1}{b - a} & \text{for } a \leq x \leq b, \
0 & \text{otherwise.}
\end{cases} ]

均匀分布的特点:

  • 概率密度在区间 ( [a, b] ) 上是恒定的。
  • 区间外的概率密度为0。
  • 随机变量的期望值 ( E(X) ) 为 ( \frac{a + b}{2} )。
  • 方差 ( \text{Var}(X) ) 为 ( \frac{(b - a)^2}{12} )。

指数分布(Exponential Distribution)
指数分布是一种单参数的连续概率分布,常用于描述独立随机事件发生的时间间隔。如果随机变量 ( X ) 服从参数为 ( \lambda ) 的指数分布,其概率密度函数为:
[ f(x) = \lambda e^{-\lambda x} \quad \text{for } x \geq 0 ]
其中 ( \lambda > 0 )。

指数分布的特点:

  • 它没有记忆性,即指数分布的随机变量的持续时间不依赖于已经经过的时间。
  • 期望值 ( E(X) ) 为 ( \frac{1}{\lambda} )。
  • 方差 ( \text{Var}(X) ) 为 ( \frac{1}{\lambda^2} )。

正态分布(Normal Distribution)
正态分布,也称为高斯分布,是连续概率分布中最重要的一种。它在自然科学和社会科学的许多领域中都有应用。如果随机变量 ( X ) 服从均值为 ( \mu ),方差为 ( \sigma^2 ) 的正态分布,其概率密度函数为:
[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} ]

正态分布的特点:

  • 它是对称的,并且以均值 ( \mu ) 为中心。
  • 大部分数据集中在均值附近,数据的分布呈现钟形曲线。
  • 期望值 ( E(X) )、中位数和众数都等于 ( \mu )。
  • 方差 ( \text{Var}(X) ) 为 ( \sigma^2 )。
  • 68-95-99.7 规则(经验法则)表明,在正态分布中,约68%的数据落在 ( \mu \pm \sigma ) 区间内,约95%落在 ( \mu \pm 2\sigma ) 区间内,约99.7%落在 ( \mu \pm 3\sigma ) 区间内。

这三种分布各自有其独特的性质和应用场景。均匀分布常用于描述在一定范围内等可能发生的事件;指数分布适用于描述泊松过程中事件之间的时间间隔;正态分布则因其优美的数学性质和中心极限定理,在统计推断和数据分析中扮演着核心角色。

大数定律

大数定律是概率论和数理统计中的一个基本概念,它描述了在一定条件下,随着样本量的增加,样本均值会越来越接近总体均值的性质。 大数定律保证了在大量重复实验中,随机变量的相对频率趋近于其概率。

大数定律的两种形式

  1. 切比雪夫大数定律(Chebyshev’s Law of Large Numbers)
    切比雪夫大数定律是大数定律的一个较弱的形式,它适用于具有相同期望值和有限方差的随机变量序列。它指出,对于一列独立同分布(i.i.d.)的随机变量 ( X_1, X_2, \ldots ),如果它们的期望值 ( \mu ) 和方差 ( \sigma^2 ) 都存在,则样本均值 ( \overline{X}n = \frac{1}{n} \sum{i=1}^n X_i ) 会随着 ( n ) 的增加而趋近于 ( \mu )。具体来说,对于任意正数 ( \varepsilon > 0 ),有:
    [ P\left(|\overline{X}_n - \mu| \geq \varepsilon\right) \leq \frac{\sigma^2}{n \varepsilon^2} ]

1. 切比雪夫大数定律
适用于独立同分布的随机变量序列

设 ( X_1, X_2, \ldots ) 是一列具有相同期望值 ( \mu ) 和有限方差 ( \sigma^2 ) 的独立随机变量。则对于任意 ( \varepsilon > 0 ),当 ( n ) 趋于无穷大时,有:
[ P\left(|\bar{X}_n - \mu| \geq \varepsilon\right) \to 0 ]
其中,( \bar{X}_n ) 是样本均值,( n ) 是样本数量。

2. 伯努利大数定律
伯努利大数定律是切比雪夫大数定律的一个特例,适用于伯努利试验(即只有两种可能结果的独立试验) 定理表述如下:

设 ( X_1, X_2, \ldots ) 是一列独立同分布的伯努利随机变量,其成功概率为 ( p )。则当 ( n ) 趋于无穷大时,样本均值 ( \bar{X}n ) 几乎几乎必然收敛于 ( p ),即:
[ P\left(\lim
{n \to \infty} \bar{X}_n = p\right) = 1 ]

3. 辛钦大数定律
设 ( X_1, X_2, \ldots ) 是一列独立随机变量,它们具有有限的期望值 ( \mu_i )(但 ( \mu_i ) 可以不同)。如果存在常数 ( C ) 使得对于所有的 ( i ),都有 ( |\mu_i| \leq C ),则样本均值 ( \bar{X}n ) 几乎必然收敛于某个常数 ( \mu ),即:
[ P\left(\lim
{n \to \infty} \bar{X}_n = \mu\right) = 1 ]

  1. 中心极限定理(Central Limit Theorem, CLT)
    中心极限定理是大数定律的一个更强的形式,它说明了在适当的条件下,大量独立同分布的随机变量之和经过标准化后趋近于正态分布。无论原始随机变量本身服从何种分布,只要它们具有相同的期望值 ( \mu ) 和方差 ( \sigma^2 ),它们的样本均值的分布会随着样本量的增加而趋近于正态分布 ( N(\mu, \frac{\sigma^2}{n}) )。具体来说,对于任意 ( z ) 值,当 ( n ) 足够大时,有:
    [ P\left(\frac{\overline{X}_n - \mu}{\sigma/\sqrt{n}} \leq z\right) \approx \Phi(z) ]
    其中,( \Phi(z) ) 是标准正态分布的累积分布函数。

大数定律在深度学习中的应用

  1. 参数估计的稳定性:
    大数定律保证了随着样本数量的增加,样本均值会越来越接近总体均值。在机器学习中,这意味着当我们有足够多的训练数据时,模型参数的估计(例如,权重和偏置)会趋于稳定,减少估计误差。

  2. 模型泛化能力的提高:
    在深度学习中,大量的训练数据可以帮助模型学习到数据的普遍特征,而不是仅仅记住训练样本。大数定律表明,随着训练样本数量的增加,模型的预测误差会趋于一个常数,这有助于提高模型的泛化能力。

  3. 随机梯度下降(SGD)的收敛性:
    深度学习中常用的优化算法之一是随机梯度下降。大数定律为SGD提供了理论基础,表明随着迭代次数的增加,梯度的估计会越来越准确,从而有助于算法收敛到全局或局部最优解。

  4. 正则化技术的合理性:
    为了防止模型过拟合,机器学习中经常使用L1或L2正则化。大数定律支持了这些正则化方法的有效性,因为它表明在大样本条件下,正则化项可以帮助我们更好地估计模型参数。

  5. 集成学习中的投票机制:
    在集成学习方法中,多个模型的预测结果会通过投票或平均等方式结合起来。大数定律在这里确保了,随着集成中模型数量的增加,最终的预测结果会越来越可靠。

面试题目

概率论和数理统计的区别与联系

  • 概率论:更数学,从已知形式或某些参数的 分布 / 随机变量入手,推断出另一者的性质,比如 已知分布形式 求期望方差,已知随机变量参数 估计分布期望方差(大数定律 中心极限定理 这是数理统计的基础),已知事件间关系建模 求概率(全概率公式 贝叶斯公式)。
  • 数理统计:更偏应用,基础是概率论,是概率论的应用,从实际出发,从采样出发,主要内容有参数估计、假设检验等。
  • 知和用的关系。一个是发现规律,构造模型,证明定理。一个是选择模型,调整模型,应用模型。

概率密度函数

概率密度函数是连续随机变量分布的描述方式。连续随机变量的取值范围是无限的,因此不能简单地计算每个具体值的概率,而是需要一个函数来描述在任意一点上随机变量取值的概率密度。

概率密度函数(Probability Density Function,简称PDF)是连续随机变量分布的描述方式。与离散随机变量使用概率质量函数(Probability Mass Function,简称PMF)不同,连续随机变量的取值范围是无限的,因此不能简单地计算每个具体值的概率,而是需要一个函数来描述在任意一点上随机变量取值的概率密度。

概率密度函数的定义
对于连续随机变量 ( X ),其概率密度函数 ( f(x) ) 定义如下:

  • 对于任意的 ( x ),( f(x) \geq 0 )(非负性)。
  • 随机变量 ( X ) 在区间 ( [a, b] ) 内取值的概率可以表示为该区间下概率密度函数的积分:( P(a \leq X \leq b) = \int_{a}^{b} f(x) , dx )。
  • 随机变量 ( X ) 取某个具体值 ( x_0 ) 的概率为零,即 ( P(X = x_0) = 0 )。
  • 随机变量 ( X ) 在整个值域内取值的概率为1,即 ( P(-\infty < X < \infty) = \int_{-\infty}^{\infty} f(x) , dx = 1 )(归一性)。

概率密度函数的性质

  1. 非负性:概率密度函数的值在定义域内必须非负。
  2. 归一性:概率密度函数在整个定义域上的积分等于1,表示随机变量在整个值域内取值的概率之和为100%。
  3. 概率计算:随机变量在某个区间取值的概率可以通过概率密度函数在该区间上的积分来计算。
  4. 期望值(均值):连续随机变量的期望值可以通过概率密度函数计算得到:
    [ E(X) = \int_{-\infty}^{\infty} x \cdot f(x) , dx ]
  5. 方差:连续随机变量的方差也可以通过概率密度函数来计算:
    [ \text{Var}(X) = E[(X - E(X))^2] = \int_{-\infty}^{\infty} (x - E(X))^2 \cdot f(x) , dx ]
  6. 累积分布函数(CDF):连续随机变量的累积分布函数是概率密度函数的积分:
    [ F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) , dt ]

概率密度函数是连续概率分布的核心,它在统计学、概率论和相关领域中有着广泛的应用。通过概率密度函数,我们可以对连续随机变量的行为进行详细的分析和预测。

条件概率分布、联合概率分布、边缘概率分布

条件概率:B 发生的情况下 A 发生的概率。
联合概率:几个事件同时发生的概率
边缘概率:某个事件单独发生的概率,仅与单个随机变量有关的概率,剩下维度按分布求期望。
能否直接由边缘分布函数求得联合分布函数:两随机变量不相互独立 则不行

条件概率分布
条件概率分布是指在某个事件已经发生的条件下,另一个事件发生的概率分布。条件概率分布通常用条件概率密度函数(连续变量)或条件概率质量函数(离散变量)来描述。

对于连续随机变量 ( X ) 和 ( Y ),条件概率密度函数 ( f_{X|Y}(x|y) ) 定义为:
[ f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)} ]
其中:

  • ( f_{X,Y}(x,y) ) 是 ( X ) 和 ( Y ) 的联合概率密度函数。
  • ( f_Y(y) ) 是 ( Y ) 的边缘概率密度函数。

对于离散随机变量,条件概率质量函数 ( P(X = x | Y = y) ) 同样定义为:
[ P(X = x | Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)} ]

联合概率分布
联合概率分布描述了两个或多个随机变量共同取特定值的概率。对于连续随机变量,联合概率密度函数 ( f_{X,Y}(x,y) ) 描述了 ( X ) 和 ( Y ) 同时取值 ( x ) 和 ( y ) 的概率密度。对于离散随机变量,联合概率质量函数 ( P(X = x, Y = y) ) 描述了 ( X ) 和 ( Y ) 同时取值 ( x ) 和 ( y ) 的概率。

边缘概率分布
边缘概率分布是指在多个随机变量的联合分布中,通过求和或积分,得到的单个随机变量的概率分布。它表示了忽略其他变量的情况下,一个随机变量的概率分布。

对于连续随机变量 ( X ) 和 ( Y ),( X ) 的边缘概率密度函数 ( f_X(x) ) 可以通过对 ( Y ) 的所有可能取值积分 ( X ) 和 ( Y ) 的联合概率密度函数来得到:
[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) , dy ]

对于离散随机变量,( X ) 的边缘概率质量函数 ( P(X = x) ) 可以通过对 ( Y ) 的所有可能取值求和 ( X ) 和 ( Y ) 的联合概率质量函数来得到:
[ P(X = x) = \sum_{y} P(X = x, Y = y) ]

贝叶斯公式是什么,有什么应用

贝叶斯公式描述了两个条件概率之间的关系
即在已知某个事件B发生的条件下,事件A发生的概率 与 在已知事件A发生的条件下,事件B发生的概率之间的关系。
应用:通过发生的事情,反推环境是 xx 因素的概率(原因推结果)

  1. 机器学习:在机器学习中,贝叶斯方法被用于分类、聚类和预测。贝叶斯分类器利用先验概率似然度来计算新实例的后验概率。

贝叶斯分类器是一种统计分类方法,它使用贝叶斯定理来结合先验知识(先验概率)和新观测到的数据(似然度),从而计算出新实例的后验概率,并据此做出分类决策。以下是贝叶斯分类器如何工作的详细解释:

先验概率(Prior Probability)
先验概率是指在没有考虑新证据之前,我们对某个事件发生的概率评估。在分类问题中,先验概率通常是指各类别在数据集中出现的频率。例如,如果我们正在处理垃圾邮件分类问题,先验概率可能是垃圾邮件和非垃圾邮件在训练数据集中的比例。

似然度(Likelihood)
似然度是指在某个假设下,观测数据出现的概率。在贝叶斯分类器中,似然度是指给定类别条件下,实例特征出现的概率。例如,对于一封邮件,似然度可以是邮件中包含特定单词的概率,假设这些单词只在垃圾邮件中出现。

后验概率(Posterior Probability)
后验概率是在考虑了新证据之后,对事件发生概率的重新评估。在贝叶斯分类器中,后验概率是给定实例特征条件下,该实例属于某个类别的概率。贝叶斯定理提供了一种计算后验概率的方法:

[ P(C_k|X) = \frac{P(X|C_k) \cdot P(C_k)}{P(X)} ]

其中:

  • ( P(C_k|X) ) 是后验概率,即给定特征集 ( X ) 的条件下,实例属于类别 ( C_k ) 的概率。
  • ( P(X|C_k) ) 是似然度,即在类别 ( C_k ) 发生的条件下,观测到特征集 ( X ) 的概率。
  • ( P(C_k) ) 是先验概率,即类别 ( C_k ) 的初始概率。
  • ( P(X) ) 是边缘概率,即不考虑类别标签,观测到特征集 ( X ) 的概率,它可以通过对所有类别的似然度和先验概率乘积求和得到。

分类决策
贝叶斯分类器根据后验概率来做出分类决策。具体来说,对于一个新的实例,分类器会计算该实例属于每个可能类别的后验概率,然后选择具有最高后验概率的类别作为预测结果。

贝叶斯分类器的优势在于其简单性和解释性,它可以很容易地结合领域知识(通过先验概率)和数据(通过似然度)。此外,贝叶斯分类器在处理大量特征时特别有效,尤其是在特征之间存在不确定性时。

  1. 决策理论:贝叶斯决策理论通过考虑不确定性和风险来帮助做出最优决策。

大数定律(切比雪夫,伯努利,辛钦)

大数定律是概率论中描述随机变量序列部分和行为的一组定理。它们指出,当样本数量足够大时,样本均值会趋近于总体均值

当样本数据无限大时,(形式 lim n→∞ P = 1)

1. 切比雪夫大数定律

  • 样本均值 → 总体均值
  • 条件为独立同分布;方差有限大
  • 它提供了一个关于样本均值偏离总体均值的概率的界限
  • 样本均值的分布会趋近于一个以总体均值为期望值的正态分布

2. 伯努利大数定律

  • 事件 A 发生的频率 → 概率
  • 伯努利实验

3. 辛钦大数定律

  • 样本均值→ 数学期望
  • 条件为期望存在
  • 样本均值几乎必然收敛到某个常数

大数定律应用:多次采样平均减小误差。

  1. 参数估计的稳定性:
    大数定律保证了随着样本数量的增加,样本均值会越来越接近总体均值。在机器学习中,这意味着当我们有足够多的训练数据时,模型参数的估计(例如,权重和偏置)会趋于稳定,减少估计误差。

  2. 模型泛化能力的提高:
    在深度学习中,大量的训练数据可以帮助模型学习到数据的普遍特征,而不是仅仅记住训练样本。大数定律表明,随着训练样本数量的增加,模型的预测误差会趋于一个常数,这有助于提高模型的泛化能力。

  3. 随机梯度下降(SGD)的收敛性:
    深度学习中常用的优化算法之一是随机梯度下降。大数定律为SGD提供了理论基础,表明随着迭代次数的增加,梯度的估计会越来越准确,从而有助于算法收敛到全局或局部最优解。

期望、方差、协方差、相关系数

在概率论和统计学中,期望、方差、协方差和相关系数是描述随机变量及其分布特征的基本概念。

期望(Expected Value)

期望是随机变量的平均值,表示为 ( E(X) ) 或 ( \mu )。对于离散随机变量,期望定义为:
[ E(X) = \sum_{i=1}^{\infty} x_i P(X = x_i) ]
对于连续随机变量,期望定义为:
[ E(X) = \int_{-\infty}^{\infty} x f_X(x) , dx ]
其中,( x_i ) 是随机变量 ( X ) 可能取到的值,( P(X = x_i) ) 是 ( X ) 取到 ( x_i ) 的概率,( f_X(x) ) 是 ( X ) 的概率密度函数。

方差(Variance)

方差是随机变量与其期望值偏差的平方的平均值,表示为 ( \text{Var}(X) ) 或 ( \sigma^2 )。它衡量随机变量的离散程度。方差的定义为:
[ \text{Var}(X) = E[(X - E(X))^2] = \sum_{i=1}^{\infty} (x_i - \mu)^2 P(X = x_i) ]
对于连续随机变量:
[ \text{Var}(X) = \int_{-\infty}^{\infty} (x - \mu)^2 f_X(x) , dx ]

协方差(Covariance)

协方差是两个随机变量联合变化趋势的度量,表示为 ( \text{Cov}(X, Y) )。如果两个变量的增减趋势一致,协方差为正;如果一个变量增加时另一个变量减少,协方差为负。协方差的定义为:
[ \text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))] ]
[ \text{Cov}(X, Y) = \sum_{i=1}^{\infty} \sum_{j=1}^{\infty} (x_i - \mu_X)(y_j - \mu_Y) P(X = x_i, Y = y_j) ]
对于连续随机变量:
[ \text{Cov}(X, Y) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x - \mu_X)(y - \mu_Y) f_{X,Y}(x, y) , dx , dy ]

相关系数(Correlation Coefficient)

相关系数是协方差的标准化形式,用于度量两个变量之间的线性关系强度和方向。最常用的相关系数是皮尔逊相关系数,表示为 ( \rho_{X,Y} ) 或 ( r ),定义为:
[ \rho_{X,Y} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} ]
其中,( \sigma_X ) 和 ( \sigma_Y ) 分别是 ( X ) 和 ( Y ) 的标准差。相关系数的取值范围在 -1 和 1 之间,其中 1 表示完全正相关,-1 表示完全负相关,0 表示没有线性相关。

这些统计量是理解和分析数据集的基础,它们在统计推断、风险评估、投资组合管理、机器学习等多种领域中都有重要应用。


概率论与数理统计
https://cs-lb.github.io/2024/06/04/数学知识/概率论与数理统计/
作者
Liu Bo
发布于
2024年6月4日
许可协议