概率论与数理统计面试题
面试题目
概率论和数理统计的区别与联系
通过中心极限定理和大数定律结合在一起的
- 概率论:更数学,从已知形式或某些参数的 分布 / 随机变量入手,推断出另一者的性质,比如 已知分布形式 求期望方差,已知随机变量参数 估计分布期望方差(大数定律 中心极限定理 这是数理统计的基础),已知事件间关系建模 求概率(全概率公式 贝叶斯公式)。
- 数理统计:更偏应用,基础是概率论,是概率论的应用,从实际出发,从采样出发,主要内容有参数估计、假设检验等。
- 知和用的关系。一个是发现规律,构造模型,证明定理。一个是选择模型,调整模型,应用模型。
概率密度函数
连续型随机变量,落在一段区间的概率 / 区间长度 取极限。
概率密度函数是连续随机变量分布的描述方式。连续随机变量的取值范围是无限的,因此不能简单地计算每个具体值的概率,而是需要一个函数来描述在任意一点上随机变量取值的概率密度。
概率密度函数的性质
- 非负性:概率密度函数的值在定义域内必须非负。
- 归一性:概率密度函数在整个定义域上的积分等于1,表示随机变量在整个值域内取值的概率之和为100%。
- 概率计算:随机变量在某个区间取值的概率可以通过概率密度函数在该区间上的积分来计算。
- 期望值(均值):连续随机变量的期望值可以通过概率密度函数计算得到:
[ E(X) = \int_{-\infty}^{\infty} x \cdot f(x) , dx ] - 方差:连续随机变量的方差也可以通过概率密度函数来计算:
[ \text{Var}(X) = E[(X - E(X))^2] = \int_{-\infty}^{\infty} (x - E(X))^2 \cdot f(x) , dx ] - 累积分布函数(CDF):连续随机变量的累积分布函数是概率密度函数的积分:
[ F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) , dt ]
条件概率分布、联合概率分布、边缘概率分布
条件概率:B 发生的情况下 A 发生的概率。
联合概率:几个事件同时发生的概率
边缘概率:某个事件单独发生的概率,仅与单个随机变量有关的概率,剩下维度按分布求期望。
能否直接由边缘分布函数求得联合分布函数:两随机变量不相互独立 则不行
条件概率分布
条件概率分布是指在某个事件已经发生的条件下,另一个事件发生的概率分布。条件概率分布通常用条件概率密度函数(连续变量)或条件概率质量函数(离散变量)来描述。
对于连续随机变量 ( X ) 和 ( Y ),条件概率密度函数 ( f_{X|Y}(x|y) ) 定义为:
[ f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)} ]
其中:
- ( f_{X,Y}(x,y) ) 是 ( X ) 和 ( Y ) 的联合概率密度函数。
- ( f_Y(y) ) 是 ( Y ) 的边缘概率密度函数。
对于离散随机变量,条件概率质量函数 ( P(X = x | Y = y) ) 同样定义为:
[ P(X = x | Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)} ]
联合概率分布
联合概率分布描述了两个或多个随机变量共同取特定值的概率。对于连续随机变量,联合概率密度函数 ( f_{X,Y}(x,y) ) 描述了 ( X ) 和 ( Y ) 同时取值 ( x ) 和 ( y ) 的概率密度。对于离散随机变量,联合概率质量函数 ( P(X = x, Y = y) ) 描述了 ( X ) 和 ( Y ) 同时取值 ( x ) 和 ( y ) 的概率。
边缘概率分布
边缘概率分布是指在多个随机变量的联合分布中,通过求和或积分,得到的单个随机变量的概率分布。它表示了忽略其他变量的情况下,一个随机变量的概率分布。
对于连续随机变量 ( X ) 和 ( Y ),( X ) 的边缘概率密度函数 ( f_X(x) ) 可以通过对 ( Y ) 的所有可能取值积分 ( X ) 和 ( Y ) 的联合概率密度函数来得到:
[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) , dy ]
对于离散随机变量,( X ) 的边缘概率质量函数 ( P(X = x) ) 可以通过对 ( Y ) 的所有可能取值求和 ( X ) 和 ( Y ) 的联合概率质量函数来得到:
[ P(X = x) = \sum_{y} P(X = x, Y = y) ]
什么是先验概率和后验概率
先验概率:
事情未发生,只根据以往数据统计,分析事情发生的可能性,即先验概率。
后验概率(贝叶斯公式):
事情已发生,已有结果,求引起这事发生的因素的可能性,由果求因,即后验概率。
后验概率和先验概率的关系:
后验概率的计算,是以先验概率为前提条件的。如果只知道事情结果,而不知道先验概率,是无法计算后验概率的。
贝叶斯公式是什么,有什么应用
贝叶斯公式描述了两个条件概率之间的关系
即在已知某个事件B发生的条件下,事件A发生的概率 与 在已知事件A发生的条件下,事件B发生的概率之间的关系。
应用:通过发生的事情,反推环境是 xx 因素的概率(原因推结果)
- 机器学习:在机器学习中,贝叶斯方法被用于分类、聚类和预测。
贝叶斯分类器利用 先验概率和似然度 来 计算新实例的后验概率。
贝叶斯分类器是一种统计分类方法,它使用贝叶斯定理来结合先验知识(先验概率)和新观测到的数据(似然度),从而计算出新实例的后验概率,并据此做出分类决策。以下是贝叶斯分类器如何工作的详细解释:
先验概率(Prior Probability)
先验概率是指在没有考虑新证据之前,我们对某个事件发生的概率评估。在分类问题中,先验概率通常是指各类别在数据集中出现的频率。例如,如果我们正在处理垃圾邮件分类问题,先验概率可能是垃圾邮件和非垃圾邮件在训练数据集中的比例。
似然度(Likelihood)
似然度是指在某个假设下,观测数据出现的概率。在贝叶斯分类器中,似然度是指给定类别条件下,实例特征出现的概率。例如,对于一封邮件,似然度可以是邮件中包含特定单词的概率,假设这些单词只在垃圾邮件中出现。
后验概率(Posterior Probability)
后验概率是在考虑了新证据之后,对事件发生概率的重新评估。在贝叶斯分类器中,后验概率是给定实例特征条件下,该实例属于某个类别的概率。贝叶斯定理提供了一种计算后验概率的方法:
[ P(C_k|X) = \frac{P(X|C_k) \cdot P(C_k)}{P(X)} ]
其中:
- ( P(C_k|X) ) 是后验概率,即给定特征集 ( X ) 的条件下,实例属于类别 ( C_k ) 的概率。
- ( P(X|C_k) ) 是似然度,即在类别 ( C_k ) 发生的条件下,观测到特征集 ( X ) 的概率。
- ( P(C_k) ) 是先验概率,即类别 ( C_k ) 的初始概率。
- ( P(X) ) 是边缘概率,即不考虑类别标签,观测到特征集 ( X ) 的概率,它可以通过对所有类别的似然度和先验概率乘积求和得到。
分类决策
贝叶斯分类器根据后验概率来做出分类决策。具体来说,对于一个新的实例,分类器会计算该实例属于每个可能类别的后验概率,然后选择具有最高后验概率的类别作为预测结果。
贝叶斯分类器的优势在于其简单性和解释性,它可以很容易地结合领域知识(通过先验概率)和数据(通过似然度)。此外,贝叶斯分类器在处理大量特征时特别有效,尤其是在特征之间存在不确定性时。
- 决策理论:贝叶斯决策理论通过考虑不确定性和风险来帮助做出最优决策。
大数定律(切比雪夫,伯努利,辛钦)
大数定律是概率论中描述随机变量序列部分和行为的一组定理。它们指出,当样本数量足够大时,样本均值会趋近于总体均值
当样本数据无限大时,(形式 lim n→∞ P = 1)
1. 切比雪夫大数定律
- 样本均值 → 总体均值
- 条件为独立;方差有限大
- 它提供了一个关于样本均值偏离总体均值的概率的界限
- 样本均值的分布会趋近于一个以总体均值为期望值的正态分布
- 切比雪夫不等式给出了随机变量与其期望值之间的偏离程度的一个上界
2. 伯努利大数定律
- 事件 A 发生的频率 → 概率
- 伯努利实验
3. 辛钦大数定律
- 样本均值→ 数学期望
- 条件为期望存在,独立同分布
- 样本均值几乎必然收敛到某个常数
大数定律应用:多次采样平均减小误差。
参数估计的稳定性:
大数定律保证了随着样本数量的增加,样本均值会越来越接近总体均值。在机器学习中,这意味着当我们有足够多的训练数据时,模型参数的估计(例如,权重和偏置)会趋于稳定,减少估计误差。模型泛化能力的提高:
在深度学习中,大量的训练数据可以帮助模型学习到数据的普遍特征,而不是仅仅记住训练样本。大数定律表明,随着训练样本数量的增加,模型的预测误差会趋于一个常数,这有助于提高模型的泛化能力。随机梯度下降(SGD)的收敛性:
深度学习中常用的优化算法之一是随机梯度下降。大数定律为SGD提供了理论基础,表明随着迭代次数的增加,梯度的估计会越来越准确,从而有助于算法收敛到全局或局部最优解。
中心极限定理
当样本量 n 逐渐趋于无穷大时,n 个抽样样本的均值的频数,逐渐趋于正态分布 N(μ, σ²/n)。原总体的分布不做任何要求。
应用:1. 样本平均值 → 总体均值 / 期望,2. 样本方差 → 估计总体方差。
即使原始随机变量不服从正态分布,只要它们是独立同分布的,并且具有有限的期望值和方差,它们的标准化和也会趋近于正态分布。
大数定律和中心极限定理的区别
中心极限定理(Central Limit Theorem, CLT)和大数定理(Law of Large Numbers, LLN)是统计学中的两个基本概念,它们都描述了随机变量的某些性质,但它们关注的点和应用场景有所不同。
大数定理
大数定理主要关注的是随机变量的样本均值的长期稳定性。它描述了当样本量足够大时,样本均值的分布会趋近于一个固定的值,即总体均值。
中心极限定理
中心极限定理关注的是样本均值的分布形状,而不是其稳定性。无论原始总体分布如何,只要样本量足够大,样本均值的分布将趋近于正态分布。
区别
关注点不同:大数定理关注样本均值的稳定性,即其趋近于总体均值;中心极限定理关注样本均值分布的形状,即其趋近于正态分布。
应用场景不同:大数定理常用于估计总体参数,而中心极限定理常用于统计推断,如置信区间的计算和假设检验。
大数定理指的是当样本数据量足够大的时候,样本均值会趋近于总体均值
中心极限定理指的是当原始样本数据是独立同分布的,当数据量足够多时,样本均值的分布是呈现一个正态分布
最大似然估计:
最大似然估计(MLE)是一种在已知观测数据下估计概率模型参数的方法。
它基于这样的思想:最有可能产生观测数据的参数值应该是使这些数据出现概率最大的参数值。
假设我们有一个概率模型,该模型由一组参数 ( \theta ) 定义,并且我们观测到了一个数据集 ( D = {x_1, x_2, …, x_n} )。最大似然估计试图找到参数 ( \theta ) 的值,使得数据集 ( D ) 的概率最大。
- 概率:结果没有产生之前,根据环境参数,预测某件事情发生的可能性;
- 似然:在确定的结果下,去推测产生这个结果的可能环境参数。
- L(θ|x) = P(x|θ)。既然已经观测到了这个现象,就取 让它出现概率最大 的环境参数值吧。
最大似然估计被用于参数估计、模型选择、假设检验等许多问题
全概率公式:
- 样本空间 ( S ),其可以被划分成事件 A1,A2,…构成一个完备事件组(互斥且 Σ概率=1),如果B 是 ( S )中的任意一个事件,那么 P(B) = Σ P(B|Ai) P(Ai)。
全概率公式提供了一种计算随机事件概率的方法
贝叶斯公式,应用:
- 已知 B 求 A 的概率,等于 (AB 都发生概率) / (B 发生的概率)。
- 应用:通过发生的事情,反推环境是 xx 因素的概率。
期望、方差、协方差、相关系数
1. 期望
期望(E(X))是随机变量的平均值
2. 方差
方差(D(X))是随机变量与其期望值偏差的平方的平均值。它衡量随机变量的离散程度
3. 协方差
协方差是两个随机变量联合变化趋势的度量,表示为 ( \text{Cov}(X, Y) )。如果两个变量的增减趋势一致,协方差为正;如果一个变量增加时另一个变量减少,协方差为负。
协方差/相关系数 为0 ,代表两个变量不相关
独立一定不相关,不相关不一定独立
做特征转换后,新的特征需要满足彼此不相关,体现为新特征的协方差矩阵要为一个对角矩阵
4. 相关系数
相关系数是协方差的标准化形式,用于度量两个变量之间的线性关系强度和方向。最常用的相关系数是皮尔逊相关系数,表示为 ( \rho_{X,Y} ) 或 ( r ),定义为:
[ \rho_{X,Y} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} ]
在概率论和统计学中,期望、方差、协方差和相关系数是描述随机变量及其分布特征的基本概念。
参数估计:无偏性、有效性、相合性
离散随机变量分布
伯努利分布、二项分布、泊松分布、超几何分布
正态分布有什么性质
对称性:正态分布是概率密度函数关于其均值μ的对称分布,即在平均值两侧呈镜像对称。
唯一峰值:正态分布的概率密度函数呈现单峰形状,只有一个最高峰值。
分布范围无界:正态分布的取值范围是负无穷到正无穷,没有明确的上下界限。
标准差决定形状:正态分布的形状由其标准差σ决定。较小的标准差会使曲线更加陡峭,较大的标准差会使曲线更加平坦。
68-95-99.7 规则:在正态分布中,约有68%的观测值落在均值的一个标准差范围内(( \mu ) - ( \sigma )),约有95%的观测值落在两个标准差范围内,约有99.7%的观测值落在三个标准差范围内。
其中:
- ( x ) 是随机变量。
- ( \mu ) 是分布的均值(或数学期望)。
- ( \sigma^2 ) 是分布的方差。
- ( \sigma ) 是标准差。
正态分布的概率密度函数图像呈对称的钟形曲线,均值( \mu )决定了曲线的中心位置,标准差( \sigma )决定了曲线的宽度。
标准正态分布:当( \mu = 0 )且( \sigma = 1 )时,正态分布称为标准正态分布。其概率密度函数为:
[
f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}
]
- 中心极限定理:多个随机变量的总和(或平均值)趋向于正态分布,即使原始随机变量不满足正态分布,这是中心极限定理的重要推论。
P问题、NP问题以及NP完全问题
P问题是可以在多项式时间内解决的问题
NP问题是可以在多项式时间内验证解的正确性的问题
NP完全问题是一类特殊的NP问题,没有已知的高效解决算法,并且可以在多项式时间内归约到任何其他的NP问题
矩阵分解
矩阵分解是将一个矩阵表示为一些特定形式的矩阵乘积的过程。
矩阵分解的种类以及物理意义:
LU分解:将矩阵分解为一个下三角矩阵和一个上三角矩阵的乘积。物理意义包括解线性方程组、计算矩阵的行列式和逆矩阵等。
QR分解:将矩阵分解为一个正交矩阵和一个上三角矩阵的乘积。物理意义包括最小二乘问题、矩阵的特征值计算等。
特征值分解:将矩阵分解为一个特征向量矩阵和一个对角矩阵的乘积。物理意义包括矩阵的幂、指数和对称矩阵的对角化等。
奇异值分解(SVD):将矩阵分解为一个正交矩阵、一个对角矩阵和一个正交矩阵的乘积。物理意义包括降维、矩阵逼近和图像压缩等。