《概率论与数理统计》重难点

prob

概率论期末重点

1. 加法公式

对于两个事件 $A$ 和 $B$ ，加法公式是指计算它们并集的概率：
$P(A \cup B) = P(A) + P(B) - P(A \cap B)$
这是因为如果直接将 $P(A)$ 和 $P(B)$ 加在一起，重复计算了 $A \cap B$ 的部分，所以需要减去一次。

2. 乘法公式

乘法公式用于计算两个事件交集的概率。对于两个事件 $A$ 和 $B$ ，如果 $A$ 和 $B$ 是独立事件，则有：
$P(A \cap B) = P(A) \cdot P(B)$
如果 $A$ 和 $B$ 不是独立事件，则有：
$P(A \cap B) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B)$
其中， $P(B|A)$ 表示在 $A$ 已发生的条件下 $B$ 发生的条件概率， $P(A|B)$ 同理。

3. 事件独立性

事件 $A$ 和 $B$ 独立的条件是：
$P(A \cap B) = P(A) \cdot P(B)$
如果两个事件独立，那么发生其中一个事件的概率不会影响另一个事件的发生概率。

4. 全概率公式

全概率公式用于计算一个事件的概率，假设 $B_1, B_2, \dots, B_n$ 是一个完备事件组，且这组事件相互独立，那么事件 $A$ 的概率可以表示为：
$P(A) = \sum_{i=1}^{n} P(A \cap B_i) = \sum_{i=1}^{n} P(A | B_i) P(B_i)$
这意味着我们可以通过对不同情形的条件概率加权平均来求解 $A$ 的总体概率。

5. 贝叶斯公式

贝叶斯公式是求解条件概率的重要工具。假设事件 $A$ 和 $B$ 已知，贝叶斯公式为：
$P(A | B) = \frac{P(B | A) P(A)}{P(B)}$
贝叶斯公式反映了在已知某些信息后，如何更新事件的概率。例如，如果我们知道 $B$ 发生了，那么事件 $A$ 的概率就变为 $P(A|B)$ 。

6. 二项分布

二项分布描述了在独立重复试验中，某个事件发生的次数。设 $X$ 为二项随机变量，表示在 $n$ 次独立试验中某事件发生的次数，且每次试验成功的概率为 $p$ ，则 $X$ 的概率质量函数为：
$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \dots, n$
其中， $\binom{n}{k}$ 是组合数，表示从 $n$ 次试验中选取 $k$ 次成功的方式数。

应用：

期望： $E(X) = np$
方差： $\text{Var}(X) = np(1-p)$

7. 泊松分布

泊松分布常用来描述在固定时间或空间范围内某事件发生的次数，尤其是当事件发生的频率较低时。假设 $X$ 是一个泊松随机变量，表示某事件在单位时间内发生的次数，且单位时间内事件的平均发生次数为 $\lambda$ ，则 $X$ 的概率质量函数为：
$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots$

应用：

期望： $E(X) = \lambda$
方差： $\text{Var}(X) = \lambda$

8. 正态分布

正态分布是最常见的连续型概率分布，描述了大量独立且相同分布的随机变量的和。设 $X$ 为正态随机变量，均值为 $\mu$ ，标准差为 $\sigma$ ，则 $X$ 的概率密度函数为：
$f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty$
正态分布的曲线是对称的，且大多数数据集中在均值附近。

应用：

期望： $E(X) = \mu$
方差： $\text{Var}(X) = \sigma^2$

正态分布广泛应用于数据分析、质量控制和自然现象建模等领域。

9. 分布函数的运用

分布函数（或累积分布函数，CDF）用于描述随机变量 $X$ 取值小于或等于某个数值 $x$ 的概率。对于离散随机变量 $X$ ，累积分布函数定义为：
$F(x) = P(X \leq x)$
对于连续随机变量，分布函数是概率密度函数（PDF）沿 $-\infty$ 到 $x$ 的积分：
$F(x) = \int_{-\infty}^ f(t) \, dt$
分布函数用于求解概率、分析数据的分布特征、以及计算概率区间等。

10. 二维离散型随机变量的概率分布

设 $X$ 和 $Y$ 是两个离散型随机变量，它们的联合概率分布由联合概率质量函数（PMF）表示，即：
$P(X = x_i, Y = y_j) = p_{ij}, \quad i = 1, 2, \dots, m, \quad j = 1, 2, \dots, n$
其中， $p_{ij}$ 表示随机变量 $X = x_i$ 和 $Y = y_j$ 同时发生的概率。联合概率分布的要求是：
$\sum_{i=1}^{m} \sum_{j=1}^{n} p_{ij} = 1$
边际概率是通过对一个变量求和得到的：

对 $X$ 的边际概率：
$P(X = x_i) = \sum_{j=1}^{n} p_{ij}$
对 $Y$ 的边际概率：
$P(Y = y_j) = \sum_{i=1}^{m} p_{ij}$

11. 二维连续型随机变量的概率密度

对于二维连续型随机变量 $X$ 和 $Y$ ，它们的联合概率密度函数为 $f_{X,Y}(x, y)$ ，满足：
$\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dx \, dy = 1$
联合概率密度函数的边际分布分别为：

对 $X$ 的边际密度：
$f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dy$
对 $Y$ 的边际密度：
$f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dx$

12. 二维随机变量函数的概率分布

设有函数 $Z = g(X, Y)$ ，其中 $X$ 和 $Y$ 为二维随机变量， $g$ 是某个可测函数。我们可以通过联合概率密度函数来推导 $Z$ 的分布。对于连续随机变量，可以使用变换方法，求得 $Z$ 的概率密度函数 $f_Z(z)$ 。这个过程通常涉及雅可比行列式，假设变换是单调的，并且存在逆变换：
$f_Z(z) = \int \int_{g(x, y) = z} f_{X,Y}(x, y) \, dx \, dy$
对于离散随机变量，类似地，可以通过求和来得到新变量的分布。

13. 期望和方差的运用

期望是一个随机变量的加权平均，表示随机变量的平均值或中心趋势。对于离散型随机变量 $X$ ，期望为：
$E(X) = \sum_i x_i P(X = x_i)$
对于连续型随机变量，期望为：
$E(X) = \int_{-\infty}^{\infty} x f_X(x) \, dx$
方差衡量的是随机变量的离散程度，表示随机变量与其期望值之间的平均偏差。方差为：
$\text{Var}(X) = E[(X - E(X))^2] = E(X^2) - [E(X)]^2$
其中， $E(X^2)$ 是 $X$ 的二次期望：
$E(X^2) = \sum_i x_i^2 P(X = x_i) \quad \text{或} \quad E(X^2) = \int_{-\infty}^{\infty} x^2 f_X(x) \, dx$
协方差用于衡量两个随机变量 $X$ 和 $Y$ 的线性关系，定义为：
$\text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y)$

14. 方差的性质

非负性： $\text{Var}(X) \geq 0$ 。
加法性：对于独立随机变量 $X$ 和 $Y$ ，有：
$\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)$
缩放性：对于常数 $a$ ，有：
$\text{Var}(aX) = a^2 \text{Var}(X)$

15. 矩的概念理解

矩是对随机变量的一种描述，表示该随机变量的高阶偏离程度。常见的矩有：

原点矩： $E(X^n)$ ，表示随机变量 $X$ 关于原点的高阶期望。
中心矩： $E[(X - E(X))^n]$ ，表示随机变量 $X$ 关于其期望的高阶期望。

其中，二阶矩即方差，三阶矩和四阶矩分别与偏度（Skewness）和峰度（Kurtosis）相关。

16. 中心极限定理的概念理解及运用

中心极限定理是统计学中的一个重要定理，它描述了大样本下，样本均值的分布趋近于正态分布的性质。

具体来说，设有一组独立同分布的随机变量 $X_1, X_2, \dots, X_n$ ，每个变量的期望是 $E(X_i) = \mu$ ，方差是 $\text{Var}(X_i) = \sigma^2$ ，那么当样本容量 $n$ 足够大时，样本均值的分布可以近似为正态分布：
$\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$
当 $n$ 很大时， $\bar{X}$ 的分布趋近于正态分布，且其均值为 $\mu$ ，方差为 $\frac{\sigma^2}{n}$ ，即：
$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$
中心极限定理非常重要，因为它保证了不论原始数据的分布如何，当样本量足够大时，样本均值的分布会趋近于正态分布。因此，在许多实际应用中，我们可以假设样本均值服从正态分布，即使原始数据本身不一定服从正态分布。

17. 切比雪夫不等式的运用

切比雪夫不等式是描述任意分布的随机变量与其期望的偏差之间关系的一个不等式。它指出，对于任何随机变量 $X$ ，无论其分布如何，都有：
$P(|X - E(X)| \geq k \cdot \sigma) \leq \frac{1}{k^2}, \quad \text{对于任意的} \ k > 0$
其中， $\sigma$ 是 $X$ 的标准差， $k$ 是正数。切比雪夫不等式表明，不论随机变量的分布如何，至少 $\frac{1}{k^2}$ 的概率落在期望值 $E(X)$ 的 $k$ 倍标准差范围内。

应用：

估计分布：即使我们不知道分布的具体形式，切比雪夫不等式也能提供对概率的上界。
风险控制：在风险管理中，切比雪夫不等式可以用来估计极端事件的概率，帮助做出风险预测。

18. 矩估计法（Method of Moments）

矩估计法是一种用样本矩来估计总体分布参数的方法。基本思想是通过样本的矩（如样本均值、样本方差等）来估计总体的矩，然后利用这些矩来推导出参数的估计值。

假设有一个总体分布的概率密度函数（或概率质量函数） $f(x;\theta)$ ，其第 $k$ 阶矩为 $E[X^k] = \mu_k(\theta)$ ，其中 $\theta$ 为待估参数。矩估计法的步骤如下：

计算样本矩 $m_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k$ 。
将样本矩与总体矩相等： $m_k = \mu_k(\theta)$ 。
解出参数 $\theta$ 的估计值。

矩估计法的优点是计算简便，尤其是在没有复杂的似然函数情况下，可以较为直接地得到估计值。但它的缺点是估计结果不一定是最优的，可能缺乏一致性或有效性。

19. 极大似然估计法（Maximum Likelihood Estimation, MLE）

极大似然估计法是一种基于样本数据来估计分布参数的方法。其基本思想是，选择使得观察到的数据最可能发生的参数值。对于一组样本 $X_1, X_2, \dots, X_n$ ，假设它们独立同分布，且服从某一概率分布，具有参数 $\theta$ 。根据样本数据，极大似然估计法的步骤如下：

似然函数：定义似然函数 $L(\theta)$ 为样本在参数 $\theta$ 下的联合概率密度（或概率质量）函数：
$L(\theta) = P(X_1 = x_1, X_2 = x_2, \dots, X_n = x_n; \theta)$
对于连续型数据，似然函数为联合概率密度函数；对于离散型数据，则是联合概率质量函数。
对数似然函数：为方便计算，通常取似然函数的对数（称为对数似然函数）：
$\ell(\theta) = \log L(\theta)$
求解极大值：通过对数似然函数求导并使其等于零，得到最优的参数估计值 $\hat{\theta}_{MLE}$ ：
$\frac{d}{d\theta} \ell(\theta) = 0$

极大似然估计法的优点是具有很好的统计性质：一致性（随着样本量增加，估计值趋近于真实参数值）和渐近正态性（在样本量充分大的情况下，估计值服从正态分布）。但它的计算复杂度较高，尤其在多参数情况下，可能需要数值优化方法来求解。

20. 区间估计的计算

区间估计是对一个总体参数的估计方法，它提供一个区间（而非一个点估计），该区间内包含真实参数值的概率较高。最常见的区间估计是置信区间（Confidence Interval, CI）。

对于一个总体均值 $\mu$ 的区间估计，我们可以使用样本均值 $\bar{X}$ 和样本标准差 $S$ 来构建置信区间：
$\bar{X} \pm z_{\alpha/2} \cdot \frac{S}{\sqrt{n}}$
其中， $z_{\alpha/2}$ 是标准正态分布的 $\alpha/2$ 分位点， $n$ 是样本容量。

对于大样本，中心极限定理保证了样本均值近似服从正态分布，因此可以使用上述公式。如果总体标准差已知，可以使用正态分布的置信区间；如果总体标准差未知，则通常使用样本标准差并使用 $t$ -分布来构造置信区间。

21. 假设检验的基本思想

假设检验（Hypothesis Testing）是统计推断中的一种重要方法，主要用于根据样本数据判断某一假设是否成立。假设检验的基本过程包括以下步骤：

提出假设：
- 原假设（ $H_0$ ）：通常是待检验的假设，代表某个已知情况或无效情况。例如，“药物对病人没有影响”。
- 备择假设（ $H_1$ 或 $H_a$ ）：与原假设相对立，代表一个需要通过数据支持的假设。例如，“药物对病人有影响”。
选择显著性水平（ $\alpha$ ）：
- 显著性水平通常设置为 $0.05$ 或 $0.01$ ，表示在假设检验中接受错误的概率（即犯第一类错误的概率）。如果我们选择 $\alpha = 0.05$ ，意味着我们允许有 5% 的概率拒绝原假设，即使它是真的。
选择检验统计量：
- 检验统计量是用来检验假设的工具，通常是样本数据的某种函数，例如样本均值、样本标准差等。
计算p值：
- p值是指在原假设为真时，观察到的样本数据与假设值之间的差异的极端程度。p值越小，表示原假设不成立的证据越强。如果 p值小于显著性水平 $\alpha$ ，则拒绝原假设。
作出决策：
- 如果 $p$ -值小于或等于显著性水平 $\alpha$ ，我们拒绝原假设，认为备择假设成立。
- 如果 $p$ -值大于显著性水平 $\alpha$ ，则不拒绝原假设，认为原假设成立。

22. 不同类型参数检验问题的统计量选择

根据检验的目的和数据类型，常见的假设检验有很多不同的类型。每种检验有其对应的统计量和适用条件。

1. 单样本 $t$ -检验

单样本 $t$ -检验用于检验单个样本均值是否与总体均值 $\mu_0$ 相等。假设我们有一个样本 $X_1, X_2, \dots, X_n$ ，并且想检验该样本的均值是否等于某个值 $\mu_0$ 。

原假设（ $H_0$ ）： $\mu = \mu_0$
备择假设（ $H_1$ ）： $\mu \neq \mu_0$ （双尾检验）或者 $\mu > \mu_0$ （单尾检验）或 $\mu < \mu_0$ （单尾检验）

统计量为：
$t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}}$
其中， $\bar{X}$ 是样本均值， $S$ 是样本标准差， $n$ 是样本容量。该统计量服从自由度为 $n - 1$ 的 $t$ -分布。

2. 双样本 $t$ -检验

双样本 $t$ -检验用于比较两个独立样本的均值是否相等。假设我们有两个独立样本 $X_1, X_2, \dots, X_n$ 和 $Y_1, Y_2, \dots, Y_m$ ，并且希望检验它们的均值是否相等。

原假设（ $H_0$ ）： $\mu_X = \mu_Y$
备择假设（ $H_1$ ）： $\mu_X \neq \mu_Y$ （双尾检验）或者 $\mu_X > \mu_Y$ （单尾检验）

统计量为：
$t = \frac{\bar{X} - \bar{Y}}{\sqrt{\frac{S_X^2}{n} + \frac{S_Y^2}{m}}}$
其中， $\bar{X}$ 和 $\bar{Y}$ 是样本均值， $S_X^2$ 和 $S_Y^2$ 是样本方差， $n$ 和 $m$ 是样本容量。

3. 方差分析（ANOVA）

当我们需要比较三个及以上的独立样本均值时，通常使用方差分析（ANOVA）。ANOVA通过比较组内方差和组间方差来检验各组均值是否相等。

原假设（ $H_0$ ）：各组均值相等
备择假设（ $H_1$ ）：至少有一组均值与其他组不同

统计量为：
$F = \frac{\text{组间均方}}{\text{组内均方}}$
其中，组间均方表示各组均值与总体均值之间的变异程度，组内均方表示组内个体与组均值之间的变异程度。

4. 卡方检验

卡方检验用于检验分类数据的独立性或拟合度。比如，检验两个变量是否独立，或者检验样本数据是否符合某一已知的分布。

原假设（ $H_0$ ）：变量之间独立，或者样本数据符合某一分布。
备择假设（ $H_1$ ）：变量之间不独立，或者样本数据不符合某一分布。

卡方统计量为：
$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$
其中， $O_i$ 是观察到的频数， $E_i$ 是期望的频数。

5. z检验

z检验通常用于大样本情况下的参数检验。与 $t$ -检验类似，z检验用于检验单个样本均值是否与总体均值相等，或者检验两个独立样本的均值是否相等。

单样本 z 检验：
$z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$
其中， $\sigma$ 是总体标准差。
双样本 z 检验：
$z = \frac{\bar{X} - \bar{Y}}{\sqrt{\frac{\sigma_X^2}{n} + \frac{\sigma_Y^2}{m}}}$

通常，z检验用于总体标准差已知或样本容量较大的情况（如 $n > 30$ ）。