《概率思维导图》
一、基础概念
1.1 概率定义
- 古典概率: 等可能事件,P(A) = m/n (m为A包含的事件数,n为总事件数)
- 频率定义: 大量重复试验下,事件A发生的频率接近于A的概率
- 主观概率: 基于个人经验、信念对事件发生的可能性评估
- 公理化定义: 非负性,规范性(P(Ω) = 1),可加性
1.2 随机事件
- 必然事件: 一定发生的事件
- 不可能事件: 一定不发生的事件
- 基本事件: 不能再分解的事件
- 复合事件: 由若干基本事件组成的事件
1.3 样本空间
- 定义: 所有可能的基本事件的集合
- 表示: Ω 或 S
1.4 事件间的关系与运算
- 包含: A ⊆ B (A发生则B发生)
- 相等: A = B (A ⊆ B 且 B ⊆ A)
- 互斥: A ∩ B = ∅ (A和B不能同时发生)
- 对立: A ∩ B = ∅ 且 A ∪ B = Ω
- 并(和): A ∪ B (A或B发生)
- 交(积): A ∩ B (A和B同时发生)
- 差: A - B (A发生但B不发生)
二、概率计算
2.1 条件概率
- 定义: P(A|B) = P(A ∩ B) / P(B) (P(B) > 0)
- 理解: 在事件B发生的条件下,事件A发生的概率
- 乘法公式: P(A ∩ B) = P(B) P(A|B) = P(A) P(B|A)
- 全概率公式: P(A) = Σ P(B_i) * P(A|B_i) (B_i互斥且构成完备事件组)
- 贝叶斯公式: P(B_i|A) = [P(B_i) P(A|B_i)] / Σ [P(B_j) P(A|B_j)] (用于“执果索因”)
2.2 独立性
- 定义: P(A ∩ B) = P(A) * P(B)
- 性质:
- 若A与B独立,则A与B的补集,A的补集与B,A的补集与B的补集也独立
- A, B, C 相互独立 <=> P(ABC) = P(A)P(B)P(C), P(AB) = P(A)P(B), P(AC) = P(A)P(C), P(BC) = P(B)P(C)
2.3 事件的概率计算技巧
- 正难则反: P(A) = 1 - P(A的补集)
- 划分: 将复杂事件分解为若干互斥事件的和
三、随机变量及其分布
3.1 随机变量
- 定义: 将随机试验的结果数值化的变量
- 离散型随机变量: 取值有限个或可数无穷个
- 连续型随机变量: 取值不可数无穷个
3.2 离散型随机变量的分布
- 概率质量函数 (PMF): P(X = x) = p(x)
- 常用分布:
- 0-1分布: P(X=1) = p, P(X=0) = 1-p
- 二项分布: P(X=k) = C(n, k) p^k (1-p)^(n-k) (n重伯努利试验)
- 泊松分布: P(X=k) = (λ^k * e^(-λ)) / k! (λ > 0, 描述单位时间/空间内稀有事件发生的次数)
- 几何分布: P(X=k) = (1-p)^(k-1) * p (k次伯努利试验才成功)
- 超几何分布: 从N个物件(其中M个是不及格的)中抽出n个,则抽出x个不及格物件的机率为何?
3.3 连续型随机变量的分布
- 概率密度函数 (PDF): f(x) (∫ f(x) dx = 1)
- 累积分布函数 (CDF): F(x) = P(X ≤ x) = ∫ f(t) dt (积分下限到x)
- 常用分布:
- 均匀分布: f(x) = 1/(b-a) (a ≤ x ≤ b)
- 指数分布: f(x) = λ * e^(-λx) (x ≥ 0)
- 正态分布: f(x) = (1 / (σ √(2π))) e^(-((x-μ)^2 / (2σ^2))) (μ:均值, σ:标准差, 记作 N(μ, σ^2))
3.4 多维随机变量
- 联合分布函数: F(x, y) = P(X ≤ x, Y ≤ y)
- 边缘分布:
- 离散:P_X(x) = Σ P(x, y) , P_Y(y) = Σ P(x, y)
- 连续:f_X(x) = ∫ f(x, y) dy , f_Y(y) = ∫ f(x, y) dx
- 条件分布:
- 离散:P(X=x | Y=y) = P(X=x, Y=y) / P(Y=y)
- 连续:f(x|y) = f(x, y) / f_Y(y)
- 独立性: F(x, y) = F_X(x) F_Y(y) 或 f(x, y) = f_X(x) f_Y(y)
四、随机变量的数字特征
4.1 数学期望 (均值)
- 定义: E(X) = Σ x P(X=x) (离散), E(X) = ∫ x f(x) dx (连续)
- 性质:
- E(aX + b) = aE(X) + b
- E(X + Y) = E(X) + E(Y)
- 若X, Y独立,则 E(XY) = E(X)E(Y)
4.2 方差
- 定义: Var(X) = E[(X - E(X))^2] = E(X^2) - [E(X)]^2
- 性质:
- Var(aX + b) = a^2 * Var(X)
- 若X, Y独立,则 Var(X + Y) = Var(X) + Var(Y)
4.3 标准差
- 定义: σ = √Var(X)
4.4 协方差
- 定义: Cov(X, Y) = E[(X - E(X)) * (Y - E(Y))] = E(XY) - E(X)E(Y)
- 性质:
- Cov(X, X) = Var(X)
- Cov(X, Y) = Cov(Y, X)
- Cov(aX + b, cY + d) = ac * Cov(X, Y)
4.5 相关系数
- 定义: ρ(X, Y) = Cov(X, Y) / (σ_X * σ_Y)
- 性质:
- -1 ≤ ρ(X, Y) ≤ 1
- ρ(X, Y) = 0 => X, Y不相关 (反之不成立)
- 若X, Y独立,则ρ(X, Y) = 0
- |ρ(X, Y)| = 1 => X, Y 线性相关
五、大数定律与中心极限定理
5.1 大数定律
- 切比雪夫不等式: P(|X - E(X)| ≥ ε) ≤ Var(X) / ε^2
- 弱大数定律 (辛钦大数定律): 样本均值依概率收敛于总体均值
- 伯努利大数定律: 频率依概率收敛于概率
5.2 中心极限定理
- 独立同分布中心极限定理: 样本均值近似服从正态分布
- 李雅普诺夫定理: 更一般化的中心极限定理,放宽了独立同分布的条件
- 拉普拉斯中心极限定理: 二项分布当n很大时,近似服从正态分布
六、统计推断
6.1 参数估计
- 点估计: 用样本统计量估计总体参数
- 矩估计: 用样本矩估计总体矩
- 极大似然估计 (MLE): 选择使得样本出现概率最大的参数值
- 区间估计: 用区间估计总体参数
- 置信区间: (θ_L, θ_U),使得P(θ_L ≤ θ ≤ θ_U) = 1 - α (α为显著性水平)
6.2 假设检验
- 零假设 (H0): 待检验的假设
- 备择假设 (H1): 与零假设对立的假设
- 显著性水平 (α): 拒绝H0,但H0实际成立的概率 (第一类错误概率)
- 检验统计量: 用于判断是否拒绝H0的统计量
- 拒绝域: 拒绝H0的区域
- p值: 在H0成立的条件下,出现样本结果或更极端结果的概率
这仅仅是一个基础的概率思维导图,实际应用中需要根据具体问题进行更深入的分析和建模。