概率论思维导图

# 《概率论思维导图》

## 一、概率论基础概念

### 1.1 随机事件与样本空间

#### 1.1.1 随机事件
* 定义：在一定条件下，可能发生也可能不发生的事件。
* 表示：通常用大写字母 A, B, C 等表示。
* 分类：
    * 必然事件：在每次试验中必定发生的事件。
    * 不可能事件：在每次试验中都不可能发生的事件。
    * 基本事件：不能再分解的事件。
    * 复合事件：由若干个基本事件组成的事件。

#### 1.1.2 样本空间 (Ω)
* 定义：随机试验所有可能结果的集合。
* 样本点：样本空间中的每一个元素 (ω)。

### 1.2 概率的定义与性质

#### 1.2.1 概率的定义
* 古典定义 (等可能性)：P(A) = A包含的基本事件数 / Ω包含的基本事件数 (适用于等可能样本空间)。
* 频率定义 (统计定义)：P(A) ≈ A发生的频率 (当试验次数足够多时)。
* 公理化定义：
    * 非负性：P(A) ≥ 0
    * 规范性：P(Ω) = 1
    * 可列可加性：对于两两互斥事件 A₁, A₂, ..., An，有 P(A₁∪A₂∪...∪An) = P(A₁) + P(A₂) + ... + P(An)

#### 1.2.2 概率的性质
* P(∅) = 0 (∅ 表示不可能事件)
* P(Ā) = 1 - P(A) (Ā 表示 A 的对立事件)
* 若 A ⊂ B，则 P(A) ≤ P(B)
* 加法公式：P(A∪B) = P(A) + P(B) - P(A∩B)
* 更一般的加法公式：P(A₁∪A₂∪...∪An) = ΣP(Ai) - ΣP(Ai∩Aj) + ΣP(Ai∩Aj∩Ak) - ... + (-1)^(n-1)P(A₁∩A₂∩...∩An)

### 1.3 条件概率与独立性

#### 1.3.1 条件概率 P(A|B)
* 定义：在事件 B 发生的条件下，事件 A 发生的概率。
* 公式：P(A|B) = P(A∩B) / P(B)，其中 P(B) > 0

#### 1.3.3 全概率公式
* 若 B₁, B₂, ..., Bn 构成 Ω 的一个划分 (Bi∩Bj = ∅, i≠j, ∪Bi = Ω)，则 P(A) = ΣP(Bi)P(A|Bi)

#### 1.3.4 贝叶斯公式
* P(Bi|A) = P(Bi)P(A|Bi) / ΣP(Bj)P(A|Bj)

#### 1.3.5 事件的独立性
* 定义：事件 A 和事件 B 独立，当且仅当 P(A∩B) = P(A)P(B)。
* 推广：A, B, C 相互独立 ⇔ P(A∩B) = P(A)P(B), P(A∩C) = P(A)P(C), P(B∩C) = P(B)P(C), P(A∩B∩C) = P(A)P(B)P(C)

## 二、随机变量及其分布

### 2.1 随机变量的定义

#### 2.1.1 定义
* 定义：将随机试验的结果 (样本点) 映射为实数的函数。
* 分类：
    * 离散型随机变量
    * 连续型随机变量

### 2.2 离散型随机变量及其分布

#### 2.2.1 概率质量函数 (PMF)
* 定义：P(X = xi) = pi，其中 xi 是随机变量 X 可能取的值。
* 性质：
    * 0 ≤ pi ≤ 1
    * Σpi = 1

#### 2.2.2 常见离散型分布
* 伯努利分布 (0-1分布)：P(X=1) = p, P(X=0) = 1-p
* 二项分布 B(n, p)：P(X=k) = C(n, k) * p^k * (1-p)^(n-k), k = 0, 1, ..., n
* 泊松分布 P(λ)：P(X=k) = (λ^k * e^(-λ)) / k!, k = 0, 1, 2, ...
* 几何分布：P(X=k) = (1-p)^(k-1) * p, k = 1, 2, 3, ...
* 超几何分布：P(X=k) = [C(M, k) * C(N-M, n-k)] / C(N, n)

### 2.3 连续型随机变量及其分布

#### 2.3.1 概率密度函数 (PDF)
* 定义：f(x)，满足 P(a ≤ X ≤ b) = ∫(a, b) f(x) dx
* 性质：
    * f(x) ≥ 0
    * ∫(-∞, +∞) f(x) dx = 1

#### 2.3.2 常见连续型分布
* 均匀分布 U(a, b)：f(x) = 1/(b-a), a ≤ x ≤ b
* 指数分布 Exp(λ)：f(x) = λe^(-λx), x ≥ 0
* 正态分布 N(μ, σ²)：f(x) = (1 / (σ√(2π))) * exp(-(x-μ)² / (2σ²))

### 2.4 分布函数 (CDF)

#### 2.4.1 定义
* 定义：F(x) = P(X ≤ x)

#### 2.4.2 性质
* 0 ≤ F(x) ≤ 1
* F(x) 是单调不减函数
* F(-∞) = 0, F(+∞) = 1
* 对于离散型随机变量：F(x) = ΣP(X=xi), xi ≤ x
* 对于连续型随机变量：F(x) = ∫(-∞, x) f(t) dt

## 三、随机变量的数字特征

### 3.1 数学期望 (均值)

#### 3.1.1 定义
* 离散型：E(X) = Σxi * P(X=xi)
* 连续型：E(X) = ∫(-∞, +∞) x * f(x) dx

#### 3.1.2 性质
* E(aX + b) = aE(X) + b
* E(X + Y) = E(X) + E(Y)
* 若 X 和 Y 独立，则 E(XY) = E(X)E(Y)

### 3.2 方差

#### 3.2.1 定义
* Var(X) = E[(X - E(X))²] = E(X²) - [E(X)]²

#### 3.2.2 性质
* Var(aX + b) = a²Var(X)
* 若 X 和 Y 独立，则 Var(X + Y) = Var(X) + Var(Y)

### 3.3 标准差

#### 3.3.1 定义
* SD(X) = √Var(X)

### 3.4 协方差

#### 3.4.1 定义
* Cov(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y)

#### 3.4.2 性质
* Cov(X, X) = Var(X)
* Cov(X, Y) = Cov(Y, X)
* Cov(aX + b, cY + d) = acCov(X, Y)
* Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)

### 3.5 相关系数

#### 3.5.1 定义
* ρ(X, Y) = Cov(X, Y) / (SD(X) * SD(Y))

#### 3.5.2 性质
* -1 ≤ ρ(X, Y) ≤ 1
* ρ(X, Y) = 0 ⇔ X 和 Y 不相关
* |ρ(X, Y)| = 1 ⇔ X 和 Y 线性相关

## 四、大数定律与中心极限定理

### 4.1 大数定律

#### 4.1.1 切比雪夫不等式
* P(|X - E(X)| ≥ ε) ≤ Var(X) / ε²

#### 4.1.2 切比雪夫大数定律
* 对于 n 个相互独立的随机变量 X₁, X₂, ..., Xn，若它们都存在有限的期望和方差，则对于任意 ε > 0，有 lim (n→∞) P(|(1/n)ΣXi - (1/n)ΣE(Xi)| < ε) = 1

#### 4.1.3 伯努利大数定律
* 当 n 足够大时，事件发生的频率接近于事件的概率。

### 4.2 中心极限定理

#### 4.2.1 Lindeberg-Lévy 中心极限定理
* 对于 n 个独立同分布的随机变量 X₁, X₂, ..., Xn，若 E(Xi) = μ, Var(Xi) = σ²，则当 n 足够大时，ΣXi 近似服从正态分布 N(nμ, nσ²)， (ΣXi - nμ) / (σ√n) 近似服从标准正态分布 N(0, 1)。

#### 4.2.2 Laplace 中心极限定理
* 二项分布 B(n, p) 可以用正态分布 N(np, np(1-p)) 近似。

《概率论思维导图》

一、概率论基础概念

1.1 随机事件与样本空间

1.1.1 随机事件

定义：在一定条件下，可能发生也可能不发生的事件。
表示：通常用大写字母 A, B, C 等表示。
分类：
- 必然事件：在每次试验中必定发生的事件。
- 不可能事件：在每次试验中都不可能发生的事件。
- 基本事件：不能再分解的事件。
- 复合事件：由若干个基本事件组成的事件。

1.1.2 样本空间 (Ω)

定义：随机试验所有可能结果的集合。
样本点：样本空间中的每一个元素 (ω)。

1.2 概率的定义与性质

1.2.1 概率的定义

古典定义 (等可能性)：P(A) = A包含的基本事件数 / Ω包含的基本事件数 (适用于等可能样本空间)。
频率定义 (统计定义)：P(A) ≈ A发生的频率 (当试验次数足够多时)。
公理化定义：
- 非负性：P(A) ≥ 0
- 规范性：P(Ω) = 1
- 可列可加性：对于两两互斥事件 A₁, A₂, ..., An，有 P(A₁∪A₂∪...∪An) = P(A₁) + P(A₂) + ... + P(An)

1.2.2 概率的性质

P(∅) = 0 (∅ 表示不可能事件)
P(Ā) = 1 - P(A) (Ā 表示 A 的对立事件)
若 A ⊂ B，则 P(A) ≤ P(B)
加法公式：P(A∪B) = P(A) + P(B) - P(A∩B)
更一般的加法公式：P(A₁∪A₂∪...∪An) = ΣP(Ai) - ΣP(Ai∩Aj) + ΣP(Ai∩Aj∩Ak) - ... + (-1)^(n-1)P(A₁∩A₂∩...∩An)

1.3 条件概率与独立性

1.3.1 条件概率 P(A|B)

定义：在事件 B 发生的条件下，事件 A 发生的概率。
公式：P(A|B) = P(A∩B) / P(B)，其中 P(B) > 0

1.3.2 乘法公式

P(A∩B) = P(B)P(A|B) = P(A)P(B|A)
更一般的乘法公式：P(A₁∩A₂∩...∩An) = P(A₁)P(A₂|A₁)P(A₃|A₁∩A₂) ... P(An|A₁∩A₂∩...∩An-₁)

1.3.3 全概率公式

若 B₁, B₂, ..., Bn 构成 Ω 的一个划分 (Bi∩Bj = ∅, i≠j, ∪Bi = Ω)，则 P(A) = ΣP(Bi)P(A|Bi)

1.3.4 贝叶斯公式

P(Bi|A) = P(Bi)P(A|Bi) / ΣP(Bj)P(A|Bj)

1.3.5 事件的独立性

定义：事件 A 和事件 B 独立，当且仅当 P(A∩B) = P(A)P(B)。
推广：A, B, C 相互独立 ⇔ P(A∩B) = P(A)P(B), P(A∩C) = P(A)P(C), P(B∩C) = P(B)P(C), P(A∩B∩C) = P(A)P(B)P(C)

二、随机变量及其分布

2.1 随机变量的定义

2.1.1 定义

定义：将随机试验的结果 (样本点) 映射为实数的函数。
分类：
- 离散型随机变量
- 连续型随机变量

2.2 离散型随机变量及其分布

2.2.1 概率质量函数 (PMF)

定义：P(X = xi) = pi，其中 xi 是随机变量 X 可能取的值。
性质：
- 0 ≤ pi ≤ 1
- Σpi = 1

2.2.2 常见离散型分布

伯努利分布 (0-1分布)：P(X=1) = p, P(X=0) = 1-p
二项分布 B(n, p)：P(X=k) = C(n, k) p^k (1-p)^(n-k), k = 0, 1, ..., n
泊松分布 P(λ)：P(X=k) = (λ^k * e^(-λ)) / k!, k = 0, 1, 2, ...
几何分布：P(X=k) = (1-p)^(k-1) * p, k = 1, 2, 3, ...
超几何分布：P(X=k) = [C(M, k) * C(N-M, n-k)] / C(N, n)

2.3 连续型随机变量及其分布

2.3.1 概率密度函数 (PDF)

定义：f(x)，满足 P(a ≤ X ≤ b) = ∫(a, b) f(x) dx
性质：
- f(x) ≥ 0
- ∫(-∞, +∞) f(x) dx = 1

2.3.2 常见连续型分布

均匀分布 U(a, b)：f(x) = 1/(b-a), a ≤ x ≤ b
指数分布 Exp(λ)：f(x) = λe^(-λx), x ≥ 0
正态分布 N(μ, σ²)：f(x) = (1 / (σ√(2π))) * exp(-(x-μ)² / (2σ²))

2.4 分布函数 (CDF)

2.4.1 定义

定义：F(x) = P(X ≤ x)

2.4.2 性质

0 ≤ F(x) ≤ 1
F(x) 是单调不减函数
F(-∞) = 0, F(+∞) = 1
对于离散型随机变量：F(x) = ΣP(X=xi), xi ≤ x
对于连续型随机变量：F(x) = ∫(-∞, x) f(t) dt

三、随机变量的数字特征

3.1 数学期望 (均值)

3.1.1 定义

离散型：E(X) = Σxi * P(X=xi)
连续型：E(X) = ∫(-∞, +∞) x * f(x) dx

3.1.2 性质

E(aX + b) = aE(X) + b
E(X + Y) = E(X) + E(Y)
若 X 和 Y 独立，则 E(XY) = E(X)E(Y)

3.2 方差

3.2.1 定义

Var(X) = E[(X - E(X))²] = E(X²) - [E(X)]²

3.2.2 性质

Var(aX + b) = a²Var(X)
若 X 和 Y 独立，则 Var(X + Y) = Var(X) + Var(Y)

3.3 标准差

3.3.1 定义

SD(X) = √Var(X)

3.4 协方差

3.4.1 定义

Cov(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y)

3.4.2 性质

Cov(X, X) = Var(X)
Cov(X, Y) = Cov(Y, X)
Cov(aX + b, cY + d) = acCov(X, Y)
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)

3.5 相关系数

3.5.1 定义

ρ(X, Y) = Cov(X, Y) / (SD(X) * SD(Y))

3.5.2 性质

-1 ≤ ρ(X, Y) ≤ 1
ρ(X, Y) = 0 ⇔ X 和 Y 不相关
|ρ(X, Y)| = 1 ⇔ X 和 Y 线性相关

四、大数定律与中心极限定理

4.1 大数定律

4.1.1 切比雪夫不等式

P(|X - E(X)| ≥ ε) ≤ Var(X) / ε²

4.1.2 切比雪夫大数定律

对于 n 个相互独立的随机变量 X₁, X₂, ..., Xn，若它们都存在有限的期望和方差，则对于任意 ε > 0，有 lim (n→∞) P(|(1/n)ΣXi - (1/n)ΣE(Xi)| < ε) = 1

4.1.3 伯努利大数定律

当 n 足够大时，事件发生的频率接近于事件的概率。

4.2 中心极限定理

4.2.1 Lindeberg-Lévy 中心极限定理

对于 n 个独立同分布的随机变量 X₁, X₂, ..., Xn，若 E(Xi) = μ, Var(Xi) = σ²，则当 n 足够大时，ΣXi 近似服从正态分布 N(nμ, nσ²)， (ΣXi - nμ) / (σ√n) 近似服从标准正态分布 N(0, 1)。

4.2.2 Laplace 中心极限定理

二项分布 B(n, p) 可以用正态分布 N(np, np(1-p)) 近似。

上一个主题：西游记思维导图下一个主题：漂亮的思维结构导图