统计与概率思维导图

# 《统计与概率思维导图》

## 一、统计学

### 1.1 描述性统计

*   **定义:** 通过图表或数值方法，对数据进行整理、概括和描述，呈现数据的基本特征。
*   **数据类型:**
    *   **数值型数据:**
        *   离散型数据：整数，例如人数、零件个数。
        *   连续型数据：可取任意值，例如身高、体重。
    *   **分类型数据:**
        *   名义型数据：无序类别，例如颜色、性别。
        *   有序型数据：有顺序类别，例如教育程度、满意度。
*   **中心趋势:**
    *   **均值(Mean):** 所有数据之和除以数据个数。 易受异常值影响。
    *   **中位数(Median):** 将数据排序后，位于中间位置的数值。 不易受异常值影响。
    *   **众数(Mode):** 数据集中出现次数最多的数值。
*   **离散程度:**
    *   **极差(Range):** 最大值与最小值之差。 简单但粗略。
    *   **方差(Variance):** 数据偏离均值的程度的平方的平均值。
    *   **标准差(Standard Deviation):** 方差的平方根。  解释性更强，与原始数据单位一致。
    *   **四分位数(Quartiles):** 将数据分成四个等份的点。
        *   Q1: 下四分位数，25% 的数据小于它。
        *   Q2: 中位数。
        *   Q3: 上四分位数，75% 的数据小于它。
    *   **四分位距(IQR):** Q3 - Q1。 反映中间 50% 数据的离散程度。
*   **可视化:**
    *   **直方图(Histogram):** 展示数值型数据的分布。
    *   **条形图(Bar Chart):** 展示分类型数据的频率。
    *   **饼图(Pie Chart):** 展示分类型数据在总体中的占比。
    *   **箱线图(Box Plot):** 展示数据的中心趋势、离散程度和异常值。
    *   **散点图(Scatter Plot):** 展示两个变量之间的关系。

### 1.2 推断性统计

*   **定义:** 利用样本数据推断总体特征，包括假设检验和参数估计。
*   **抽样:**
    *   **简单随机抽样:** 每个个体被抽中的概率相等。
    *   **分层抽样:** 将总体分成若干层，每层抽取一定比例的样本。
    *   **整群抽样:** 将总体分成若干群，随机抽取若干群作为样本。
    *   **系统抽样:** 每隔固定间隔抽取一个个体。
*   **参数估计:**
    *   **点估计:** 用一个样本统计量来估计总体参数。 例如，用样本均值估计总体均值。
    *   **区间估计:** 用一个区间来估计总体参数。 例如，给出总体均值的一个置信区间。
    *   **置信区间:** 在一定置信水平下，包含总体参数的区间。
    *   **置信水平:** 总体参数落在置信区间的概率。
*   **假设检验:**
    *   **零假设(Null Hypothesis):** 假设总体参数没有显著变化。
    *   **备择假设(Alternative Hypothesis):** 假设总体参数有显著变化。
    *   **显著性水平(Significance Level):** 拒绝零假设的概率。 通常为 0.05 或 0.01。
    *   **p 值:** 在零假设成立的条件下，观察到当前样本或更极端样本的概率。
    *   **决策规则:** 如果 p 值小于显著性水平，则拒绝零假设；否则，不拒绝零假设。
    *   **I 型错误(Type I Error):** 零假设为真，但被拒绝。  概率为 α (显著性水平)。
    *   **II 型错误(Type II Error):** 零假设为假，但未被拒绝。  概率为 β。
    *   **功效(Power):** 正确拒绝零假设的概率。 等于 1 - β。
    *   **常见的假设检验:**
        *   t 检验：用于检验均值。
        *   Z 检验：用于检验均值（大样本）。
        *   卡方检验：用于检验分类变量的独立性。
        *   方差分析(ANOVA)：用于检验多个均值之间的差异。
*   **回归分析:**
    *   **线性回归:** 建立一个线性模型来描述自变量和因变量之间的关系。
    *   **多元线性回归:** 多个自变量影响一个因变量。
    *   **逻辑回归:** 用于预测二元分类结果。

## 二、概率论

### 2.1 基本概念

*   **随机事件:** 在一定条件下，可能发生也可能不发生的事件。
*   **样本空间(Sample Space):** 所有可能结果的集合。
*   **概率(Probability):** 事件发生的可能性大小的度量。 0 ≤ P(A) ≤ 1。
*   **概率的性质:**
    *   非负性: P(A) ≥ 0
    *   规范性: P(Ω) = 1, 其中 Ω 为样本空间。
    *   可加性: 对于互斥事件 A 和 B，P(A∪B) = P(A) + P(B)。
*   **古典概型:** 所有基本事件发生的概率相等。 P(A) = A 包含的基本事件数 / 样本空间包含的基本事件数。
*   **条件概率:** 在事件 B 发生的条件下，事件 A 发生的概率。 P(A|B) = P(A∩B) / P(B)。
*   **事件的独立性:** 事件 A 的发生不影响事件 B 的发生。  P(A|B) = P(A) 或 P(A∩B) = P(A)P(B)。
*   **全概率公式:** P(A) = Σ P(A|Bi)P(Bi)，其中 Bi 构成样本空间的一个划分。
*   **贝叶斯公式:** P(Bi|A) = P(A|Bi)P(Bi) / Σ P(A|Bj)P(Bj)。  用于在已知结果的条件下，推断原因的可能性。

### 2.2 随机变量

*   **定义:** 用来描述随机试验结果的变量。
*   **离散型随机变量:**
    *   **概率质量函数(PMF):** 描述随机变量取每个值的概率。
    *   **累积分布函数(CDF):** 描述随机变量小于等于某个值的概率。
    *   **常见离散型分布:**
        *   **伯努利分布(Bernoulli Distribution):** 描述一次试验的结果（成功或失败）。
        *   **二项分布(Binomial Distribution):** 描述 n 次独立试验中成功的次数。
        *   **泊松分布(Poisson Distribution):** 描述单位时间内或空间内随机事件发生的次数。
        *   **几何分布(Geometric Distribution):** 描述首次成功需要进行的试验次数。
*   **连续型随机变量:**
    *   **概率密度函数(PDF):** 描述随机变量在某个值附近的概率密度。
    *   **累积分布函数(CDF):** 描述随机变量小于等于某个值的概率。
    *   **常见连续型分布:**
        *   **均匀分布(Uniform Distribution):** 在一个区间内，每个值的概率相等。
        *   **指数分布(Exponential Distribution):** 描述事件发生的时间间隔。
        *   **正态分布(Normal Distribution):** 自然界中最常见的分布，也称为高斯分布。
        *   **标准正态分布(Standard Normal Distribution):** 均值为 0，标准差为 1 的正态分布。

### 2.3 期望与方差

*   **期望(Expected Value):** 随机变量取值的平均值。
    *   离散型：E(X) = Σ x * P(X=x)
    *   连续型：E(X) = ∫ x * f(x) dx
*   **方差(Variance):** 随机变量偏离期望的程度。
    *   Var(X) = E[(X - E(X))^2]
*   **标准差(Standard Deviation):** 方差的平方根。
    *   SD(X) = √Var(X)
*   **协方差(Covariance):** 衡量两个随机变量之间的线性关系。
    *   Cov(X, Y) = E[(X - E(X))(Y - E(Y))]
*   **相关系数(Correlation Coefficient):** 协方差的标准化，范围在 -1 到 1 之间。
    *   ρ(X, Y) = Cov(X, Y) / (SD(X) * SD(Y))

### 2.4 大数定律与中心极限定理

*   **大数定律(Law of Large Numbers):** 当样本容量足够大时，样本均值接近总体均值。
*   **中心极限定理(Central Limit Theorem):** 独立同分布的随机变量之和的分布，在样本容量足够大时，近似于正态分布。 这是统计推断的基础。

《统计与概率思维导图》

一、统计学

1.1 描述性统计

定义: 通过图表或数值方法，对数据进行整理、概括和描述，呈现数据的基本特征。
数据类型:
- 数值型数据:
  - 离散型数据：整数，例如人数、零件个数。
  - 连续型数据：可取任意值，例如身高、体重。
- 分类型数据:
  - 名义型数据：无序类别，例如颜色、性别。
  - 有序型数据：有顺序类别，例如教育程度、满意度。
中心趋势:
- 均值(Mean): 所有数据之和除以数据个数。易受异常值影响。
- 中位数(Median): 将数据排序后，位于中间位置的数值。不易受异常值影响。
- 众数(Mode): 数据集中出现次数最多的数值。
离散程度:
- 极差(Range): 最大值与最小值之差。简单但粗略。
- 方差(Variance): 数据偏离均值的程度的平方的平均值。
- 标准差(Standard Deviation): 方差的平方根。解释性更强，与原始数据单位一致。
- 四分位数(Quartiles): 将数据分成四个等份的点。
  - Q1: 下四分位数，25% 的数据小于它。
  - Q2: 中位数。
  - Q3: 上四分位数，75% 的数据小于它。
- 四分位距(IQR): Q3 - Q1。反映中间 50% 数据的离散程度。
可视化:
- 直方图(Histogram): 展示数值型数据的分布。
- 条形图(Bar Chart): 展示分类型数据的频率。
- 饼图(Pie Chart): 展示分类型数据在总体中的占比。
- 箱线图(Box Plot): 展示数据的中心趋势、离散程度和异常值。
- 散点图(Scatter Plot): 展示两个变量之间的关系。

1.2 推断性统计

定义: 利用样本数据推断总体特征，包括假设检验和参数估计。
抽样:
- 简单随机抽样: 每个个体被抽中的概率相等。
- 分层抽样: 将总体分成若干层，每层抽取一定比例的样本。
- 整群抽样: 将总体分成若干群，随机抽取若干群作为样本。
- 系统抽样: 每隔固定间隔抽取一个个体。
参数估计:
- 点估计: 用一个样本统计量来估计总体参数。例如，用样本均值估计总体均值。
- 区间估计: 用一个区间来估计总体参数。例如，给出总体均值的一个置信区间。
- 置信区间: 在一定置信水平下，包含总体参数的区间。
- 置信水平: 总体参数落在置信区间的概率。
假设检验:
- 零假设(Null Hypothesis): 假设总体参数没有显著变化。
- 备择假设(Alternative Hypothesis): 假设总体参数有显著变化。
- 显著性水平(Significance Level): 拒绝零假设的概率。通常为 0.05 或 0.01。
- p 值: 在零假设成立的条件下，观察到当前样本或更极端样本的概率。
- 决策规则: 如果 p 值小于显著性水平，则拒绝零假设；否则，不拒绝零假设。
- I 型错误(Type I Error): 零假设为真，但被拒绝。概率为 α (显著性水平)。
- II 型错误(Type II Error): 零假设为假，但未被拒绝。概率为 β。
- 功效(Power): 正确拒绝零假设的概率。等于 1 - β。
- 常见的假设检验:
  - t 检验：用于检验均值。
  - Z 检验：用于检验均值（大样本）。
  - 卡方检验：用于检验分类变量的独立性。
  - 方差分析(ANOVA)：用于检验多个均值之间的差异。
回归分析:
- 线性回归: 建立一个线性模型来描述自变量和因变量之间的关系。
- 多元线性回归: 多个自变量影响一个因变量。
- 逻辑回归: 用于预测二元分类结果。

二、概率论

2.1 基本概念

随机事件: 在一定条件下，可能发生也可能不发生的事件。
样本空间(Sample Space): 所有可能结果的集合。
概率(Probability): 事件发生的可能性大小的度量。 0 ≤ P(A) ≤ 1。
概率的性质:
- 非负性: P(A) ≥ 0
- 规范性: P(Ω) = 1, 其中 Ω 为样本空间。
- 可加性: 对于互斥事件 A 和 B，P(A∪B) = P(A) + P(B)。
古典概型: 所有基本事件发生的概率相等。 P(A) = A 包含的基本事件数 / 样本空间包含的基本事件数。
条件概率: 在事件 B 发生的条件下，事件 A 发生的概率。 P(A|B) = P(A∩B) / P(B)。
事件的独立性: 事件 A 的发生不影响事件 B 的发生。 P(A|B) = P(A) 或 P(A∩B) = P(A)P(B)。
全概率公式: P(A) = Σ P(A|Bi)P(Bi)，其中 Bi 构成样本空间的一个划分。
贝叶斯公式: P(Bi|A) = P(A|Bi)P(Bi) / Σ P(A|Bj)P(Bj)。用于在已知结果的条件下，推断原因的可能性。

2.2 随机变量

定义: 用来描述随机试验结果的变量。
离散型随机变量:
- 概率质量函数(PMF): 描述随机变量取每个值的概率。
- 累积分布函数(CDF): 描述随机变量小于等于某个值的概率。
- 常见离散型分布:
  - 伯努利分布(Bernoulli Distribution): 描述一次试验的结果（成功或失败）。
  - 二项分布(Binomial Distribution): 描述 n 次独立试验中成功的次数。
  - 泊松分布(Poisson Distribution): 描述单位时间内或空间内随机事件发生的次数。
  - 几何分布(Geometric Distribution): 描述首次成功需要进行的试验次数。
连续型随机变量:
- 概率密度函数(PDF): 描述随机变量在某个值附近的概率密度。
- 累积分布函数(CDF): 描述随机变量小于等于某个值的概率。
- 常见连续型分布:
  - 均匀分布(Uniform Distribution): 在一个区间内，每个值的概率相等。
  - 指数分布(Exponential Distribution): 描述事件发生的时间间隔。
  - 正态分布(Normal Distribution): 自然界中最常见的分布，也称为高斯分布。
  - 标准正态分布(Standard Normal Distribution): 均值为 0，标准差为 1 的正态分布。

2.3 期望与方差

期望(Expected Value): 随机变量取值的平均值。
- 离散型：E(X) = Σ x * P(X=x)
- 连续型：E(X) = ∫ x * f(x) dx
方差(Variance): 随机变量偏离期望的程度。
- Var(X) = E[(X - E(X))^2]
标准差(Standard Deviation): 方差的平方根。
- SD(X) = √Var(X)
协方差(Covariance): 衡量两个随机变量之间的线性关系。
- Cov(X, Y) = E[(X - E(X))(Y - E(Y))]
相关系数(Correlation Coefficient): 协方差的标准化，范围在 -1 到 1 之间。
- ρ(X, Y) = Cov(X, Y) / (SD(X) * SD(Y))

2.4 大数定律与中心极限定理

大数定律(Law of Large Numbers): 当样本容量足够大时，样本均值接近总体均值。
中心极限定理(Central Limit Theorem): 独立同分布的随机变量之和的分布，在样本容量足够大时，近似于正态分布。这是统计推断的基础。

上一个主题：西游记思维导图下一个主题：《红星照耀中国》思维导图