概率分布思维导图

《概率分布思维导图》

一、基础概念

1.1 随机变量 (Random Variable)

  • 定义: 取值具有随机性的变量。
  • 分类:
    • 离散型随机变量 (Discrete Random Variable): 取值可数的变量。
    • 连续型随机变量 (Continuous Random Variable): 取值不可数的变量,可以在某个区间内取任何值。

1.2 概率质量函数 (Probability Mass Function - PMF)

  • 定义: 描述离散型随机变量在每个特定值上的概率。
  • 性质:
    • $0 \le P(X = x) \le 1$
    • $\sum_{x} P(X = x) = 1$

1.3 概率密度函数 (Probability Density Function - PDF)

  • 定义: 描述连续型随机变量在某个区间内概率的相对可能性。
  • 性质:
    • $f(x) \ge 0$
    • $\int_{-\infty}^{\infty} f(x) dx = 1$
    • $P(a \le X \le b) = \int_{a}^{b} f(x) dx$

1.4 累积分布函数 (Cumulative Distribution Function - CDF)

  • 定义: 描述随机变量小于或等于某个值的概率。
  • 公式:
    • 离散型: $F(x) = P(X \le x) = \sum_{t \le x} P(X = t)$
    • 连续型: $F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) dt$
  • 性质:
    • $0 \le F(x) \le 1$
    • $F(x)$ 是单调递增的。
    • $\lim_{x \to -\infty} F(x) = 0$
    • $\lim_{x \to \infty} F(x) = 1$

二、离散型概率分布

2.1 伯努利分布 (Bernoulli Distribution)

  • 定义: 单次试验的结果,只有两种可能 (成功或失败)。
  • 参数: $p$ (成功的概率)。
  • PMF: $P(X = x) = p^x (1-p)^{1-x}$, $x \in {0, 1}$
  • 期望: $E[X] = p$
  • 方差: $Var[X] = p(1-p)$

2.2 二项分布 (Binomial Distribution)

  • 定义: n次独立的伯努利试验中成功的次数。
  • 参数: $n$ (试验次数), $p$ (每次试验成功的概率)。
  • PMF: $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$, $k = 0, 1, ..., n$
  • 期望: $E[X] = np$
  • 方差: $Var[X] = np(1-p)$

2.3 泊松分布 (Poisson Distribution)

  • 定义: 在给定时间或地点内发生的事件次数。
  • 参数: $\lambda$ (事件发生的平均速率)。
  • PMF: $P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}$, $k = 0, 1, 2, ...$
  • 期望: $E[X] = \lambda$
  • 方差: $Var[X] = \lambda$

2.4 几何分布 (Geometric Distribution)

  • 定义: 在伯努利试验中,首次成功所需的试验次数。
  • 参数: $p$ (每次试验成功的概率)。
  • PMF: $P(X = k) = (1-p)^{k-1} p$, $k = 1, 2, 3, ...$
  • 期望: $E[X] = \frac{1}{p}$
  • 方差: $Var[X] = \frac{1-p}{p^2}$

2.5 超几何分布 (Hypergeometric Distribution)

  • 定义: 从有限总体中不放回地抽取样本时,抽取到特定类型元素的个数。
  • 参数: $N$ (总体大小), $K$ (总体中特定类型的元素个数), $n$ (样本大小)。
  • PMF: $P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}$
  • 应用: 抽样调查,产品检验等。

三、连续型概率分布

3.1 均匀分布 (Uniform Distribution)

  • 定义: 在给定的区间内,每个值都以相同的概率出现。
  • 参数: $a$ (下限), $b$ (上限)。
  • PDF: $f(x) = \frac{1}{b-a}$, $a \le x \le b$
  • 期望: $E[X] = \frac{a+b}{2}$
  • 方差: $Var[X] = \frac{(b-a)^2}{12}$

3.2 指数分布 (Exponential Distribution)

  • 定义: 描述独立随机事件发生的时间间隔。
  • 参数: $\lambda$ (事件发生的平均速率)。
  • PDF: $f(x) = \lambda e^{-\lambda x}$, $x \ge 0$
  • CDF: $F(x) = 1 - e^{-\lambda x}$
  • 期望: $E[X] = \frac{1}{\lambda}$
  • 方差: $Var[X] = \frac{1}{\lambda^2}$
  • 无记忆性: $P(X > s+t | X > s) = P(X > t)$

3.3 正态分布 (Normal Distribution) / 高斯分布 (Gaussian Distribution)

  • 定义: 自然界中最常见的分布,许多随机变量近似服从正态分布。
  • 参数: $\mu$ (均值), $\sigma$ (标准差)。
  • PDF: $f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
  • 记法: $X \sim N(\mu, \sigma^2)$
  • 标准正态分布: $\mu = 0, \sigma = 1$
  • 期望: $E[X] = \mu$
  • 方差: $Var[X] = \sigma^2$
  • 中心极限定理 (Central Limit Theorem - CLT): 独立随机变量之和的分布趋近于正态分布。

3.4 Gamma分布 (Gamma Distribution)

  • 定义: 等待第 α 个事件发生所需的等待时间。
  • 参数: α (形状参数,shape), β (速率参数,rate) or θ (尺度参数,scale, θ=1/β).
  • PDF: $f(x) = \frac{\beta^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}$, $x > 0$
  • 期望: $E[X] = \frac{\alpha}{\beta}$
  • 方差: $Var[X] = \frac{\alpha}{\beta^2}$
  • 与指数分布关系: 当 α = 1 时,Gamma分布退化为指数分布。

3.5 卡方分布 (Chi-Square Distribution)

  • 定义: k个独立标准正态随机变量的平方和的分布。
  • 参数: k (自由度)。
  • 记法: $\chi^2(k)$
  • 期望: $E[X] = k$
  • 方差: $Var[X] = 2k$
  • 应用: 假设检验,置信区间估计。

3.6 t 分布 (Student's t-distribution)

  • 定义: 用于小样本情况下,总体标准差未知的均值估计。
  • 参数: ν (自由度)。
  • 应用: t检验,置信区间估计。
  • 与标准正态分布关系: 当 ν 趋近于无穷大时,t分布趋近于标准正态分布。

四、多变量分布 (Multivariate Distributions)

4.1 多项分布 (Multinomial Distribution)

  • 定义: 推广的二项分布,每次试验有多种结果。
  • 参数: $n$ (试验次数), $p_1, p_2, ..., p_k$ (每个结果的概率)。
  • 应用: 分类问题。

4.2 多元正态分布 (Multivariate Normal Distribution)

  • 定义: 多个正态分布变量的联合分布。
  • 参数: $\mu$ (均值向量), $\Sigma$ (协方差矩阵)。
  • 记法: $X \sim N(\mu, \Sigma)$
  • 应用: 建模多个相关变量。

五、重要性质和定理

5.1 期望 (Expectation)

  • 定义: 随机变量的平均值。
  • 公式:
    • 离散型: $E[X] = \sum_{x} x P(X = x)$
    • 连续型: $E[X] = \int_{-\infty}^{\infty} x f(x) dx$
  • 线性性质: $E[aX + bY] = aE[X] + bE[Y]$

5.2 方差 (Variance)

  • 定义: 衡量随机变量离散程度的指标。
  • 公式: $Var[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2$
  • 性质: $Var[aX + b] = a^2 Var[X]$

5.3 协方差 (Covariance)

  • 定义: 衡量两个随机变量线性相关程度的指标。
  • 公式: $Cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]$
  • 性质: $Cov(X, X) = Var[X]$

5.4 相关系数 (Correlation Coefficient)

  • 定义: 标准化后的协方差,衡量两个随机变量线性相关程度的指标。
  • 公式: $\rho_{X, Y} = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}$
  • 范围: $-1 \le \rho_{X, Y} \le 1$

5.5 大数定律 (Law of Large Numbers - LLN)

  • 定义: 当样本数量足够大时,样本均值趋近于总体均值。

5.6 中心极限定理 (Central Limit Theorem - CLT)

  • 定义: 独立随机变量之和的分布趋近于正态分布。

六、应用

  • 统计推断 (Statistical Inference): 假设检验,置信区间估计。
  • 机器学习 (Machine Learning): 概率模型,贝叶斯方法。
  • 风险管理 (Risk Management): 量化风险。
  • 金融建模 (Financial Modeling): 股票价格预测。
  • 排队论 (Queueing Theory): 服务系统性能分析。
  • 可靠性分析 (Reliability Analysis): 设备寿命预测。
上一个主题: 西游记思维导图 下一个主题: 骄傲中国思维导图

相关思维导图推荐

分享思维导图