统计与概率思维导图

《统计与概率思维导图》

一、统计学

1.1 描述性统计

  • 定义: 通过图表或数值方法,对数据进行整理、概括和描述,呈现数据的基本特征。
  • 数据类型:
    • 数值型数据:
      • 离散型数据:整数,例如人数、零件个数。
      • 连续型数据:可取任意值,例如身高、体重。
    • 分类型数据:
      • 名义型数据:无序类别,例如颜色、性别。
      • 有序型数据:有顺序类别,例如教育程度、满意度。
  • 中心趋势:
    • 均值(Mean): 所有数据之和除以数据个数。 易受异常值影响。
    • 中位数(Median): 将数据排序后,位于中间位置的数值。 不易受异常值影响。
    • 众数(Mode): 数据集中出现次数最多的数值。
  • 离散程度:
    • 极差(Range): 最大值与最小值之差。 简单但粗略。
    • 方差(Variance): 数据偏离均值的程度的平方的平均值。
    • 标准差(Standard Deviation): 方差的平方根。 解释性更强,与原始数据单位一致。
    • 四分位数(Quartiles): 将数据分成四个等份的点。
      • Q1: 下四分位数,25% 的数据小于它。
      • Q2: 中位数。
      • Q3: 上四分位数,75% 的数据小于它。
    • 四分位距(IQR): Q3 - Q1。 反映中间 50% 数据的离散程度。
  • 可视化:
    • 直方图(Histogram): 展示数值型数据的分布。
    • 条形图(Bar Chart): 展示分类型数据的频率。
    • 饼图(Pie Chart): 展示分类型数据在总体中的占比。
    • 箱线图(Box Plot): 展示数据的中心趋势、离散程度和异常值。
    • 散点图(Scatter Plot): 展示两个变量之间的关系。

1.2 推断性统计

  • 定义: 利用样本数据推断总体特征,包括假设检验和参数估计。
  • 抽样:
    • 简单随机抽样: 每个个体被抽中的概率相等。
    • 分层抽样: 将总体分成若干层,每层抽取一定比例的样本。
    • 整群抽样: 将总体分成若干群,随机抽取若干群作为样本。
    • 系统抽样: 每隔固定间隔抽取一个个体。
  • 参数估计:
    • 点估计: 用一个样本统计量来估计总体参数。 例如,用样本均值估计总体均值。
    • 区间估计: 用一个区间来估计总体参数。 例如,给出总体均值的一个置信区间。
    • 置信区间: 在一定置信水平下,包含总体参数的区间。
    • 置信水平: 总体参数落在置信区间的概率。
  • 假设检验:
    • 零假设(Null Hypothesis): 假设总体参数没有显著变化。
    • 备择假设(Alternative Hypothesis): 假设总体参数有显著变化。
    • 显著性水平(Significance Level): 拒绝零假设的概率。 通常为 0.05 或 0.01。
    • p 值: 在零假设成立的条件下,观察到当前样本或更极端样本的概率。
    • 决策规则: 如果 p 值小于显著性水平,则拒绝零假设;否则,不拒绝零假设。
    • I 型错误(Type I Error): 零假设为真,但被拒绝。 概率为 α (显著性水平)。
    • II 型错误(Type II Error): 零假设为假,但未被拒绝。 概率为 β。
    • 功效(Power): 正确拒绝零假设的概率。 等于 1 - β。
    • 常见的假设检验:
      • t 检验:用于检验均值。
      • Z 检验:用于检验均值(大样本)。
      • 卡方检验:用于检验分类变量的独立性。
      • 方差分析(ANOVA):用于检验多个均值之间的差异。
  • 回归分析:
    • 线性回归: 建立一个线性模型来描述自变量和因变量之间的关系。
    • 多元线性回归: 多个自变量影响一个因变量。
    • 逻辑回归: 用于预测二元分类结果。

二、概率论

2.1 基本概念

  • 随机事件: 在一定条件下,可能发生也可能不发生的事件。
  • 样本空间(Sample Space): 所有可能结果的集合。
  • 概率(Probability): 事件发生的可能性大小的度量。 0 ≤ P(A) ≤ 1。
  • 概率的性质:
    • 非负性: P(A) ≥ 0
    • 规范性: P(Ω) = 1, 其中 Ω 为样本空间。
    • 可加性: 对于互斥事件 A 和 B,P(A∪B) = P(A) + P(B)。
  • 古典概型: 所有基本事件发生的概率相等。 P(A) = A 包含的基本事件数 / 样本空间包含的基本事件数。
  • 条件概率: 在事件 B 发生的条件下,事件 A 发生的概率。 P(A|B) = P(A∩B) / P(B)。
  • 事件的独立性: 事件 A 的发生不影响事件 B 的发生。 P(A|B) = P(A) 或 P(A∩B) = P(A)P(B)。
  • 全概率公式: P(A) = Σ P(A|Bi)P(Bi),其中 Bi 构成样本空间的一个划分。
  • 贝叶斯公式: P(Bi|A) = P(A|Bi)P(Bi) / Σ P(A|Bj)P(Bj)。 用于在已知结果的条件下,推断原因的可能性。

2.2 随机变量

  • 定义: 用来描述随机试验结果的变量。
  • 离散型随机变量:
    • 概率质量函数(PMF): 描述随机变量取每个值的概率。
    • 累积分布函数(CDF): 描述随机变量小于等于某个值的概率。
    • 常见离散型分布:
      • 伯努利分布(Bernoulli Distribution): 描述一次试验的结果(成功或失败)。
      • 二项分布(Binomial Distribution): 描述 n 次独立试验中成功的次数。
      • 泊松分布(Poisson Distribution): 描述单位时间内或空间内随机事件发生的次数。
      • 几何分布(Geometric Distribution): 描述首次成功需要进行的试验次数。
  • 连续型随机变量:
    • 概率密度函数(PDF): 描述随机变量在某个值附近的概率密度。
    • 累积分布函数(CDF): 描述随机变量小于等于某个值的概率。
    • 常见连续型分布:
      • 均匀分布(Uniform Distribution): 在一个区间内,每个值的概率相等。
      • 指数分布(Exponential Distribution): 描述事件发生的时间间隔。
      • 正态分布(Normal Distribution): 自然界中最常见的分布,也称为高斯分布。
      • 标准正态分布(Standard Normal Distribution): 均值为 0,标准差为 1 的正态分布。

2.3 期望与方差

  • 期望(Expected Value): 随机变量取值的平均值。
    • 离散型:E(X) = Σ x * P(X=x)
    • 连续型:E(X) = ∫ x * f(x) dx
  • 方差(Variance): 随机变量偏离期望的程度。
    • Var(X) = E[(X - E(X))^2]
  • 标准差(Standard Deviation): 方差的平方根。
    • SD(X) = √Var(X)
  • 协方差(Covariance): 衡量两个随机变量之间的线性关系。
    • Cov(X, Y) = E[(X - E(X))(Y - E(Y))]
  • 相关系数(Correlation Coefficient): 协方差的标准化,范围在 -1 到 1 之间。
    • ρ(X, Y) = Cov(X, Y) / (SD(X) * SD(Y))

2.4 大数定律与中心极限定理

  • 大数定律(Law of Large Numbers): 当样本容量足够大时,样本均值接近总体均值。
  • 中心极限定理(Central Limit Theorem): 独立同分布的随机变量之和的分布,在样本容量足够大时,近似于正态分布。 这是统计推断的基础。
上一个主题: 西游记思维导图 下一个主题: 《红星照耀中国》思维导图

相关思维导图推荐

分享思维导图