统计与概率思维导图
《统计与概率思维导图》
一、统计学
1.1 描述性统计
- 定义: 通过图表或数值方法,对数据进行整理、概括和描述,呈现数据的基本特征。
- 数据类型:
- 数值型数据:
- 离散型数据:整数,例如人数、零件个数。
- 连续型数据:可取任意值,例如身高、体重。
- 分类型数据:
- 名义型数据:无序类别,例如颜色、性别。
- 有序型数据:有顺序类别,例如教育程度、满意度。
- 中心趋势:
- 均值(Mean): 所有数据之和除以数据个数。 易受异常值影响。
- 中位数(Median): 将数据排序后,位于中间位置的数值。 不易受异常值影响。
- 众数(Mode): 数据集中出现次数最多的数值。
- 离散程度:
- 极差(Range): 最大值与最小值之差。 简单但粗略。
- 方差(Variance): 数据偏离均值的程度的平方的平均值。
- 标准差(Standard Deviation): 方差的平方根。 解释性更强,与原始数据单位一致。
- 四分位数(Quartiles): 将数据分成四个等份的点。
- Q1: 下四分位数,25% 的数据小于它。
- Q2: 中位数。
- Q3: 上四分位数,75% 的数据小于它。
- 四分位距(IQR): Q3 - Q1。 反映中间 50% 数据的离散程度。
- 可视化:
- 直方图(Histogram): 展示数值型数据的分布。
- 条形图(Bar Chart): 展示分类型数据的频率。
- 饼图(Pie Chart): 展示分类型数据在总体中的占比。
- 箱线图(Box Plot): 展示数据的中心趋势、离散程度和异常值。
- 散点图(Scatter Plot): 展示两个变量之间的关系。
1.2 推断性统计
- 定义: 利用样本数据推断总体特征,包括假设检验和参数估计。
- 抽样:
- 简单随机抽样: 每个个体被抽中的概率相等。
- 分层抽样: 将总体分成若干层,每层抽取一定比例的样本。
- 整群抽样: 将总体分成若干群,随机抽取若干群作为样本。
- 系统抽样: 每隔固定间隔抽取一个个体。
- 参数估计:
- 点估计: 用一个样本统计量来估计总体参数。 例如,用样本均值估计总体均值。
- 区间估计: 用一个区间来估计总体参数。 例如,给出总体均值的一个置信区间。
- 置信区间: 在一定置信水平下,包含总体参数的区间。
- 置信水平: 总体参数落在置信区间的概率。
- 假设检验:
- 零假设(Null Hypothesis): 假设总体参数没有显著变化。
- 备择假设(Alternative Hypothesis): 假设总体参数有显著变化。
- 显著性水平(Significance Level): 拒绝零假设的概率。 通常为 0.05 或 0.01。
- p 值: 在零假设成立的条件下,观察到当前样本或更极端样本的概率。
- 决策规则: 如果 p 值小于显著性水平,则拒绝零假设;否则,不拒绝零假设。
- I 型错误(Type I Error): 零假设为真,但被拒绝。 概率为 α (显著性水平)。
- II 型错误(Type II Error): 零假设为假,但未被拒绝。 概率为 β。
- 功效(Power): 正确拒绝零假设的概率。 等于 1 - β。
- 常见的假设检验:
- t 检验:用于检验均值。
- Z 检验:用于检验均值(大样本)。
- 卡方检验:用于检验分类变量的独立性。
- 方差分析(ANOVA):用于检验多个均值之间的差异。
- 回归分析:
- 线性回归: 建立一个线性模型来描述自变量和因变量之间的关系。
- 多元线性回归: 多个自变量影响一个因变量。
- 逻辑回归: 用于预测二元分类结果。
二、概率论
2.1 基本概念
- 随机事件: 在一定条件下,可能发生也可能不发生的事件。
- 样本空间(Sample Space): 所有可能结果的集合。
- 概率(Probability): 事件发生的可能性大小的度量。 0 ≤ P(A) ≤ 1。
- 概率的性质:
- 非负性: P(A) ≥ 0
- 规范性: P(Ω) = 1, 其中 Ω 为样本空间。
- 可加性: 对于互斥事件 A 和 B,P(A∪B) = P(A) + P(B)。
- 古典概型: 所有基本事件发生的概率相等。 P(A) = A 包含的基本事件数 / 样本空间包含的基本事件数。
- 条件概率: 在事件 B 发生的条件下,事件 A 发生的概率。 P(A|B) = P(A∩B) / P(B)。
- 事件的独立性: 事件 A 的发生不影响事件 B 的发生。 P(A|B) = P(A) 或 P(A∩B) = P(A)P(B)。
- 全概率公式: P(A) = Σ P(A|Bi)P(Bi),其中 Bi 构成样本空间的一个划分。
- 贝叶斯公式: P(Bi|A) = P(A|Bi)P(Bi) / Σ P(A|Bj)P(Bj)。 用于在已知结果的条件下,推断原因的可能性。
2.2 随机变量
- 定义: 用来描述随机试验结果的变量。
- 离散型随机变量:
- 概率质量函数(PMF): 描述随机变量取每个值的概率。
- 累积分布函数(CDF): 描述随机变量小于等于某个值的概率。
- 常见离散型分布:
- 伯努利分布(Bernoulli Distribution): 描述一次试验的结果(成功或失败)。
- 二项分布(Binomial Distribution): 描述 n 次独立试验中成功的次数。
- 泊松分布(Poisson Distribution): 描述单位时间内或空间内随机事件发生的次数。
- 几何分布(Geometric Distribution): 描述首次成功需要进行的试验次数。
- 连续型随机变量:
- 概率密度函数(PDF): 描述随机变量在某个值附近的概率密度。
- 累积分布函数(CDF): 描述随机变量小于等于某个值的概率。
- 常见连续型分布:
- 均匀分布(Uniform Distribution): 在一个区间内,每个值的概率相等。
- 指数分布(Exponential Distribution): 描述事件发生的时间间隔。
- 正态分布(Normal Distribution): 自然界中最常见的分布,也称为高斯分布。
- 标准正态分布(Standard Normal Distribution): 均值为 0,标准差为 1 的正态分布。
2.3 期望与方差
- 期望(Expected Value): 随机变量取值的平均值。
- 离散型:E(X) = Σ x * P(X=x)
- 连续型:E(X) = ∫ x * f(x) dx
- 方差(Variance): 随机变量偏离期望的程度。
- 标准差(Standard Deviation): 方差的平方根。
- 协方差(Covariance): 衡量两个随机变量之间的线性关系。
- Cov(X, Y) = E[(X - E(X))(Y - E(Y))]
- 相关系数(Correlation Coefficient): 协方差的标准化,范围在 -1 到 1 之间。
- ρ(X, Y) = Cov(X, Y) / (SD(X) * SD(Y))
2.4 大数定律与中心极限定理
- 大数定律(Law of Large Numbers): 当样本容量足够大时,样本均值接近总体均值。
- 中心极限定理(Central Limit Theorem): 独立同分布的随机变量之和的分布,在样本容量足够大时,近似于正态分布。 这是统计推断的基础。