统计的思维导图

《统计的思维导图》

一、统计学基础

1.1 统计学的定义

  • 从数据中提取信息、知识和洞见的科学。
  • 涉及数据的收集、整理、分析和解释。
  • 用于描述性统计、推论统计和预测建模。

1.2 统计学的目的

  • 描述现象:概括和总结数据特征。
  • 推断结论:从样本推断总体特征。
  • 预测未来:根据历史数据预测未来趋势。
  • 做出决策:基于数据分析做出合理的决策。

1.3 基本概念

  • 总体 (Population):研究对象的全体。
  • 样本 (Sample):从总体中抽取的部分个体。
  • 变量 (Variable):研究对象的某个特征。
    • 数值变量 (Numerical Variable):可以度量的值。
      • 离散变量 (Discrete Variable):只能取有限个或可数个值。例如:人数、产品缺陷数。
      • 连续变量 (Continuous Variable):可以取某个范围内的任意值。例如:身高、体重、温度。
    • 分类变量 (Categorical Variable):将对象分为不同的类别。
      • 名义变量 (Nominal Variable):无序的类别。例如:颜色、性别。
      • 有序变量 (Ordinal Variable):有顺序的类别。例如:满意度等级、教育程度。
  • 参数 (Parameter):描述总体的数值特征。
  • 统计量 (Statistic):描述样本的数值特征。

1.4 数据类型

  • 截面数据 (Cross-sectional Data):在同一时间点收集的不同个体的数据。
  • 时间序列数据 (Time-series Data):在不同时间点收集的同一对象的数据。
  • 面板数据 (Panel Data):既有截面数据又有时间序列数据。

二、描述性统计

2.1 数据整理与展示

  • 频数分布表 (Frequency Distribution Table):显示每个数值或类别出现的次数。
  • 直方图 (Histogram):用于展示数值变量的分布。
  • 条形图 (Bar Chart):用于展示分类变量的分布。
  • 饼图 (Pie Chart):用于展示分类变量的比例。
  • 散点图 (Scatter Plot):用于展示两个数值变量之间的关系。
  • 箱线图 (Box Plot):用于展示数值变量的分布、中位数、四分位数和异常值。

2.2 数值特征

  • 集中趋势 (Measures of Central Tendency):描述数据的中心位置。
    • 均值 (Mean):所有数值的总和除以数值的个数。
    • 中位数 (Median):将数据排序后,位于中间位置的数值。
    • 众数 (Mode):数据中出现次数最多的数值。
  • 离散程度 (Measures of Dispersion):描述数据的分散程度。
    • 方差 (Variance):每个数值与均值之差的平方的平均值。
    • 标准差 (Standard Deviation):方差的平方根。
    • 极差 (Range):最大值与最小值之差。
    • 四分位距 (Interquartile Range, IQR):第三四分位数与第一四分位数之差。
    • 变异系数 (Coefficient of Variation, CV):标准差与均值之比,用于比较不同数据集的离散程度。
  • 分布形状 (Shape of Distribution):描述数据的分布形态。
    • 偏度 (Skewness):描述分布的对称性。正偏(右偏)表示右侧尾部较长,负偏(左偏)表示左侧尾部较长。
    • 峰度 (Kurtosis):描述分布的峰态。高峰(正峰度)表示数据集中在均值附近,低峰(负峰度)表示数据分散。

三、推论统计

3.1 概率论基础

  • 概率 (Probability):事件发生的可能性。
  • 随机变量 (Random Variable):取值具有随机性的变量。
    • 离散型随机变量 (Discrete Random Variable):取值为离散值的随机变量。例如:二项分布、泊松分布。
    • 连续型随机变量 (Continuous Random Variable):取值为连续值的随机变量。例如:正态分布、均匀分布。
  • 概率分布 (Probability Distribution):描述随机变量取值的概率。
  • 期望 (Expected Value):随机变量的平均值。
  • 方差 (Variance):随机变量的离散程度。

3.2 抽样分布

  • 抽样分布 (Sampling Distribution):统计量的概率分布。
  • 中心极限定理 (Central Limit Theorem):当样本容量足够大时,样本均值的抽样分布近似于正态分布。

3.3 参数估计

  • 点估计 (Point Estimate):用一个数值来估计总体参数。例如:样本均值估计总体均值。
  • 区间估计 (Interval Estimate):用一个区间来估计总体参数。
    • 置信水平 (Confidence Level):区间包含总体参数的概率。
    • 置信区间 (Confidence Interval):在给定的置信水平下,包含总体参数的区间。

3.4 假设检验

  • 假设 (Hypothesis):对总体参数的假设。
    • 原假设 (Null Hypothesis, H0):要检验的假设。
    • 备择假设 (Alternative Hypothesis, H1):与原假设对立的假设。
  • 显著性水平 (Significance Level, α):拒绝原假设的概率,通常取0.05或0.01。
  • 检验统计量 (Test Statistic):用于检验假设的统计量。
  • p值 (p-value):在原假设成立的条件下,观察到样本数据的概率或更极端情况的概率。
  • 决策规则 (Decision Rule):如果p值小于显著性水平,则拒绝原假设;否则,不拒绝原假设。
  • 错误类型 (Types of Errors)
    • 第一类错误 (Type I Error):拒绝了正确的原假设(假阳性)。
    • 第二类错误 (Type II Error):未拒绝错误的原假设(假阴性)。

3.5 常用假设检验

  • 单样本t检验 (One-sample t-test):检验样本均值是否等于给定的值。
  • 双样本t检验 (Two-sample t-test):检验两个样本均值是否相等。
    • 独立样本t检验 (Independent Samples t-test):两个样本独立。
    • 配对样本t检验 (Paired Samples t-test):两个样本配对。
  • 方差分析 (ANOVA):检验多个样本均值是否相等。
  • 卡方检验 (Chi-square test):检验分类变量之间的关系。
    • 拟合优度检验 (Goodness-of-fit test):检验样本数据的分布是否符合某个理论分布。
    • 独立性检验 (Test of Independence):检验两个分类变量是否独立。

四、回归分析

4.1 线性回归

  • 简单线性回归 (Simple Linear Regression):只有一个自变量。
  • 多元线性回归 (Multiple Linear Regression):有多个自变量。
  • 回归方程 (Regression Equation):描述自变量和因变量之间关系的方程。
  • 系数 (Coefficients):回归方程中自变量的系数,表示自变量每变化一个单位,因变量平均变化的量。
  • R平方 (R-squared):表示回归方程解释因变量变异的程度。
  • 调整R平方 (Adjusted R-squared):修正了R平方,考虑了自变量的个数。
  • 残差 (Residuals):实际值与预测值之间的差。
  • 回归假设 (Regression Assumptions):线性性、独立性、同方差性、正态性。

4.2 Logistic 回归

  • 二元 Logistic 回归 (Binary Logistic Regression):因变量是二元变量。
  • 多元 Logistic 回归 (Multinomial Logistic Regression):因变量是多元变量。
  • Odds Ratio (OR):优势比,表示自变量每变化一个单位,因变量发生的几率变化的倍数。

五、时间序列分析

5.1 基本概念

  • 时间序列 (Time Series):按时间顺序排列的数据序列。
  • 趋势 (Trend):时间序列长期变化的趋势。
  • 季节性 (Seasonality):时间序列在一年内重复出现的模式。
  • 周期性 (Cyclical):时间序列在较长时间内重复出现的模式。
  • 随机性 (Randomness):时间序列中无法预测的波动。

5.2 常用模型

  • 移动平均 (Moving Average):用过去一段时间的数据的平均值来预测未来的值。
  • 指数平滑 (Exponential Smoothing):对过去的数据赋予不同的权重,越近的数据权重越高。
  • ARIMA 模型 (Autoregressive Integrated Moving Average):自回归移动平均模型,用于预测时间序列。

六、统计软件

  • R
  • Python (with libraries like Pandas, NumPy, Scikit-learn, Statsmodels)
  • SPSS
  • SAS
  • Excel
上一个主题: 西游记思维导图 下一个主题: 高中必修一思维导图

相关思维导图推荐

分享思维导图