统计的思维导图

# 《统计的思维导图》

## 一、统计学基础

### 1.1 统计学的定义

*   从数据中提取信息、知识和洞见的科学。
*   涉及数据的收集、整理、分析和解释。
*   用于描述性统计、推论统计和预测建模。

### 1.2 统计学的目的

*   描述现象：概括和总结数据特征。
*   推断结论：从样本推断总体特征。
*   预测未来：根据历史数据预测未来趋势。
*   做出决策：基于数据分析做出合理的决策。

### 1.3 基本概念

*   **总体 (Population)**：研究对象的全体。
*   **样本 (Sample)**：从总体中抽取的部分个体。
*   **变量 (Variable)**：研究对象的某个特征。
    *   **数值变量 (Numerical Variable)**：可以度量的值。
        *   **离散变量 (Discrete Variable)**：只能取有限个或可数个值。例如：人数、产品缺陷数。
        *   **连续变量 (Continuous Variable)**：可以取某个范围内的任意值。例如：身高、体重、温度。
    *   **分类变量 (Categorical Variable)**：将对象分为不同的类别。
        *   **名义变量 (Nominal Variable)**：无序的类别。例如：颜色、性别。
        *   **有序变量 (Ordinal Variable)**：有顺序的类别。例如：满意度等级、教育程度。
*   **参数 (Parameter)**：描述总体的数值特征。
*   **统计量 (Statistic)**：描述样本的数值特征。

### 1.4 数据类型

*   **截面数据 (Cross-sectional Data)**：在同一时间点收集的不同个体的数据。
*   **时间序列数据 (Time-series Data)**：在不同时间点收集的同一对象的数据。
*   **面板数据 (Panel Data)**：既有截面数据又有时间序列数据。

## 二、描述性统计

### 2.1 数据整理与展示

*   **频数分布表 (Frequency Distribution Table)**：显示每个数值或类别出现的次数。
*   **直方图 (Histogram)**：用于展示数值变量的分布。
*   **条形图 (Bar Chart)**：用于展示分类变量的分布。
*   **饼图 (Pie Chart)**：用于展示分类变量的比例。
*   **散点图 (Scatter Plot)**：用于展示两个数值变量之间的关系。
*   **箱线图 (Box Plot)**：用于展示数值变量的分布、中位数、四分位数和异常值。

### 2.2 数值特征

*   **集中趋势 (Measures of Central Tendency)**：描述数据的中心位置。
    *   **均值 (Mean)**：所有数值的总和除以数值的个数。
    *   **中位数 (Median)**：将数据排序后，位于中间位置的数值。
    *   **众数 (Mode)**：数据中出现次数最多的数值。
*   **离散程度 (Measures of Dispersion)**：描述数据的分散程度。
    *   **方差 (Variance)**：每个数值与均值之差的平方的平均值。
    *   **标准差 (Standard Deviation)**：方差的平方根。
    *   **极差 (Range)**：最大值与最小值之差。
    *   **四分位距 (Interquartile Range, IQR)**：第三四分位数与第一四分位数之差。
    *   **变异系数 (Coefficient of Variation, CV)**：标准差与均值之比，用于比较不同数据集的离散程度。
*   **分布形状 (Shape of Distribution)**：描述数据的分布形态。
    *   **偏度 (Skewness)**：描述分布的对称性。正偏（右偏）表示右侧尾部较长，负偏（左偏）表示左侧尾部较长。
    *   **峰度 (Kurtosis)**：描述分布的峰态。高峰（正峰度）表示数据集中在均值附近，低峰（负峰度）表示数据分散。

## 三、推论统计

### 3.1 概率论基础

*   **概率 (Probability)**：事件发生的可能性。
*   **随机变量 (Random Variable)**：取值具有随机性的变量。
    *   **离散型随机变量 (Discrete Random Variable)**：取值为离散值的随机变量。例如：二项分布、泊松分布。
    *   **连续型随机变量 (Continuous Random Variable)**：取值为连续值的随机变量。例如：正态分布、均匀分布。
*   **概率分布 (Probability Distribution)**：描述随机变量取值的概率。
*   **期望 (Expected Value)**：随机变量的平均值。
*   **方差 (Variance)**：随机变量的离散程度。

### 3.2 抽样分布

*   **抽样分布 (Sampling Distribution)**：统计量的概率分布。
*   **中心极限定理 (Central Limit Theorem)**：当样本容量足够大时，样本均值的抽样分布近似于正态分布。

### 3.3 参数估计

*   **点估计 (Point Estimate)**：用一个数值来估计总体参数。例如：样本均值估计总体均值。
*   **区间估计 (Interval Estimate)**：用一个区间来估计总体参数。
    *   **置信水平 (Confidence Level)**：区间包含总体参数的概率。
    *   **置信区间 (Confidence Interval)**：在给定的置信水平下，包含总体参数的区间。

### 3.4 假设检验

*   **假设 (Hypothesis)**：对总体参数的假设。
    *   **原假设 (Null Hypothesis, H0)**：要检验的假设。
    *   **备择假设 (Alternative Hypothesis, H1)**：与原假设对立的假设。
*   **显著性水平 (Significance Level, α)**：拒绝原假设的概率，通常取0.05或0.01。
*   **检验统计量 (Test Statistic)**：用于检验假设的统计量。
*   **p值 (p-value)**：在原假设成立的条件下，观察到样本数据的概率或更极端情况的概率。
*   **决策规则 (Decision Rule)**：如果p值小于显著性水平，则拒绝原假设；否则，不拒绝原假设。
*   **错误类型 (Types of Errors)**：
    *   **第一类错误 (Type I Error)**：拒绝了正确的原假设（假阳性）。
    *   **第二类错误 (Type II Error)**：未拒绝错误的原假设（假阴性）。

### 3.5 常用假设检验

*   **单样本t检验 (One-sample t-test)**：检验样本均值是否等于给定的值。
*   **双样本t检验 (Two-sample t-test)**：检验两个样本均值是否相等。
    *   **独立样本t检验 (Independent Samples t-test)**：两个样本独立。
    *   **配对样本t检验 (Paired Samples t-test)**：两个样本配对。
*   **方差分析 (ANOVA)**：检验多个样本均值是否相等。
*   **卡方检验 (Chi-square test)**：检验分类变量之间的关系。
    *   **拟合优度检验 (Goodness-of-fit test)**：检验样本数据的分布是否符合某个理论分布。
    *   **独立性检验 (Test of Independence)**：检验两个分类变量是否独立。

## 四、回归分析

### 4.1 线性回归

*   **简单线性回归 (Simple Linear Regression)**：只有一个自变量。
*   **多元线性回归 (Multiple Linear Regression)**：有多个自变量。
*   **回归方程 (Regression Equation)**：描述自变量和因变量之间关系的方程。
*   **系数 (Coefficients)**：回归方程中自变量的系数，表示自变量每变化一个单位，因变量平均变化的量。
*   **R平方 (R-squared)**：表示回归方程解释因变量变异的程度。
*   **调整R平方 (Adjusted R-squared)**：修正了R平方，考虑了自变量的个数。
*   **残差 (Residuals)**：实际值与预测值之间的差。
*   **回归假设 (Regression Assumptions)**：线性性、独立性、同方差性、正态性。

### 4.2 Logistic 回归

*   **二元 Logistic 回归 (Binary Logistic Regression)**：因变量是二元变量。
*   **多元 Logistic 回归 (Multinomial Logistic Regression)**：因变量是多元变量。
*   **Odds Ratio (OR)**：优势比，表示自变量每变化一个单位，因变量发生的几率变化的倍数。

## 五、时间序列分析

### 5.1 基本概念

*   **时间序列 (Time Series)**：按时间顺序排列的数据序列。
*   **趋势 (Trend)**：时间序列长期变化的趋势。
*   **季节性 (Seasonality)**：时间序列在一年内重复出现的模式。
*   **周期性 (Cyclical)**：时间序列在较长时间内重复出现的模式。
*   **随机性 (Randomness)**：时间序列中无法预测的波动。

### 5.2 常用模型

*   **移动平均 (Moving Average)**：用过去一段时间的数据的平均值来预测未来的值。
*   **指数平滑 (Exponential Smoothing)**：对过去的数据赋予不同的权重，越近的数据权重越高。
*   **ARIMA 模型 (Autoregressive Integrated Moving Average)**：自回归移动平均模型，用于预测时间序列。

## 六、统计软件

*   **R**
*   **Python (with libraries like Pandas, NumPy, Scikit-learn, Statsmodels)**
*   **SPSS**
*   **SAS**
*   **Excel**

《统计的思维导图》

一、统计学基础

1.1 统计学的定义

从数据中提取信息、知识和洞见的科学。
涉及数据的收集、整理、分析和解释。
用于描述性统计、推论统计和预测建模。

1.2 统计学的目的

描述现象：概括和总结数据特征。
推断结论：从样本推断总体特征。
预测未来：根据历史数据预测未来趋势。
做出决策：基于数据分析做出合理的决策。

1.3 基本概念

总体 (Population)：研究对象的全体。
样本 (Sample)：从总体中抽取的部分个体。
变量 (Variable)：研究对象的某个特征。
- 数值变量 (Numerical Variable)：可以度量的值。
  - 离散变量 (Discrete Variable)：只能取有限个或可数个值。例如：人数、产品缺陷数。
  - 连续变量 (Continuous Variable)：可以取某个范围内的任意值。例如：身高、体重、温度。
- 分类变量 (Categorical Variable)：将对象分为不同的类别。
  - 名义变量 (Nominal Variable)：无序的类别。例如：颜色、性别。
  - 有序变量 (Ordinal Variable)：有顺序的类别。例如：满意度等级、教育程度。
参数 (Parameter)：描述总体的数值特征。
统计量 (Statistic)：描述样本的数值特征。

1.4 数据类型

截面数据 (Cross-sectional Data)：在同一时间点收集的不同个体的数据。
时间序列数据 (Time-series Data)：在不同时间点收集的同一对象的数据。
面板数据 (Panel Data)：既有截面数据又有时间序列数据。

二、描述性统计

2.1 数据整理与展示

频数分布表 (Frequency Distribution Table)：显示每个数值或类别出现的次数。
直方图 (Histogram)：用于展示数值变量的分布。
条形图 (Bar Chart)：用于展示分类变量的分布。
饼图 (Pie Chart)：用于展示分类变量的比例。
散点图 (Scatter Plot)：用于展示两个数值变量之间的关系。
箱线图 (Box Plot)：用于展示数值变量的分布、中位数、四分位数和异常值。

2.2 数值特征

集中趋势 (Measures of Central Tendency)：描述数据的中心位置。
- 均值 (Mean)：所有数值的总和除以数值的个数。
- 中位数 (Median)：将数据排序后，位于中间位置的数值。
- 众数 (Mode)：数据中出现次数最多的数值。
离散程度 (Measures of Dispersion)：描述数据的分散程度。
- 方差 (Variance)：每个数值与均值之差的平方的平均值。
- 标准差 (Standard Deviation)：方差的平方根。
- 极差 (Range)：最大值与最小值之差。
- 四分位距 (Interquartile Range, IQR)：第三四分位数与第一四分位数之差。
- 变异系数 (Coefficient of Variation, CV)：标准差与均值之比，用于比较不同数据集的离散程度。
分布形状 (Shape of Distribution)：描述数据的分布形态。
- 偏度 (Skewness)：描述分布的对称性。正偏（右偏）表示右侧尾部较长，负偏（左偏）表示左侧尾部较长。
- 峰度 (Kurtosis)：描述分布的峰态。高峰（正峰度）表示数据集中在均值附近，低峰（负峰度）表示数据分散。

三、推论统计

3.1 概率论基础

概率 (Probability)：事件发生的可能性。
随机变量 (Random Variable)：取值具有随机性的变量。
- 离散型随机变量 (Discrete Random Variable)：取值为离散值的随机变量。例如：二项分布、泊松分布。
- 连续型随机变量 (Continuous Random Variable)：取值为连续值的随机变量。例如：正态分布、均匀分布。
概率分布 (Probability Distribution)：描述随机变量取值的概率。
期望 (Expected Value)：随机变量的平均值。
方差 (Variance)：随机变量的离散程度。

3.2 抽样分布

抽样分布 (Sampling Distribution)：统计量的概率分布。
中心极限定理 (Central Limit Theorem)：当样本容量足够大时，样本均值的抽样分布近似于正态分布。

3.3 参数估计

点估计 (Point Estimate)：用一个数值来估计总体参数。例如：样本均值估计总体均值。
区间估计 (Interval Estimate)：用一个区间来估计总体参数。
- 置信水平 (Confidence Level)：区间包含总体参数的概率。
- 置信区间 (Confidence Interval)：在给定的置信水平下，包含总体参数的区间。

3.4 假设检验

假设 (Hypothesis)：对总体参数的假设。
- 原假设 (Null Hypothesis, H0)：要检验的假设。
- 备择假设 (Alternative Hypothesis, H1)：与原假设对立的假设。
显著性水平 (Significance Level, α)：拒绝原假设的概率，通常取0.05或0.01。
检验统计量 (Test Statistic)：用于检验假设的统计量。
p值 (p-value)：在原假设成立的条件下，观察到样本数据的概率或更极端情况的概率。
决策规则 (Decision Rule)：如果p值小于显著性水平，则拒绝原假设；否则，不拒绝原假设。
错误类型 (Types of Errors)：
- 第一类错误 (Type I Error)：拒绝了正确的原假设（假阳性）。
- 第二类错误 (Type II Error)：未拒绝错误的原假设（假阴性）。

3.5 常用假设检验

单样本t检验 (One-sample t-test)：检验样本均值是否等于给定的值。
双样本t检验 (Two-sample t-test)：检验两个样本均值是否相等。
- 独立样本t检验 (Independent Samples t-test)：两个样本独立。
- 配对样本t检验 (Paired Samples t-test)：两个样本配对。
方差分析 (ANOVA)：检验多个样本均值是否相等。
卡方检验 (Chi-square test)：检验分类变量之间的关系。
- 拟合优度检验 (Goodness-of-fit test)：检验样本数据的分布是否符合某个理论分布。
- 独立性检验 (Test of Independence)：检验两个分类变量是否独立。

四、回归分析

4.1 线性回归

简单线性回归 (Simple Linear Regression)：只有一个自变量。
多元线性回归 (Multiple Linear Regression)：有多个自变量。
回归方程 (Regression Equation)：描述自变量和因变量之间关系的方程。
系数 (Coefficients)：回归方程中自变量的系数，表示自变量每变化一个单位，因变量平均变化的量。
R平方 (R-squared)：表示回归方程解释因变量变异的程度。
调整R平方 (Adjusted R-squared)：修正了R平方，考虑了自变量的个数。
残差 (Residuals)：实际值与预测值之间的差。
回归假设 (Regression Assumptions)：线性性、独立性、同方差性、正态性。

4.2 Logistic 回归

二元 Logistic 回归 (Binary Logistic Regression)：因变量是二元变量。
多元 Logistic 回归 (Multinomial Logistic Regression)：因变量是多元变量。
Odds Ratio (OR)：优势比，表示自变量每变化一个单位，因变量发生的几率变化的倍数。

五、时间序列分析

5.1 基本概念

时间序列 (Time Series)：按时间顺序排列的数据序列。
趋势 (Trend)：时间序列长期变化的趋势。
季节性 (Seasonality)：时间序列在一年内重复出现的模式。
周期性 (Cyclical)：时间序列在较长时间内重复出现的模式。
随机性 (Randomness)：时间序列中无法预测的波动。

5.2 常用模型

移动平均 (Moving Average)：用过去一段时间的数据的平均值来预测未来的值。
指数平滑 (Exponential Smoothing)：对过去的数据赋予不同的权重，越近的数据权重越高。
ARIMA 模型 (Autoregressive Integrated Moving Average)：自回归移动平均模型，用于预测时间序列。

六、统计软件

R
Python (with libraries like Pandas, NumPy, Scikit-learn, Statsmodels)
SPSS
SAS
Excel

上一个主题：西游记思维导图下一个主题：高中必修一思维导图