统计的思维导图
《统计的思维导图》
一、统计学基础
1.1 统计学的定义
- 从数据中提取信息、知识和洞见的科学。
- 涉及数据的收集、整理、分析和解释。
- 用于描述性统计、推论统计和预测建模。
1.2 统计学的目的
- 描述现象:概括和总结数据特征。
- 推断结论:从样本推断总体特征。
- 预测未来:根据历史数据预测未来趋势。
- 做出决策:基于数据分析做出合理的决策。
1.3 基本概念
- 总体 (Population):研究对象的全体。
- 样本 (Sample):从总体中抽取的部分个体。
- 变量 (Variable):研究对象的某个特征。
- 数值变量 (Numerical Variable):可以度量的值。
- 离散变量 (Discrete Variable):只能取有限个或可数个值。例如:人数、产品缺陷数。
- 连续变量 (Continuous Variable):可以取某个范围内的任意值。例如:身高、体重、温度。
- 分类变量 (Categorical Variable):将对象分为不同的类别。
- 名义变量 (Nominal Variable):无序的类别。例如:颜色、性别。
- 有序变量 (Ordinal Variable):有顺序的类别。例如:满意度等级、教育程度。
- 参数 (Parameter):描述总体的数值特征。
- 统计量 (Statistic):描述样本的数值特征。
1.4 数据类型
- 截面数据 (Cross-sectional Data):在同一时间点收集的不同个体的数据。
- 时间序列数据 (Time-series Data):在不同时间点收集的同一对象的数据。
- 面板数据 (Panel Data):既有截面数据又有时间序列数据。
二、描述性统计
2.1 数据整理与展示
- 频数分布表 (Frequency Distribution Table):显示每个数值或类别出现的次数。
- 直方图 (Histogram):用于展示数值变量的分布。
- 条形图 (Bar Chart):用于展示分类变量的分布。
- 饼图 (Pie Chart):用于展示分类变量的比例。
- 散点图 (Scatter Plot):用于展示两个数值变量之间的关系。
- 箱线图 (Box Plot):用于展示数值变量的分布、中位数、四分位数和异常值。
2.2 数值特征
- 集中趋势 (Measures of Central Tendency):描述数据的中心位置。
- 均值 (Mean):所有数值的总和除以数值的个数。
- 中位数 (Median):将数据排序后,位于中间位置的数值。
- 众数 (Mode):数据中出现次数最多的数值。
- 离散程度 (Measures of Dispersion):描述数据的分散程度。
- 方差 (Variance):每个数值与均值之差的平方的平均值。
- 标准差 (Standard Deviation):方差的平方根。
- 极差 (Range):最大值与最小值之差。
- 四分位距 (Interquartile Range, IQR):第三四分位数与第一四分位数之差。
- 变异系数 (Coefficient of Variation, CV):标准差与均值之比,用于比较不同数据集的离散程度。
- 分布形状 (Shape of Distribution):描述数据的分布形态。
- 偏度 (Skewness):描述分布的对称性。正偏(右偏)表示右侧尾部较长,负偏(左偏)表示左侧尾部较长。
- 峰度 (Kurtosis):描述分布的峰态。高峰(正峰度)表示数据集中在均值附近,低峰(负峰度)表示数据分散。
三、推论统计
3.1 概率论基础
- 概率 (Probability):事件发生的可能性。
- 随机变量 (Random Variable):取值具有随机性的变量。
- 离散型随机变量 (Discrete Random Variable):取值为离散值的随机变量。例如:二项分布、泊松分布。
- 连续型随机变量 (Continuous Random Variable):取值为连续值的随机变量。例如:正态分布、均匀分布。
- 概率分布 (Probability Distribution):描述随机变量取值的概率。
- 期望 (Expected Value):随机变量的平均值。
- 方差 (Variance):随机变量的离散程度。
3.2 抽样分布
- 抽样分布 (Sampling Distribution):统计量的概率分布。
- 中心极限定理 (Central Limit Theorem):当样本容量足够大时,样本均值的抽样分布近似于正态分布。
3.3 参数估计
- 点估计 (Point Estimate):用一个数值来估计总体参数。例如:样本均值估计总体均值。
- 区间估计 (Interval Estimate):用一个区间来估计总体参数。
- 置信水平 (Confidence Level):区间包含总体参数的概率。
- 置信区间 (Confidence Interval):在给定的置信水平下,包含总体参数的区间。
3.4 假设检验
- 假设 (Hypothesis):对总体参数的假设。
- 原假设 (Null Hypothesis, H0):要检验的假设。
- 备择假设 (Alternative Hypothesis, H1):与原假设对立的假设。
- 显著性水平 (Significance Level, α):拒绝原假设的概率,通常取0.05或0.01。
- 检验统计量 (Test Statistic):用于检验假设的统计量。
- p值 (p-value):在原假设成立的条件下,观察到样本数据的概率或更极端情况的概率。
- 决策规则 (Decision Rule):如果p值小于显著性水平,则拒绝原假设;否则,不拒绝原假设。
- 错误类型 (Types of Errors):
- 第一类错误 (Type I Error):拒绝了正确的原假设(假阳性)。
- 第二类错误 (Type II Error):未拒绝错误的原假设(假阴性)。
3.5 常用假设检验
- 单样本t检验 (One-sample t-test):检验样本均值是否等于给定的值。
- 双样本t检验 (Two-sample t-test):检验两个样本均值是否相等。
- 独立样本t检验 (Independent Samples t-test):两个样本独立。
- 配对样本t检验 (Paired Samples t-test):两个样本配对。
- 方差分析 (ANOVA):检验多个样本均值是否相等。
- 卡方检验 (Chi-square test):检验分类变量之间的关系。
- 拟合优度检验 (Goodness-of-fit test):检验样本数据的分布是否符合某个理论分布。
- 独立性检验 (Test of Independence):检验两个分类变量是否独立。
四、回归分析
4.1 线性回归
- 简单线性回归 (Simple Linear Regression):只有一个自变量。
- 多元线性回归 (Multiple Linear Regression):有多个自变量。
- 回归方程 (Regression Equation):描述自变量和因变量之间关系的方程。
- 系数 (Coefficients):回归方程中自变量的系数,表示自变量每变化一个单位,因变量平均变化的量。
- R平方 (R-squared):表示回归方程解释因变量变异的程度。
- 调整R平方 (Adjusted R-squared):修正了R平方,考虑了自变量的个数。
- 残差 (Residuals):实际值与预测值之间的差。
- 回归假设 (Regression Assumptions):线性性、独立性、同方差性、正态性。
4.2 Logistic 回归
- 二元 Logistic 回归 (Binary Logistic Regression):因变量是二元变量。
- 多元 Logistic 回归 (Multinomial Logistic Regression):因变量是多元变量。
- Odds Ratio (OR):优势比,表示自变量每变化一个单位,因变量发生的几率变化的倍数。
五、时间序列分析
5.1 基本概念
- 时间序列 (Time Series):按时间顺序排列的数据序列。
- 趋势 (Trend):时间序列长期变化的趋势。
- 季节性 (Seasonality):时间序列在一年内重复出现的模式。
- 周期性 (Cyclical):时间序列在较长时间内重复出现的模式。
- 随机性 (Randomness):时间序列中无法预测的波动。
5.2 常用模型
- 移动平均 (Moving Average):用过去一段时间的数据的平均值来预测未来的值。
- 指数平滑 (Exponential Smoothing):对过去的数据赋予不同的权重,越近的数据权重越高。
- ARIMA 模型 (Autoregressive Integrated Moving Average):自回归移动平均模型,用于预测时间序列。
六、统计软件
- R
- Python (with libraries like Pandas, NumPy, Scikit-learn, Statsmodels)
- SPSS
- SAS
- Excel