统计思维导图

统计思维导图

中心主题:统计

  • 定义与目标

    • 定义:收集、整理、分析和解释数据的科学
    • 目标:从数据中提取有用的信息,为决策提供依据
    • 核心概念:总体、样本、变量、参数、统计量
  • 数据类型

    • 定量数据 (Numerical Data)
      • 离散数据 (Discrete Data)
        • 定义:只能取有限个或可数无限个值
        • 例子:人数、物品数量、掷骰子结果
        • 常用统计方法:计数、频率分布
      • 连续数据 (Continuous Data)
        • 定义:可以在某个范围内取任意值
        • 例子:身高、体重、温度
        • 常用统计方法:分组、计算平均值、标准差
    • 定性数据 (Categorical Data)
      • 名义数据 (Nominal Data)
        • 定义:没有自然顺序,只能进行分类
        • 例子:性别、颜色、职业
        • 常用统计方法:频率分布、条形图、饼图
      • 顺序数据 (Ordinal Data)
        • 定义:有自然顺序,但间隔不相等
        • 例子:教育程度、满意度评分
        • 常用统计方法:中位数、百分位数、等级相关
  • 描述性统计 (Descriptive Statistics)

    • 集中趋势 (Measures of Central Tendency)
      • 均值 (Mean)
        • 定义:所有数据的总和除以数据个数
        • 优点:易于计算,受所有数据影响
        • 缺点:容易受极端值影响
      • 中位数 (Median)
        • 定义:将数据排序后,位于中间位置的值
        • 优点:不受极端值影响
        • 缺点:不如均值稳定
      • 众数 (Mode)
        • 定义:数据中出现次数最多的值
        • 优点:简单直观
        • 缺点:可能不存在,也可能不唯一
    • 离散程度 (Measures of Dispersion)
      • 范围 (Range)
        • 定义:最大值与最小值之差
        • 优点:简单易算
        • 缺点:只受两个极端值影响
      • 方差 (Variance)
        • 定义:每个数据与均值的偏差的平方和的平均值
        • 优点:反映数据的整体离散程度
        • 缺点:单位与原始数据不同
      • 标准差 (Standard Deviation)
        • 定义:方差的平方根
        • 优点:单位与原始数据相同,更易于解释
        • 缺点:计算稍复杂
      • 四分位距 (Interquartile Range, IQR)
        • 定义:第三四分位数 (Q3) 与第一四分位数 (Q1) 之差
        • 优点:不受极端值影响
        • 缺点:只考虑中间 50% 的数据
    • 分布形状 (Shape of Distribution)
      • 偏度 (Skewness)
        • 定义:衡量数据分布的不对称程度
        • 正偏:右偏,长尾在右侧,均值 > 中位数
        • 负偏:左偏,长尾在左侧,均值 < 中位数
        • 对称:均值 ≈ 中位数
      • 峰度 (Kurtosis)
        • 定义:衡量数据分布的峰值陡峭程度
        • 高狭峰:峰值陡峭,尾部较重
        • 低阔峰:峰值平缓,尾部较轻
      • 可视化方法
        • 直方图 (Histogram)
        • 箱线图 (Box Plot)
        • 散点图 (Scatter Plot)
  • 推断统计 (Inferential Statistics)

    • 假设检验 (Hypothesis Testing)
      • 零假设 (Null Hypothesis, H0):待推翻的假设
      • 备择假设 (Alternative Hypothesis, H1):要证明的假设
      • 显著性水平 (Significance Level, α):拒绝零假设的概率阈值(通常为 0.05)
      • p值 (p-value):观察到的数据或更极端的数据出现的概率(假设零假设为真)
      • 决策规则:如果 p ≤ α,则拒绝零假设;否则,不拒绝零假设
      • 常见检验类型:t 检验、卡方检验、方差分析 (ANOVA)
    • 置信区间 (Confidence Interval)
      • 定义:包含总体参数的概率范围
      • 置信水平 (Confidence Level):置信区间的可信程度(通常为 95%)
      • 计算方法:点估计 ± 边际误差
    • 回归分析 (Regression Analysis)
      • 线性回归 (Linear Regression):建立线性关系模型,预测因变量
        • 简单线性回归:一个自变量
        • 多元线性回归:多个自变量
      • 逻辑回归 (Logistic Regression):预测二元分类结果
      • 回归诊断:检验模型假设是否满足
    • 抽样方法 (Sampling Methods)
      • 简单随机抽样 (Simple Random Sampling):每个个体被选中的概率相等
      • 分层抽样 (Stratified Sampling):将总体分成若干层,每层抽取一定比例的样本
      • 整群抽样 (Cluster Sampling):将总体分成若干群,随机抽取若干群作为样本
      • 系统抽样 (Systematic Sampling):按一定间隔抽取样本
  • 统计软件与工具

    • R:开源统计软件,功能强大,灵活性高
    • Python (with libraries like NumPy, Pandas, SciPy, Scikit-learn):通用编程语言,在数据科学领域应用广泛
    • SPSS:商业统计软件,易于操作,适合初学者
    • Excel:常用电子表格软件,具有基本的统计功能
    • SAS:商业统计软件,适用于大规模数据分析
  • 统计应用领域

    • 商业与市场营销:市场调研、客户分析、广告效果评估
    • 医学与生物统计:临床试验、疾病预防、基因组学研究
    • 经济学与金融学:宏观经济预测、投资组合管理、风险评估
    • 社会科学:人口统计、教育评估、犯罪分析
    • 工程学:质量控制、可靠性分析、实验设计
  • 统计的伦理考量

    • 数据隐私保护
    • 避免误导性呈现
    • 客观公正地分析数据
    • 透明地披露研究方法
上一个主题: 西游记思维导图 下一个主题: 氯思维导图

相关思维导图推荐

分享思维导图