《八下数据分析思维导图》
一、数据收集与预处理
1. 数据收集
1.1. 数据来源
- 1.1.1. 内部数据
- 企业运营数据 (销售数据、用户数据、财务数据、供应链数据)
- 市场调研数据 (问卷调查、用户访谈、焦点小组)
- 实验数据 (A/B 测试数据、产品测试数据)
- 1.1.2. 外部数据
- 公开数据集 (政府数据、学术数据集、第三方数据平台)
- 网络爬虫数据 (社交媒体数据、电商平台数据、新闻网站数据)
- 第三方数据服务 (数据供应商、市场研究机构)
1.2. 数据收集方法
- 1.2.1. 系统导出
- 数据库导出 (SQL、NoSQL)
- API 接口 (REST API, SOAP API)
- 日志文件 (Web 服务器日志、应用程序日志)
- 1.2.2. 手动录入
- 问卷录入
- 纸质文档数字化
- 人工观察记录
- 1.2.3. 网络爬虫
- Scrapy
- BeautifulSoup
- Selenium
- 1.2.4. 数据购买
- 选择信誉良好的数据供应商
- 明确数据用途和权限
2. 数据预处理
2.1. 数据清洗
- 2.1.1. 处理缺失值
- 删除缺失值
- 填充缺失值 (均值、中位数、众数、回归预测、多重插补)
- 2.1.2. 处理异常值
- 删除异常值
- 转换异常值 (Winsorizing, capping)
- 视为特殊情况保留
- 2.1.3. 处理重复值
- 删除重复行
- 合并重复行
- 2.1.4. 处理错误值
- 数据类型转换错误
- 逻辑错误
- 格式错误
2.2. 数据转换
- 2.2.1. 数据类型转换
- 数值型 (整型、浮点型)
- 字符型
- 日期型
- 布尔型
- 2.2.2. 数据标准化
- Z-score 标准化
- Min-Max 标准化
- RobustScaler
- 2.2.3. 数据离散化
- 等宽离散化
- 等频离散化
- 基于聚类的离散化
- 2.2.4. 文本数据处理
- 分词
- 去除停用词
- 词干提取/词形还原
- 文本向量化 (TF-IDF, Word2Vec)
2.3. 数据集成
- 2.3.1. 数据合并
- 横向合并 (Join)
- 纵向合并 (Append/Concat)
- 2.3.2. 数据聚合
- 求和
- 平均值
- 最大值
- 最小值
- 计数
二、数据分析与可视化
1. 描述性统计分析
1.1. 集中趋势
- 均值 (Mean)
- 中位数 (Median)
- 众数 (Mode)
1.2. 离散程度
- 方差 (Variance)
- 标准差 (Standard Deviation)
- 四分位数 (Quartiles)
- 极差 (Range)
- 四分位距 (IQR)
1.3. 分布形状
- 偏度 (Skewness)
- 峰度 (Kurtosis)
2. 探索性数据分析 (EDA)
2.1. 单变量分析
- 直方图 (Histogram)
- 箱线图 (Box Plot)
- 密度图 (Density Plot)
- 饼图 (Pie Chart)
- 条形图 (Bar Chart)
2.2. 多变量分析
- 散点图 (Scatter Plot)
- 热力图 (Heatmap)
- 交叉表 (Crosstab)
- 分组条形图 (Grouped Bar Chart)
- 堆叠条形图 (Stacked Bar Chart)
- 小提琴图 (Violin Plot)
- 相关性分析 (Correlation Analysis)
3. 数据可视化
3.1. 可视化工具
- 3.1.1. Python 库
- Matplotlib
- Seaborn
- Plotly
- Bokeh
- 3.1.2. 商业软件
- Tableau
- Power BI
- 3.1.3. 其他工具
- Echarts
- D3.js
3.2. 可视化原则
- 清晰明确的标题和标签
- 合适的图表类型选择
- 简洁的设计风格
- 突出重点信息
- 考虑目标受众
三、常用数据分析方法
1. 回归分析
- 1.1. 线性回归
- 简单线性回归
- 多元线性回归
- 1.2. 多项式回归
- 1.3. 逻辑回归
- 1.4. 支持向量回归 (SVR)
- 1.5. 岭回归 (Ridge Regression)
- 1.6. Lasso 回归
2. 分类分析
- 2.1. 逻辑回归
- 2.2. K 近邻 (KNN)
- 2.3. 决策树
- 2.4. 随机森林
- 2.5. 支持向量机 (SVM)
- 2.6. 朴素贝叶斯
3. 聚类分析
- 3.1. K-means 聚类
- 3.2. 层次聚类
- 3.3. DBSCAN 聚类
- 3.4. 谱聚类
4. 时间序列分析
- 4.1. 时间序列分解
- 4.2. 移动平均法
- 4.3. 指数平滑法
- 4.4. ARIMA 模型
5. 关联规则分析
- 5.1. Apriori 算法
- 5.2. FP-Growth 算法
四、数据分析报告
1. 报告结构
- 1.1. 报告摘要
- 1.2. 背景介绍
- 1.3. 数据来源与方法
- 1.4. 分析结果
- 1.5. 结论与建议
- 1.6. 附录 (数据字典, 代码等)
2. 报告内容
- 2.1. 清晰的图表和表格
- 2.2. 准确的数据描述
- 2.3. 深入的分析解读
- 2.4. 可行的建议方案
3. 报告撰写技巧
- 3.1. 突出重点
- 3.2. 逻辑清晰
- 3.3. 语言简洁
- 3.4. 结合业务场景