### 数据探索与理解
在数据分析的初期阶段,数据探索与理解至关重要。它涉及对数据集基本结构的评估,关键变量的分布分析,潜在的数据质量问题识别,以及初步的洞察和模式发现。具体请求可能包括提供数据集的基本统计摘要,如均值、中位数、标准差等,检查并报告数据中的缺失值,分析数值变量的分布情况,探索关键变量之间的相关性,以及识别任何异常值或异常模式。输出格式通常要求提供文字描述的主要发现、关键统计指标和建议的下一步分析方向。
### 数据清洗与预处理
数据清洗与预处理的目的是确保数据集的质量,为后续的分析和建模打下良好基础。在清洗过程中,需要处理缺失值、识别并处理异常值、标准化或归一化数值特征、编码分类变量以及处理日期时间格式,并在必要时创建派生特征。具体指导涉及缺失值处理策略、异常值的定义标准、保留的原始特征和需要创建的新特征。输出要求包括清洗步骤的详细说明、数据状态前后比较、关键决策点及理由和清洗后数据的质量评估。
### 探索性数据分析(EDA)
探索性数据分析(EDA)是数据分析中一个重要的步骤,目的是全面分析数据集以发现其内在结构、模式和关联。分析背景可能包括业务领域的描述、分析目的和核心问题的列举。EDA需求涉及单变量、双变量、多变量分析,以及在适用的情况下进行时间序列分析。分析重点可能包括关注变量、假设检验、分组比较和特定模式。可视化需求包括创建分布图、关系图、分组比较图和时间序列图。输出期望是对关键发现的摘要、支持发现的统计证据、有洞察力的可视化、对业务问题的初步回答和进一步分析的建议。
### 统计分析与假设检验
统计分析与假设检验是验证数据中某些声明的科学方法。分析背景通常包括研究问题、数据集特征和先验知识。假设陈述包括零假设和备择假设以及显著性水平。分析需求可能涉及选择和应用适当的统计检验方法,验证统计检验的假设条件,计算检验统计量和p值,并解释结果。具体统计方法可能包括t检验、ANOVA、卡方检验、相关性分析、回归分析和非参数检验。输出要求涉及检验方法选择的理由、假设条件验证结果、详细的统计结果、结果的置信区间、结果的实际意义解释和潜在的局限性讨论。
### 预测建模与机器学习
预测建模与机器学习是数据分析中应用算法以预测未来结果或未标记数据的分类的步骤。项目背景描述业务问题和预测目标,以及模型成功的标准。数据情况涉及可用特征、目标变量及其类型和分布。预测建模请求可能包括选择合适的模型算法,训练和验证模型性能,评估模型的准确性和泛化能力,并提供业务问题的解决方案。这通常需要对算法进行调整和优化,以获得最佳的预测性能。
2025-07-10 15:24:04
507KB
1