第1章 数据分析哪些事儿 数据分析是“神马” 数据分析六部曲 常用指标或术语 【数据分析师的基本素质】 态度严谨负责 好奇心强烈 逻辑思维清晰 擅长模仿 勇于创新
2021-08-08 17:09:26 1.41MB 数据分析 数据挖掘 数据洞察 数据探索
根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是:样本数据集的数量和质量是否满足模型构建的要求?有没有出现从未设想过的数据状态?其中有没有什么明显的规律和趋势?各因素之间有什么样的关联性? 通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索数据探索有助于选择合适的数据预处理和建模方法,甚至可以完成一些通常由数据挖掘解决的问题。 本章从数据质量分析和数据特征分析两个角度对数据进行探索。 6.1 数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括:  缺失值  异常值  不一致的值  重复数据及含有特殊符号(如#、¥、*)的数据 本小节将主要对数据中的缺失值、异常值和一致性进行分析。 6.1.1缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产生的原因及影响等方面展开分析。 (1) 缺失值产生的原因 1) 有些信息暂时无法获取,或者获取信息的代价太大。 2) 有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误等一些人为因素而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的
2021-08-08 13:07:23 657KB 数据挖掘 数据分析 RapidMiner 数据探索
(1)数据质星分析 (2)数据特征分析 (3)MATLAB主要数据探索函数 篇外:了解你的数据 数据集的类型 腾性的不同类型 数据挖掘中特别的列 数据集的重要特性 数据集的类型 腾性的不同类型 数据挖掘中特别的列 数据集的重要特性
2021-08-07 18:11:59 1.97MB MATLAB 数据挖掘 数据分析 数据探索
02 数据探索V1.3.ipynb
2021-08-06 09:01:41 209KB 机器学习
1
5.来自欧盟和澳大利亚的温室气体排放数据 该项目探索了欧洲温室气体排放量(GHG)数据,可在以下位置找到: : 该数据集包含有关“温室气体排放(GHG)清单”的数据,该数据是每个欧盟国家在2009-2018年之间向欧洲环境署(EEA)报告的,最近一次更新是在2020年6月。GHG清单包含以下数据: 排放的各种空气污染物和温室气体的数量(欧盟和国家总计):二氧化碳(CO2),甲烷(CH4),一氧化二氮(N2O),全氟化碳(PFC),氢氟碳化物(HFC),六氟化硫( SF6)和三氟化氮(NF3); 和 五个主要温室气体“源部门”的排放量:能源,工业过程,农业,土地利用以及林业和废物管理(按国家和欧盟总计)。 在这个项目中,我分析了工作表1(总共99个excel工作表),其中包括欧盟国家在所有空气污染物和部门(包括国际航空)中的合并总温室气体。 该项目展示了熊猫中的各种数据处理技术,
2021-07-02 16:38:09 1.23MB data-mining pandas data-visualization data-analysis
1
机场大数据探索与实践
2021-06-06 19:04:57 9.9MB 机场大数据
清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)清华大学精品数据科学R语言全套课程PPT课件含习题(26页) 第1章 R语言绪论(1) (2)清华大学精品数据科学R语言全套课程PPT课件含习题(27页) 第2章 R语言入门 (3)清华大学精品数据科学R语言全套课程PPT课件含习题(53页) 第3章 数据模型 (4)清华大学精品数据科学R语言全套课程PPT课件含习题(15页) 第4章 数据准备 (5)清华大学精品数据科学R语言全套课程PPT课件含习题(66页) 第5章 数据可视化 (6)清华大学精品数据科学R语言全套课程PPT课件含习题(35页) 第6章 数据探索 (7)清华大学精品数据科学R语言全套课程PPT课件含习题(38页) 第7章 数据变换 (8)清华大学精品数据科学R语言全套课程PPT课件含习题(20页) 第8章 高级编程 (9)清华大学精品数据科学R语言全套课程PPT课件含习题(63页) 第9章 数据建模 (10)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第10章 数据评估 (11)清华大学精品数据科学R语言全套课程PPT课件含习题(21页) 第11章 影响大学平均录取分数线因素分析 (12)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第12章 收视率分析 (13)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop (14)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第14章 Rspark
2021-05-24 09:05:38 2.57MB 数据科学 R语言 数据分析 可视化
从海洋宏基因组学数据探索分类群与环境之间的相互作用模式
2021-03-21 09:13:26 1.59MB 研究论文
1
R项目 数据探索,可视化,功能工程和机器学习技术。
2021-02-10 12:03:54 653KB HTML
1
python数据分析学习笔记|数据探索.html
2021-01-29 14:07:17 457KB python
1