上传者: 63560397
|
上传时间: 2025-12-16 17:26:02
|
文件大小: 3.17MB
|
文件类型: DOCX
山东大学软件学院数据挖掘期末总结
数据挖掘是指从大量数据中提取有价值的信息的过程。数据挖掘的基本步骤包括:明确目的和思路、数据收集、数据处理、数据分析、数据展现和报告撰写。其中,数据处理是一个非常重要的步骤,它包括数据清理、数据集成、数据变化和数据归约等任务。
大数据的 4V 理论是指数据的四个主要特征:数据量大(volume)、数据类型繁多(variety)、处理速度快(velocity)和价值密度低(value)。
数据分析中有多种度量尺度,常见的有定类尺度、定序尺度、定距尺度和定比尺度,每种尺度都有其对应的集中趋势和离散度量方法。
在数据挖掘中,数据对象的相似性是一个非常重要的概念,常见的相似性度量方法有余弦相似度、Jaccard 相似系数和闵可夫斯基距离等。
数据属性的相关性也是一种非常重要的概念,常见的相关性度量方法有斯皮尔曼等级相关系数、皮尔森相关系数等。
数据预处理是数据挖掘的准备阶段,主要任务包括数据清理、数据集成、数据变化和数据归约等。数据清理主要解决的问题是填写空缺的值、识别离群点和平滑噪声数据等。
脏数据是指数据中存在错误、不一致或缺失的数据,常见的脏数据类型包括不完全、噪音和不一致等。脏数据的主要原因是数据收集时未包含、数据收集和数据分析时的不同考虑、人/硬件/软件问题等。
缺失值的处理方法有多种,包括忽略元组、手工填写、数值型数据使用中位数、平均数、众数等填充等。
噪音数据是指在测量一个变量时可能出现的测量值相对于真实值的偏差或者错误。噪音数据的产生原因包括错误的数据收集工具、数据录入问题、数据传输问题、技术限制、不一致的命名惯例等。
噪音数据的检测和处理方法也有多种,包括简单统计分析、使用距离检测多元离群点、基于模型检测和基于密度检测等。处理方法包括分箱、回归和聚类等。
数据挖掘是一个复杂的过程,需要对数据进行多方面的分析和处理,以提取有价值的信息。