只为小站
首页
域名查询
文件下载
登录
数据挖掘实验报告
.doc
《数据挖掘》 Weka实验报告 姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015年6月12日 1.实验目的 基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori - ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进 行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行 对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使 用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作 平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界 面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集, 并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1- 10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析 由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下 一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工 添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 3.2.1 .csv -> .arff 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。 打开weka,之后出现GUI界面,如图1所示: (图1) 点击进入"Exploer"模块,要将.csv 格式转换为 .arff格式,点击open file...,打开刚保存的"乳腺癌数据集.csv
数据挖掘实验报告
主要探讨了如何使用Weka这一数据挖掘工具对乳腺癌数据集进行分类和分析。实验的目标是基于UCI机器学习库中的Breast Cancer Wisconsin (Original)数据集,利用Weka的分类算法进行预测,并对不同算法的性能进行比较。Weka是由新西兰怀卡托大学开发的开源软件,它支持多种操作系统,并提供了丰富的数据预处理、学习算法和评估工具。 实验环境主要涉及Weka平台和乳腺癌数据集。乳腺癌数据集包含了11个属性,包括丛厚度、细胞大小均匀性、细胞形状均匀性等,以及一个分类标签,表示肿瘤是良性还是恶性。实验者需要先对数据进行预处理,例如在Excel中整理数据,并将其转换为Weka可读的CSV格式。 在数据预处理阶段,首先需要了解每个属性的意义,然后导入数据,通常需要手动添加属性名称。由于Weka需要ARFF格式的数据,因此需要将CSV文件转换为ARFF。这可以通过Weka的命令行工具或图形用户界面(GUI)实现,比如在“Explorer”模块中选择打开CSV文件,系统会自动将其转换为ARFF格式。 数据分析阶段,实验者可能应用了Weka中的一系列分类算法,如决策树、贝叶斯网络、随机森林等,并对这些算法的性能进行了评估。性能比较通常包括准确率、召回率、F1分数等指标,同时通过绘制混淆矩阵和ROC曲线来直观地展示模型的优劣。此外,实验可能还涉及到训练集大小对模型性能的影响,通过改变训练集的数量,观察并比较不同规模训练集下的分类效果。 通过这样的实验,可以学习到数据挖掘的基本流程,包括数据清洗、特征工程、模型构建和评估。同时,还能掌握Weka工具的使用,理解不同分类算法的工作原理和适用场景。实验报告最后会总结实验结果,提出可能的改进策略,例如特征选择、参数调优等,以提高模型的预测能力。这样的实践对于理解数据挖掘技术在实际问题中的应用具有重要意义。
2024-07-13 18:13:04
987KB
文档资料
1
数据仓库与
数据挖掘实验报告
.doc
一、上机目的及内容 目的: 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的 使用。 内容: 将创建一个数据挖掘模型以训练销售数据,并使用"Microsoft 决策树"算法在客户群中找出购买自行车模式。请将要挖掘的维度(事例维度)设置 为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将 使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模 式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。 要求: 利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中 遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成 后,应根据实验情况写出实验报告。 二、实验原理及基本技术路线图(方框原理图或程序流程图) 关联分析:关联分析是从数据库中发现知识的一类重要方法。 时序模式:通过时间序列搜索出重复发生概率较高的模式。 分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的 整体信息,既该类的内涵描述,一般用规则或决策树模式表示。 三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及Microsoft SQL Server套件 四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录( 测试数据、图表、计算等) 创建 Analysis Services 项目 1. 打开 Business Intelligence Development Studio。 2. 在"文件"菜单上,指向"新建",然后选择"项目"。 3. 确保已选中"模板"窗格中的"Analysis Services 项目"。 4. 在"名称"框中,将新项目命名为 AdventureWorks。 5. 单击"确定"。 更改存储数据挖掘对象的实例 1. 在 Business Intelligence Development Studio 的"项目"菜单中,选择"属性"。 2. 在"属性页"窗格的左侧,单击"部署"。 3. 在"目标"选项部分,验证数据库名称是否为 localhost。如果使用的是其他实例,请键入该实例的名称。单击"确定"。 创建数据源 1. 在解决方案资源管理器中,右键单击"数据源"文件夹,然后选择"新建数据源"。 系统将打开数据源向导。 2. 在"欢迎使用数据源向导"页面中,单击"下一步"按钮。 3. 在"选择如何定义连接"页上,单击"新建"向 Adventure Works 数据库中添加连接。 系统将打开"连接管理器"对话框。 4. 在"连接管理器"的"提供程序"列表中,选择"本机 OLE DB\Microsoft OLE DB Provider for SQL Server"。 5. 在"服务器名称"列表中,键入或选择承载 AdventureWorksDW 的服务器的名称。 6. 在"登录到服务器"组中,选择身份验证方法,并输入凭据。 7. 在"选择或输入数据库名称"列表中,选择 AdventureWorksDW,再单击"确定"按钮。 8. 单击"下一步"按钮进入向导的下一页。 9. 在"模拟信息"页中,选择"使用服务帐户",再单击"下一步"。 10. 请注意,在"完成向导"页中,数据源名称默认为 Adventure Works DW。 11. 单击"完成"。 新的数据源 Adventure Works DW 将显示在解决方案资源管理器的"数据源"文件夹中。 创建数据源视图 1. 在解决方案资源管理器中,右键单击"数据源视图",选择"新建数据源视图"。 系统将打开数据源视图向导。 2. 在"欢迎使用数据源视图向导"页上,单击"下一步"。 3. 在"选择数据源"页的"关系数据源"下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。 单击"下一步"。 若要创建新数据源,请单击"新建数据源",启动数据源向导。 4. 在"选择表和视图"页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源 视图中: dbo.ProspectiveBuyer dbo.vAssocSeqLineItems dbo.vAssocSeqOrders dbo.vTargetMail dbo.vTimeSeries 5. 单击"下一步"。 6. 在"完成向导"页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。 单击"完成"。 系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。 创建用于目标邮件方案的挖掘结构 1. 在解决方案资源管理器中,右键单击"
2022-12-29 19:21:59
1.42MB
文档资料
1
数据挖掘实验报告
1
1.加强对 Apriori 算法的理解 2.锻炼分析问题、解决问题并动手实践的能力 1.看懂 Apriori 算法的基本思想 2.上网查阅相关资料
2022-08-03 18:00:48
456KB
数据挖掘
1
机器学习与
数据挖掘实验报告
.7z
机器学习与
数据挖掘实验报告
.7z
2022-07-02 11:04:34
1.49MB
机器学习与数据挖掘实验报告.7z
数据仓库与
数据挖掘实验报告
-.docx
数据仓库与
数据挖掘实验报告
2022-05-21 18:04:10
2.1MB
数据仓库
数据挖掘
文档资料
人工智能
数据挖掘实验报告
使用分类回归树、支持向量机、人工神经网络等模型对GOODS1n中增加的increase((After - Before) / Before * 100.0)字段进行预测,与原值进行比较分析各种算法预测的准确性。
2021-12-22 15:41:23
553KB
回归树等
1
《数据挖掘》实验报告(共三个).docx
《数据挖掘》实验报告(共三个) 实验1:基于UCI soybean Dataset的分类任务 实验2:基于UCI Groceries Dataset的关联分析任务 实验3:基于PACS RAW Labeled Dataset的聚类任务
2021-12-14 11:05:44
961KB
数据挖掘
python
数据挖掘实验报告
-数据预处理.docx
数据挖掘实验报告
一 数据预处理 姓名李圣杰 班级计算机1304 学号02 一 实验目的 学习均值平滑中值平滑边界值平滑的基本原理 掌握链表的使用方法 掌握文件读取的方法 二 实验设备 PC台dev-c++ 三 实验内容 数据平滑 假定用于分析的数据包含届性 age数据元组中age的值如下(按递增序) 13, 15, 16, 16, 19, 20, 20, 21,22, 22, 25, 25, 2
2021-12-09 12:31:52
47KB
文档
互联网
资源
西电
数据挖掘实验报告
与ppt
包含了西电数据挖掘的全部课程ppt和试验报告
2021-10-08 16:57:37
4.35MB
西电数据挖掘实验报告
1
数据挖掘实验报告
.pdf
数据挖掘实验报告
.pdf
2021-07-08 19:06:08
366KB
数据挖掘
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
科研伦理与学术规范 期末考试2 (40题).pdf
Steam离线安装版
基于S函数的BP神经网络PID控制器及Simulink仿真和对应代码模型.zip
Python+OpenCV实现行人检测(含配置说明)
SSM外文文献和翻译(毕设论文精品).doc
计算机专业实习日记+实习周记+实习总结
倒立摆的模糊控制(基于simulink仿真,适合初学者).rar
多智能体的编队控制matlab程序(自己编写的,可以运行)
基于STM32的电子时钟设计
中国地面气象站观测数据2000-2021
粒子群多无人机协同多任务分配.zip
超大规模集成电路先进光刻理论与应用.pdf
IBM.ILOG.CPLEX.Enterprise.Server.v12.10.0.Win64.rar CPLEX下载
拾荒者扫描器.zip
android studio课程设计作业PPT+设计文档+可运行源代码+设计思路
最新下载
按键精灵采集脚本源码
组态王卸载工具
基于MFC的代码编辑器
缅甸地区shapefile文件
STM332模拟成USB摄像头发送图片
CPU卡线路加密与线路保护MAC源码
漫城CMS小说漫画APP小说uniapp前后端源码/会员阅读/月票功能
天融信安全隔离与信息交换系统用户手册.doc
IBM Rational DOORS 9.2使用手册
MFR4310在MPC5500使用的官方范例pdf
其他资源
北斗软件接收机matlabc代码
基于python的人体状态识别
Keil.STM32F1xx_DFP.2.3.0 支持包.rar
概率(第1卷+第2卷+高清习题集)(俄罗斯)施利亚耶夫 (2).rar
TSMC 018rf for ADS2016
2013~2016恒生电子笔试题目(全)
baxter机器人抓取杯子Baxter_pick_cup_game-master.zip
mui-子页面调用父页面方法
C++ GUI Programming with Qt 4, Second Edition(附原书示例程序源码)
知识工程课件(很全)
傅里叶变换轮廓术
Java五子棋源码课程设计
C#通过OPC服务器连接PLC读写数据
SoftGNSS Matlab Source
51单片机实现TB6560步进电机驱动的原理图和PCB,测试好用。并且有PWM生成代码。
三轴加速度计对人类活动的识别和分类
银行业专业人员职业资格考试《个人理财》科目初级考试大纲.pdf
LxRunOffline-3.5.0.zip安装包
华为AI赛场赛题指引.pdf
企业网络安全架构的设计与实现.docx
Docker Desktop Installer.part05.rar
梦幻 大话 资源 查看 WAS WDF 筛选 提取 导出
java课程设计(图书销售系统)全版带数据库
惠普暗影精灵2代Pro+i7-7700HQ+UHD630+GTX1050+完美黑苹果引导文件
完整的tensorflow实现自己的首次分类
百度文库免积分下载器,原文档
DDR SDRAM技术总结