只为小站
首页
域名查询
登录
数据挖掘实验报告
.doc
《数据挖掘》 Weka实验报告 姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015年6月12日 1.实验目的 基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori - ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进 行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行 对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使 用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作 平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界 面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集, 并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1- 10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析 由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下 一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工 添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 3.2.1 .csv -> .arff 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。 打开weka,之后出现GUI界面,如图1所示: (图1) 点击进入"Exploer"模块,要将.csv 格式转换为 .arff格式,点击open file...,打开刚保存的"乳腺癌数据集.csv
数据挖掘实验报告
主要探讨了如何使用Weka这一数据挖掘工具对乳腺癌数据集进行分类和分析。实验的目标是基于UCI机器学习库中的Breast Cancer Wisconsin (Original)数据集,利用Weka的分类算法进行预测,并对不同算法的性能进行比较。Weka是由新西兰怀卡托大学开发的开源软件,它支持多种操作系统,并提供了丰富的数据预处理、学习算法和评估工具。 实验环境主要涉及Weka平台和乳腺癌数据集。乳腺癌数据集包含了11个属性,包括丛厚度、细胞大小均匀性、细胞形状均匀性等,以及一个分类标签,表示肿瘤是良性还是恶性。实验者需要先对数据进行预处理,例如在Excel中整理数据,并将其转换为Weka可读的CSV格式。 在数据预处理阶段,首先需要了解每个属性的意义,然后导入数据,通常需要手动添加属性名称。由于Weka需要ARFF格式的数据,因此需要将CSV文件转换为ARFF。这可以通过Weka的命令行工具或图形用户界面(GUI)实现,比如在“Explorer”模块中选择打开CSV文件,系统会自动将其转换为ARFF格式。 数据分析阶段,实验者可能应用了Weka中的一系列分类算法,如决策树、贝叶斯网络、随机森林等,并对这些算法的性能进行了评估。性能比较通常包括准确率、召回率、F1分数等指标,同时通过绘制混淆矩阵和ROC曲线来直观地展示模型的优劣。此外,实验可能还涉及到训练集大小对模型性能的影响,通过改变训练集的数量,观察并比较不同规模训练集下的分类效果。 通过这样的实验,可以学习到数据挖掘的基本流程,包括数据清洗、特征工程、模型构建和评估。同时,还能掌握Weka工具的使用,理解不同分类算法的工作原理和适用场景。实验报告最后会总结实验结果,提出可能的改进策略,例如特征选择、参数调优等,以提高模型的预测能力。这样的实践对于理解数据挖掘技术在实际问题中的应用具有重要意义。
2024-07-13 18:13:04
987KB
文档资料
1
数据仓库与
数据挖掘实验报告
.doc
一、上机目的及内容 目的: 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的 使用。 内容: 将创建一个数据挖掘模型以训练销售数据,并使用"Microsoft 决策树"算法在客户群中找出购买自行车模式。请将要挖掘的维度(事例维度)设置 为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将 使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模 式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。 要求: 利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中 遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成 后,应根据实验情况写出实验报告。 二、实验原理及基本技术路线图(方框原理图或程序流程图) 关联分析:关联分析是从数据库中发现知识的一类重要方法。 时序模式:通过时间序列搜索出重复发生概率较高的模式。 分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的 整体信息,既该类的内涵描述,一般用规则或决策树模式表示。 三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及Microsoft SQL Server套件 四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录( 测试数据、图表、计算等) 创建 Analysis Services 项目 1. 打开 Business Intelligence Development Studio。 2. 在"文件"菜单上,指向"新建",然后选择"项目"。 3. 确保已选中"模板"窗格中的"Analysis Services 项目"。 4. 在"名称"框中,将新项目命名为 AdventureWorks。 5. 单击"确定"。 更改存储数据挖掘对象的实例 1. 在 Business Intelligence Development Studio 的"项目"菜单中,选择"属性"。 2. 在"属性页"窗格的左侧,单击"部署"。 3. 在"目标"选项部分,验证数据库名称是否为 localhost。如果使用的是其他实例,请键入该实例的名称。单击"确定"。 创建数据源 1. 在解决方案资源管理器中,右键单击"数据源"文件夹,然后选择"新建数据源"。 系统将打开数据源向导。 2. 在"欢迎使用数据源向导"页面中,单击"下一步"按钮。 3. 在"选择如何定义连接"页上,单击"新建"向 Adventure Works 数据库中添加连接。 系统将打开"连接管理器"对话框。 4. 在"连接管理器"的"提供程序"列表中,选择"本机 OLE DB\Microsoft OLE DB Provider for SQL Server"。 5. 在"服务器名称"列表中,键入或选择承载 AdventureWorksDW 的服务器的名称。 6. 在"登录到服务器"组中,选择身份验证方法,并输入凭据。 7. 在"选择或输入数据库名称"列表中,选择 AdventureWorksDW,再单击"确定"按钮。 8. 单击"下一步"按钮进入向导的下一页。 9. 在"模拟信息"页中,选择"使用服务帐户",再单击"下一步"。 10. 请注意,在"完成向导"页中,数据源名称默认为 Adventure Works DW。 11. 单击"完成"。 新的数据源 Adventure Works DW 将显示在解决方案资源管理器的"数据源"文件夹中。 创建数据源视图 1. 在解决方案资源管理器中,右键单击"数据源视图",选择"新建数据源视图"。 系统将打开数据源视图向导。 2. 在"欢迎使用数据源视图向导"页上,单击"下一步"。 3. 在"选择数据源"页的"关系数据源"下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。 单击"下一步"。 若要创建新数据源,请单击"新建数据源",启动数据源向导。 4. 在"选择表和视图"页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源 视图中: dbo.ProspectiveBuyer dbo.vAssocSeqLineItems dbo.vAssocSeqOrders dbo.vTargetMail dbo.vTimeSeries 5. 单击"下一步"。 6. 在"完成向导"页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。 单击"完成"。 系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。 创建用于目标邮件方案的挖掘结构 1. 在解决方案资源管理器中,右键单击"
2022-12-29 19:21:59
1.42MB
文档资料
1
数据挖掘实验报告
1
1.加强对 Apriori 算法的理解 2.锻炼分析问题、解决问题并动手实践的能力 1.看懂 Apriori 算法的基本思想 2.上网查阅相关资料
2022-08-03 18:00:48
456KB
数据挖掘
1
机器学习与
数据挖掘实验报告
.7z
机器学习与
数据挖掘实验报告
.7z
2022-07-02 11:04:34
1.49MB
机器学习与数据挖掘实验报告.7z
数据仓库与
数据挖掘实验报告
-.docx
数据仓库与
数据挖掘实验报告
2022-05-21 18:04:10
2.1MB
数据仓库
数据挖掘
文档资料
人工智能
数据挖掘实验报告
使用分类回归树、支持向量机、人工神经网络等模型对GOODS1n中增加的increase((After - Before) / Before * 100.0)字段进行预测,与原值进行比较分析各种算法预测的准确性。
2021-12-22 15:41:23
553KB
回归树等
1
《数据挖掘》实验报告(共三个).docx
《数据挖掘》实验报告(共三个) 实验1:基于UCI soybean Dataset的分类任务 实验2:基于UCI Groceries Dataset的关联分析任务 实验3:基于PACS RAW Labeled Dataset的聚类任务
2021-12-14 11:05:44
961KB
数据挖掘
python
数据挖掘实验报告
-数据预处理.docx
数据挖掘实验报告
一 数据预处理 姓名李圣杰 班级计算机1304 学号02 一 实验目的 学习均值平滑中值平滑边界值平滑的基本原理 掌握链表的使用方法 掌握文件读取的方法 二 实验设备 PC台dev-c++ 三 实验内容 数据平滑 假定用于分析的数据包含届性 age数据元组中age的值如下(按递增序) 13, 15, 16, 16, 19, 20, 20, 21,22, 22, 25, 25, 2
2021-12-09 12:31:52
47KB
文档
互联网
资源
西电
数据挖掘实验报告
与ppt
包含了西电数据挖掘的全部课程ppt和试验报告
2021-10-08 16:57:37
4.35MB
西电数据挖掘实验报告
1
数据挖掘实验报告
.pdf
数据挖掘实验报告
.pdf
2021-07-08 19:06:08
366KB
数据挖掘
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
得到品控手册7.0.pdf
倒立摆的模糊控制(基于simulink仿真,适合初学者).rar
android开发期末大作业.zip
拾荒者扫描器.rar
EasyMedia-ui.zip
CPLEX12.8学术版安装包:cplex_studio128.win-x86-64.exe
DS证据理论的MATLAB案例程序源代码
雷达信号处理仿真程序(MTI,MTD等)
Vivado license 永久
Spring相关的外文文献和翻译(毕设论文必备)
cublas64_11.dll cublasLt64_11.dll cusolver64_11.dll
中国地面气候资料日值数据集(V3.0)-201001201912.rar
基于OpenCV的车牌号码识别的Python代码(可直接运行)
EEupdate_5.35.12.0 win10下修改intel网卡mac
RX560 bios合集(请务必注意显存品牌和大小以及是否需要6pin!)含刷新工具.zip
最新下载
TCL-HT9.rar
迈瑞宝2018款中控拓展桌面安装和说明.rar
winio驱动模拟键盘按键
xsteel属性对话框移动小程序
系统需求文档范例
大牛模拟器 模拟器型应用,可以对许多跑步软件进行步频,步数,速度等方面修改.zip
allatori-8.4-完美版.jar
C警察抓小偷游戏.rar
STM32F407核心板+OLED显示+MPU6050显示X轴角度+心率MAX30102检测+蓝牙通信 实现计步,心率检测功能
史上最全WindowsCE软件合集
其他资源
用vb.net编写的简单的图像浏览器
四足运动——四足机器人控制技术.pdf.zip
信息系统安全等级保护实施指南.pdf
tct宽带信号算法
自适应滤波VSS-LMS算法的实现
微燃机Matlab/simulink建模
mfc下导出listctrl数据到excel表格
高频注入法最好的论文
springboot+mybatis实现员工管理系统
utm坐标和经纬度相互转换
VIVADO DDS IP核设置
编译原理课程设计——简单编译器
sql文件切割,大文件切割成小文件/SQLDumpSplitter
pip-20.0.2安装包
QT调用matlab引擎
DevExpress.BarManager.rar
2013年中国高校SAS数据分析大赛初赛考题.doc
Neural networks and deep learning pdf 下载 英文版 代码
《C语言接口与实现》书中源代码
cortexm3_macro
stm32实现的GPRS透传模块程序
Visual C++ MFC棋牌类游戏编程实例(五子棋,象棋,网络)
Principles of Mobile Communication Third Edition
教学计划编制问题大学的每个专业都要制定教学计划。假设任何专业都有固定的学习年限,每学年含两学期,每学期的时间长度和学分上限值均相等。每个专业开设的课程都是确定的,而且课程在开设时间的安排必须满足先修关系。每门课程有哪些先修课程是确定的,可以有任意多门,也可以没有。每门课恰好占一个学期。试在这样的前提下设计一个教学计划编制程序。
进销存储管理系统 数据库课程设计 vb
网口封装 HR911105A