数值特征 离散值处理 数值特征的处理,最常见的方法,就是离散值处理了 对于一份新拿到手的数据来说,会有很多不能被计算机识别的数据,这就需要对它们进行处理 LabelEncoder import pandas as pd import numpy as np # 加载数据 vg_df = pd.read_csv('datasets/vgsales.csv', encoding = ISO-8859-1) vg_df[['Name', 'Platform', 'Year', 'Genre', 'Publisher']].head() # 拿到某个特征的离散数据 genres = np.uniq
2023-01-27 14:57:10 334KB 学习 机器学习 机器学习入门
1
图像工具:创建图像数据集 图像工具可帮助您形成用于图像分类的机器学习数据集。 在Windows上下载桌面应用程序 我们使用GitHub Actions构建该应用程序的桌面版本。 如果要下载Windows版,请单击“ ,然后在“所有工作流程”下的左侧看到 。 单击Windows工作流程后,您将在屏幕中心看到构建列表。 单击结果列表中最上面的项目以获取最新版本。 单击最新版本后,您应该看到标题为“工件”的部分,其中包含名为“图像工具Windows”的项目。 当您单击此工件时,它应该为您下载包含该应用程序的zip文件! 对MacOS的支持仍在进行中。 在MacOS上运行桌面应用程序 尽管已编译的Mac应用程序由于未签名而无法运行,但是您可以在本地创建它,也可以通过Python命令行运行该应用程序。 确保您具有Python 3.7或Python 3.8。 请参阅此处的安装指南: : 将此代
2023-01-20 12:51:40 51KB Python
1
2、问题分析由于图片数据由专业人士获取,因此我们的分析主要从数据采集完成后如下五个步骤着手分析问题:①、数据转换:为了将图像数据转换为计算机能够识别的形式,通过
2023-01-19 14:56:59 3.74MB 机器学习
1
(2)利用这些特征数据去总结,学习出一个处理系统或者模型出来,使它具备水质类别划分的能力 (1)一阶颜色矩一阶颜色矩采用一阶原点矩,反映图像的整体明暗程度 (2
2023-01-19 14:48:18 895KB 机器学习
1
MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解, 下面来介绍一下. MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取, 它包含了四个部分: Training set images: train-images-idx3-ubyte.gz (9.9 MB, 解压后 47 MB, 包含 60,000 个样本) Training set labels: train-labels-idx1-ubyte.gz (29 KB, 解压后 60 KB, 包含 60,000 个标签) Test set images: t10k-images-idx3-ubyte.gz (1.6 MB, 解压后 7.8 MB, 包含 10,000 个样本) Test set labels: t10k-labels-idx1-ubyte.gz (5KB, 解压后 10 KB, 包含 10,000 个标签) MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据.
2023-01-19 11:03:17 11.06MB MNIST TENSORFLOW 机器学习
1
浙大概率论基础。浙江大学概率论基础的公开课,要好好学习机器学习的话,概率论是基础中的基础。而对于其他的算法来说,也是必不可少的。
2023-01-18 21:13:40 20.74MB 数学 概率论 机器学习
1
作者:詹姆斯·狄更斯(James Dickens),锡7118781 最终项目-CSI 5155:机器学习,Herna Viktor博士教授的课程。 这是我针对数据的二进制分类的机器学习任务的代码,该代码可从,该数据由从1994年提取的加权普查数据组成1995年由美国人口普查局进行的当前人口调查。 目标是评估五个常用的机器学习模型(包括半监督神经网络!),以对给定实例每年赚取超过50K进行分类,也就是二进制分类任务。 我的代码组织如下: Preprocess.py接收初始的census-income.data文件和census-income.test文件,然后 打印有关数据及其属性的信息 从训练数据中删除重复项 处理实例重量冲突 将缺失的值替换为其默认值 将结果写入文件:“ census-income.data/training_data_preprocess1”,“ census
2023-01-18 15:41:28 31.09MB Python
1
ExploratoryDataProject1 说明该作业使用来自UC Irvine机器学习存储库的数据,该存储库是机器学习数据集的流行存储库。 特别是,我们将使用我在课程网站上提供的“个人家庭用电量数据集”:数据集:电力消耗[20Mb]说明:测量一个家庭中一个家庭的电力消耗的方法-在近4年内的分钟采样率。 提供不同的电量和一些子计量值。 数据集中9个变量的以下描述来自UCI网站:日期:以dd / mm / yyyy格式表示的时间时间:以hh:mm:ss格式表示的时间Global_active_power:家庭全球分钟平均有功功率(以千瓦为单位) )Global_reactive_power:家庭全球平均每分钟平均无功功率(以千瓦为单位)电压:每分钟平均平均电压(以伏特为单位)Global_intensity:家庭全球每分钟的平均平均电流强度(以安培为单位)Sub_metering_1:
2023-01-17 00:28:39 22KB 系统开源
1
可以参考以下里面关于最小二乘法解包裹的内容
2023-01-16 11:23:18 3.62MB 最小二乘法 算法 机器学习 人工智能
1