随机森林算法及优化.pptx

上传者: z1171456414 | 上传时间: 2021-04-17 09:08:03 | 文件大小: 1.07MB | 文件类型: PPTX
随机森林算法及优化 随机森林算法是一种机器学习算法,它通过组合多棵决策树来提高模型的泛化能力和鲁棒性。该算法由Leo Breiman于2001年提出,通过自助法(bootstrap)重采样技术,从原始训练样本集生成新的训练样本集合,然后根据自助样本集生成多棵决策树,组成随机森林。每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。 特征选择是随机森林算法中一个重要的步骤,它的目的是选择尽可能少的子特征,使模型的效果不会显著下降,并且结果的类别分布尽可能的接近真实的类别分布。特征选择主要包括四个过程:生成过程、评价函数、停止条件和验证过程。生成过程是生成候选的特征子集,评价函数是评价特征子集的好坏,停止条件是决定什么时候该停止,验证过程是特征子集是否有效。 随机森林算法的优点包括: 1. 能够处理很高维度的数据,并且不需要做特征选择。 2. 对数据集的适应能力强,既能处理离散型数据,也能处理连续型数据,数据集无需规范化在训练过程中。 3. 能够检测到feature间的互相影响。 4. 训练速度快,可以得到变量重要性排序。 随机森林算法的缺点包括: 1. 计算复杂度高。 2. 需要大量的计算资源。 随机森林算法的优化策略包括: 1. 计算传统模型准确率。 2. 计算设定树木颗数时最佳树深度,以最佳深度重新生成随机森林。 3. 计算新生成森林中每棵树的AUC,选取AUC靠前的树。 4. 通过计算各个树的数据相似度,排除相似度超过设定值且AUC较小的树。 5. 计算最终的准确率。 特征选择算法可以分为以下步骤: 1. 将数据集分成n份,方便交叉验证。 2. 构造数据子集(随机采样),并在指定特征个数(假设m个,手动调参)下选取最优特征。 3. 导入文件并将所有特征转换为float形式。 4. 构造决策树,创建随机森林(多个决策树的结合)。 5. 输入测试集并进行测试,输出预测结果。 python实现随机森林算法的优化,主要包括以下步骤: 1. 建立一棵CART树,试探分枝。 2. 计算基尼指数。 3. 二分类执行两次,相当于*2。 随机森林算法是一种强大的机器学习算法,通过组合多棵决策树来提高模型的泛化能力和鲁棒性。它能够处理很高维度的数据,并且不需要做特征选择,对数据集的适应能力强,能够检测到feature间的互相影响,训练速度快,可以得到变量重要性排序。但是,随机森林算法的计算复杂度高,需要大量的计算资源。因此,需要选择合适的优化策略来提高模型的准确率。

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明