联合会 cvAUC R软件包提供了一种计算有效的方法,可以估计ROC曲线(AUC)估计值下交叉验证的面积的置信区间(或方差)。 在二元分类问题中, 通常用于评估预测模型的性能。 通常,它与相结合,以评估结果如何推广到一个独立的数据集。 为了评估交叉验证的AUC估计的质量,我们获得其方差的估计。 对于海量数据集,生成单个性能估计的过程在计算上可能会很昂贵。 另外,当使用复杂的预测方法时,即使在相对较小的数据集上对验证模型进行交叉验证的过程仍然需要大量的计算时间。 因此,在许多实际情况下,是方差估计的一种计算上难以处理的方法。 作为引导程序的替代方法,可以使用基于计算效率的的方法来获得交叉验证的AUC的方差估计。 该软件包的主要功能是ci.cvAUC和ci.pooled.cvAUC ,它们报告交叉验证的AUC并分别基于和影响曲线来计算交叉验证的AUC估计的置信区间。 使用基于影响曲线的置
2022-03-19 22:32:34 101KB machine-learning r statistics cross-validation
1
Twitter情绪分析 这是一种自然语言处理问题,其中通过使用机器学习模型对消极消息中的消极消息进行归类来进行情感分析,以进行分类,文本挖掘,文本分析,数据分析和数据可视化 介绍 如今,自然语言处理(NLP)成为数据科学研究的温床,而NLP的最常见应用之一就是情感分析。 从民意测验到制定完整的营销策略,该领域已完全重塑了企业的运作方式,这就是为什么这是每个数据科学家都必须熟悉的领域。 与一组人手动完成相同任务所需的时间相比,可以在几秒钟内处理成千上万个文本文档的情感(以及其他功能,包括命名实体,主题,主题等)。 我们将按照解决一般情感分析问题所需的一系列步骤进行操作。 我们将从预处理和清理
1
核密度非参数估计的matlab代码交叉验证 在我目前的课程“数据分析和解释”中,我们的课程讲师是图像处理专家,我们已经完成了关于这个主题的几个有趣的作业,并在 MATLAB 中实现了它们。 其中之一是 PDF 估计器,我们在其中比较了各种非参数估计技术,如直方图和核密度估计,并实现了交叉验证程序,这是机器学习的一种应用。 在另一个问题中,我们获得了部分人脑的两个 {\it Magentic Resonance Images} (MRI),这些图像是通过 MRI 机器的不同设置获得的。 在将图像转换为双阵列后,我们被要求以不同的量移动第二张图像,并为每个图像计算第一张图像和第二张图像的移位版本的相关系数 (CC) 和二次互信息 (QMI)。 主要的一点是在几次绘图后意识到 QMI 是一个比 CC 强得多的指标,并分析为什么会这样。 问题陈述: 我们已经通过最大似然在课堂上广泛地看到了参数 PDF 估计。 在许多情况下, 然而,PDF 的家族是未知的。 这种情况下的估计称为非参数密度估计。 我们在课堂上研究了一种这样的技术,即直方图,我们还分析了它的比率 的收敛。 还有另一种流行的非参数密
2022-01-18 03:19:23 102KB 系统开源
1
用于查找径向基神经网络模型的网络参数的程序 MATLAB 函数“newrb”用于为给定数据集训练神经网络。 该函数的形式为 net = newrb(Y, X,goal,spread)。 传播(网络参数)将影响模型性能。 该程序可用于获得给定数据集的“传播常数”的最佳值。 获得显示交叉验证误差随扩展常数变化的箱线图。 然后,设计者可以分析该图以找出最佳的“传播常数”。
2021-11-02 22:20:55 2KB matlab
1
迭代分层 迭代分层是一个为兼容的交叉验证器提供分层的项目,用于对多标签数据进行分层。 目前,scikit-learn为多个交叉验证器提供了分层。 但是,这些交叉验证器无法对多标签数据进行分层。 此迭代分层项目提供了MultilabelStratifiedKFold,MultilabelRepeatedStratifiedKFold和MultilabelStratifiedShuffleSplit的实现,并具有用于对多标签数据进行分层的基本算法,如下文所述: Sechidis K.,Tsoumakas G.,Vlahavas I.(2011)关于多标签数据的分层。 在:Gunopulos D
1
使用学习曲线和交叉验证来评估你的模型是过拟合,欠拟合,还是刚刚好
1
大型销售预测 使用回归分析 介绍 实践问题或数据科学项目是学习数据科学的最佳方法之一。 在您自己开始解决问题之前,您不会学习数据科学。 BigMart销售预测实践问题大约一个月前就开始出现,已有624位数据科学家与77位提交数据的科学家进行了注册。 如果您发现启动困难或感到卡在某个地方,那么本文仅适合您。 今天,我将带您完成从该数据集开始的整个过程。 我希望本文将帮助越来越多的人开始他们的数据科学之旅! 假设产生: understanding the problem better by brainstorming possible factors that can impact the
1
使用fMRI数据预测各种机器学习模型和交叉验证方法的自闭症诊断 贡献者:Emily Chen,AndréanneProulx,MikkelSchöttner 该存储库包含在2020年BrainHack学校期间所做的贡献。该项目使用ABIDE数据集中的静止状态fMRI数据来训练机器学习模型,并获得了Creative Commons Zero v1.0 Universal许可。 如果您有任何疑问或意见,请随时与我们联系。 项目定义 个人背景 艾米丽 你好! 我是麦吉尔大学(即将入学)的四年级本科生,学习计算机科学和城市健康地理,辅修认知科学。 我是Zatorre实验室的Isabelle Ar
1