pyHSICLasso pyHSICLasso是希尔伯特·施密特(Hilbert Schmidt)独立标准套索(HSIC Lasso)的软件包,这是一种考虑了非线性输入和输出关系的黑匣子(非线性)特征选择方法。 HSIC Lasso可以看作是广泛使用的最小冗余最大相关性(mRMR)特征选择算法的凸变体。 HSIC套索的优势 可以有效地找到与非线性相关的特征。 可以找到非冗余功能。 可以获得全局最优的解决方案。 可以通过内核处理回归和分类问题。 功能选择 监督性特征选择的目标是找到负责预测输出值的输入特征子集。 通过使用它,您可以补充非线性输入和输出的依赖性,并且可以有效地计算高维问题的最优解。 通过针对数以千计的特征进行分类和回归的特征选择实验证明了其有效性。 在许多实际应用中,例如从微阵列数据中选择基因,文档分类和假体控制,在高维监督学习中寻找功能的子集是一个重要的问题。 安装
1
高维数据课程PPT
2022-03-25 14:49:38 24.12MB 高维数据分析
1
高维数据能充分表达复杂事物的信息,但高维数据自身表达和处理复杂,妨碍了它的实际应用。阐述了用降维算法和构建索引结构来解决高维数据降维问题。以数据对象变异最大方向的投影作为特定数据对象集的主成份,将聚类分析引入高校数据资源的预处理环节,实现了数据对象集合的聚类归约。给出应用实例,为深入探索相关模式提供有效的分析方法。
2022-03-08 22:11:24 302KB 高维数据
1
一种基于MDS的高维数据降维与可视化方法 ,任珂,马志强,降维与可视化是分析高维数据的有效手段。传统数据降维技术计算效率低,准确性较差,无法帮助分析者更深入理解和认识数据。因此,
2022-01-22 15:35:04 683KB 高维数据
1
一种面向高维数据的DS-ALasso变量选择方法,邱建荣,罗汉,变量选择是高维数据分析的重要环节,Laaso方法不具有Oracle性质且存在在处理维数大于样本量的数据结构时只能选取个变量的缺点,为解�
2022-01-09 01:09:56 190KB 首发论文
1
变量相关情况下高维数据变量选择方法,段乾鹏,郑少智,当变量之间具有较强相关性时,单个惩罚函数的变量选择方法效果会大大降低。文章提出组合惩罚的系数的拉普拉斯收缩变量选择方法,
2022-01-08 22:56:52 923KB 首发论文
1
Lasso方法与其他特征选择一样,对高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟合)。为解决此问题,提出一种改进的Lasso方法:迭代式Lasso方法。迭代式Lasso方法首先将特征集分成K份,对第一份特征子集进行特征提取,将所得特征加入第二份,再对第二份特征进行特征提取;然后将所得特征加入第三份,依次迭代下去,直到第K份,得到最终特征子集。实验表明,迭代式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法。目前,此方法已经很好地应用在高维海量和高维小样本数据的分类或预测模型中。
2021-12-08 17:49:09 220KB Lasso;特征选择;迭代式Lasso
1
传统上,葡萄栽培者对研究葡萄叶/叶柄的生物化学与其相关光谱反射率之间的关系具有浓厚的兴趣,以便了解果实的成熟率,水分状况,营养水平和疾病风险。 在本文中,我们对330至2510 nm的反射波长区域(986个总光谱带)实施成像光谱(高光谱)反射率数据,以评估葡萄园的营养状况。 这构成了带有病态协方差矩阵的高维数据集。 对有助于营养评估和预测的有用信息的变量(波段)的识别在多元统计建模中起着关键作用。 近年来,研究人员已成功开发出许多连续的,几乎无偏的,稀疏且准确的变量选择方法来克服此问题。 本文比较了四种正则化和一种功能回归方法:弹性网,多步自适应弹性网,Minimax凹面惩罚,迭代确定性独立筛选以及用于波长变量选择的功能数据分析。 此后,使用逐步回归可增强这些正则化稀疏模型的预测性能。 使用高维和高度相关的葡萄高光谱数据集进行回归方法的比较研究表明,Elastic Net用于变量选择的性能产生了最佳的预测能力。
1
稀疏子空间聚类(Sparse subspace clustering,SSC)是一种基于谱聚类的数据聚类框架.高维数据通常分布于若干个低维子空间的并上,因此高维数据在适当字典下的表示具有稀疏性.稀疏子空间聚类利用高维数据的稀疏表示系数构造相似度矩阵,然后利用谱聚类方法得到数据的子空间聚类结果.其核心是设计能够揭示高维数据真实子空间结构的表示模型,使得到的表示系数及由此构造的相似度矩阵有助于精确的子空间聚类.稀疏子空间聚类在机器学习、计算机视觉、图像处理和模式识别等领域已经得到了广泛的研究和应用,但仍有很大的发展空间.本文对已有稀疏子空间聚类方法的模型、算法和应用等方面进行详细阐述,并分析存在的不足,指出进一步研究的方向.
1
Lasso方法与其他特征选择一样,对高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟合)。为解决此问题,提出一种改进的Lasso方法:迭代式Lasso方法。迭代式Lasso方法首先将特征集分成K份,对第一份特征子集进行特征提取,将所得特征加入第二份,再对第二份特征进行特征提取;然后将所得特征加入第三份,依次迭代下去,直到第K份,得到最终特征子集。实验表明,迭代式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法。目前,此方法已经很好地应用在高维海量和高维小样本数据的分类或预测模型中。
2021-10-15 19:52:18 220KB Lasso 特征选择 迭代式Lasso
1