基于Hadoop的K-Means聚类算法优化与实现,陈萍,何健伟,本文针对传统K-Means聚类算法不适合海量大数据挖掘,并且对异常离群点数据非常敏感,结合Hadoop云计算平台以及MapReduce并行编程框架,��
2023-01-15 11:32:23 361KB K-Means算法;大数据;Hadoop;并行;
1
典型K平均算法中的聚类数k必须是事先给定的确定值,然而实际中很难精确确定,因而无法解决该核算法的实际问题。为此,提出距离代价函数作为最佳聚类数的有效性检验函数,建立了相应的数学模型,并据此提出了一种改进的k值优化算法。实验证明,与传统基于平均值方法实现数据聚类相比,用改进K值优化算法有效提高数据聚类效果。
2023-01-15 01:23:59 568KB 算法/平均聚类算法 空间数据挖掘
1
kmeans 聚类问题实例,用kmeans聚类算法将数据分成三类,实现三分类问题,并将分类结果进行储存
2023-01-14 12:19:09 2KB 机器学习
1
kmeans 分析matlab代码K均值聚类 这是K-means算法在MATLAB和Python中的简单实现 K-means 聚类是一种矢量量化方法,最初来自信号处理,在数据挖掘中流行用于聚类分析。 k-means聚类旨在将n个观测值划分为k个簇,其中每个观测值都属于具有最近均值的簇,作为簇的原型。 这导致将数据空间划分为 Voronoi 单元。 该代码实现了 K-means 算法并在一个简单的 2D 数据集上对其进行了测试。 例子 在这个例子中,我们首先从三个正态分布生成一个点数据集并标记数据集。 这个带有正确标签的数据集是我们的真实值。 然后我们重新调整标签并为新数据集运行 k-means 算法。 该算法正确地对数据集进行聚类,并估计聚类的中心。 在最后一步,我们将我们的结果与 Mathworks 实现的 k-means 的结果进行比较。 结果 我在我的机器上得到的结果如下: iteration: 1, error: 1.8122, mu1: [-0.2165 4.0360], mu2: [4.2571 0.0152], mu3: [-1.1291 -3.0925] iterati
2023-01-12 08:52:42 86KB 系统开源
1
四、最短距离聚类法 原理 最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵; 再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。 (3.4.10)
2023-01-08 23:24:15 390KB MATLAB 系统聚类分析
1
学术搜索是一种行业化的搜索引擎,因其缺乏个性化、智能化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用。本研究跨语言智能学术搜索系统的设计与实现,旨在让用户可以在尽可能短的时间内找到所需学术资源。系统的几个关键技术包括:研究混合语种文本的分词技术;研究基于机器翻译的跨语言信息检索;研究搜索结果聚类算法在不同语言文本上的性能差异问题;研究基于聚类的个性化信息检索方法以及交互式查询扩展技术。实验测试结果表明:系统具有较好的扩展性,能为用户提供良好的学术检索服务。
1
使用 PHA 方法执行快速层次聚类。 该函数将从输入距离矩阵生成层次聚类树 (Z)。 输出 Z 类似于 Matlab 函数“linkage”的输出。 [主要特征] 1.比matlab联动功能更快。 2. 对混合正态分布的集群具有出色的性能。 3. 生成系统发育树的理想工具。 [参考] 永岗路,易湾。 (2013)。 “PHA:基于快速势的分层凝聚聚类方法,”模式识别,卷。 46(5),第 1227-1239 页。
2023-01-05 14:37:23 2KB matlab
1
视频关键帧聚类方法
2023-01-04 17:17:33 8KB 关键帧
1
基于密度的聚类算法optics(matlab程序)。官方程序,亲测好用,欢迎下载。
2023-01-04 16:56:23 3KB matlab 算法 聚类 开发语言
1
CluStream算法优缺点 优点: 提出了两阶段聚类框架,算法能适应数据流快速、有序无限、单遍扫描的特点。能够发掘数据流潜在的演化特性。 缺点: 1、不能发现任意形状的簇; 2、不能很好地识别离群点; 3、对高维数据聚类质量下降;
2023-01-01 21:09:29 500KB 数据流聚类 Stream CluStream
1