算法优缺点: 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 使用数据类型:数值型数据 算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的,相近的就会放到同一个类别中去。 1.首先我们需要选择一个k值,也就是我们希望把数据分成多少类,这里k值的选择对结果的影响很大,Ng的课说的选择方法有两种一种是elbow method,简单的说就是根据聚类的结果和k的函数关系判断k为多少的时候效果最好。另一种则是根据具体的需求确定,比如说进行衬衫尺寸的聚类你可能就会考虑分成三类(L,M,S)等 2.然后我们需要选择最初的聚类点(或者叫质心),这里的
2021-11-19 12:27:21 250KB k-means k-means算法 k均值聚类算法
1
MPI集群 K-Means算法的顺序和并行实现,数据集为数据点,DNA链为输入,K为质心
2021-11-18 22:57:50 351KB Java
1
使用C语言对传统K-means聚类算法进行了实现,内含较多注释。
2021-11-17 09:04:04 4KB k-means C
1
针对传统K-means算法易受初始聚类中心和异常数据的影响等缺陷,利用萤火虫优化算法全局搜索能力强、收敛速度快的优势,对K-means算法的初始聚类中心进行优化,并通过引用一种加权的欧氏距离,减少异常数据等不确定因素带来的不良影响,提出了一种基于萤火虫优化的加权K-means算法。该算法在提升聚类性能的同时,有效增强了算法的收敛速度。在实验阶段,通过UCI数据集中的几组数据对该算法进行了聚类实验及有效性测试,实验结果充分表明了该算法的有效性及优越性。
2021-11-15 15:38:43 1.72MB 加权K-means 聚类 萤火虫算法
1
K-Means和K-Means++算法的数据集。包含了两个特征的数据集,分别为XOY坐标轴中的X坐标和Y坐标。不带有类别标签。
2021-11-10 14:15:13 1KB 数据集
1
Users_Clustering 根据用户的行为模型,使用k-means算法对用户进行聚类
2021-11-09 18:57:29 21KB Python
1
k-means聚类算法 k-means是发现给定数据集的k个簇的算法,也就是将数据集聚合为k类的算法。 算法过程如下: 1)从N个文档随机选取K个文档作为质心 2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类,我们一般取欧几里得距离 3)重新计算已经得到的各个类的质心 4)迭代步骤(2)、(3)直至新的质心与原质心相等或迭代次数大于指定阈值,算法结束 算法实现 随机初始化k个质心,用dict保存质心的值以及被聚类到该簇中的所有data。 def initCent(dataSet , k): N = shape(dataSet)[1] cents = {} ran
2021-10-29 10:10:10 73KB k-means k-means算法 mean
1
附带了150个4维数据,300个9维数据,68040个9维和16维数据,以文件的方式输出结果。
2021-10-28 15:24:49 6.2MB K_MEANS 多维数据
1
聚类是用于提取有用信息的最重要的数据挖掘技术之一来自微阵列数据。 微阵列数据集可以按样品或基因聚类。 在这研究我们专注于基因聚类问题。 基因聚类的目的是将基因分组相似的表达模式以及共同的信念,即这些基因通常具有相似的功能, 参与特定途径或对共同环境刺激的React。 虽然数百聚类算法存在,非常简单的 K-means 及其变体仍然是最广泛的生物学家和从业者使用的基因聚类算法。 这个令人惊讶的事实可能归因于其特别易于实施和使用。 当微阵列数据归一化为零均值和单位范数时,使用归一化数据的 K 均值算法的变体将更合适。 由于数据点位于单位超球面上,因此该算法称为球面 K 均值算法 (SPK-means)。
2021-10-25 14:33:09 3KB matlab
1
实现了把n个二维向量聚类,聚成m个部分,仅供参考。
2021-10-21 18:38:17 3KB K-means
1