基于大数据背景下海量数据人们无法理解,聚类效率低下等问题,采用MapReduce编程模型将Canopy聚类算法和K-means聚类算法在云环境中相结合,使之能够充分利用Hadoop集群的计算和存储能力。以淘宝网上海量的购买用户聚类作为应用背景,通过使用Hadoop平台的数据挖掘组件Mahout对用户聚类进行了实例研究,并给出了使用Mahout进行挖掘的一般步骤。结果表明,基于MapReduce的聚类算法在大规模数据集上具有较好的聚类质量和运行速度。
2021-01-28 02:33:34 1.3MB Hadoop;MapReduce;聚类算法;Mahout
1
项目包含python爬虫,Matplotlib、Echarts数据可视化、Mapreduce、hive数据统计、情感分析、词图云、电影票房与评分预测。
2020-12-15 20:05:15 8.22MB python hive mapreduce 数据可视化
1
该文档的目录如下: 1.1实验目的 1.2实验环境 V 1.3实验步骤 1.3.1安装eclipse 1.3.2安装Hadoop- Eclipse Plugin 1.3.3配置Hadoop-Eclipse Plugin 1.3.4在Eclipse 中操作HDFS中的文件 1.3.5在Eclipse 中创建MapReduce项目 附:查看HDFS文件系统数据的三种方法
2020-04-22 03:10:56 1.34MB hadoop MapReduce
1
介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。
2020-01-24 03:08:31 65KB MapReduce
1
eclipse上运行mapreduce时需要这两个工具
2020-01-12 03:15:26 266KB eclipse mapreduce
1
基于搜狗查询数据500w条使用MapReduce做数据清洗,hive做离线分析的项目,详细文档附数据连接,搜狗实验室的搜索数据下载后缺少了用户ID字段的数据,所以本分析采用的是完整的数据,大家可以放心下载,如果下载数据的百度云链接失效无法下载,大家可以给我留言。
2020-01-04 03:14:55 3.28MB hive hadoop MapReduce 大数据离线分析项目
1
java操作hadoop之mapreduce分析年气象数据最低温度实战源码,附带所需jar包,欢迎学习。
2020-01-03 11:30:00 35.64MB hadoop实战
1
在hadoop平台上,用mapreduce编程实现大数据的词频统计
2020-01-03 11:28:40 5KB 大数据 hadoop mapreduce
1
该文件是用于MapReduce分析年气象数据用源代码打成的jar包,虽然名字为MaxTemperature,但里面也包含了MinTemperature的程序。所以可以求取每年的最大值和最小值。
2020-01-03 11:20:56 16.11MB MapReduce MaxTemperatu MinTemperatu
1
java项目 基于Hadoop对网站日志数据分析 使用MapReduce框架进行分析,并包含150M的网站日志数据
2019-12-21 22:26:27 81.98MB java Hadoop 日志数据 MapReduce
1