使用协同过滤算法计算用户偏好,用了多个MapReduce处理该业务,每次生成的文件存储在集群上,最后实现JobContorl,并将所需数据存储到mysql中
2021-04-11 16:57:28 188KB hadoop 协同过滤 hdfs MapReduce
1
大数据技术的两个基本要点是分布式存储和多点并行运算,Hadoop的分布式文件系统HDFS和并行运算框架Hadoop MapReduce分别予以了实现。计算机集群中的每个节点既是存储节点,也是运算节点,HDFS将大数据文件分布存储在集群中的各个节点,并通过MapReduce编程框架将用户定义的算法“输送”至各数据节点执行运算。实现了更广泛更灵活的运算与存储资源的调度。
2021-04-11 16:16:29 682KB HADOOP
1
针对用电数据量大、用电数据挖掘效率低等问题,采用理论分析和实验的方法,进行用电数据并行分析构架的研究,研究了Canopy和K-means两种典型的聚类算法,提出一种新的聚类思路,使用Canopy先对用电数据进行粗略处理,得到聚类个数和聚类中心,再用K-means精确聚类,既利用了K-means算法简单、收敛速度快的优势,又使其不容易陷入局部最优.为达到处理海量数据的目的,把提出的算法部署到MapReduce框架上进行实验.研究结果表明:提出的算法在海量用电数据的处理方面高效可行,并且具有良好的加速比.
1
这个资源用来打包eclipse插件,进而进行mapreduce程序的开发
2021-04-11 11:18:46 22.80MB hadooop mapreduce plugin
1
美国新冠疫情MR案例数据集
2021-04-01 16:00:20 33.77MB mapreduce
1
内涵三篇谷歌发表的中文版大数据起源之Hadoop论文,Google-Bigtable中文版_1.0,Google-File-System中文版_1.0,Google-MapReduce中文版_1.0
1
hadoop安装与配置及mapreduce测试网站
2021-03-31 16:45:36 49KB hadoop mapreduce ubuntu jobtracker
1
Google有名的关于云计算领域的三篇经典论文,及对应中文翻译文档,都集中在一起
2021-03-30 13:24:49 2.93MB GFS BigTable MapReduce
1
google 分布式三大奠基理论之一
2021-03-29 20:14:18 263KB 分布式计算
1
google早期的大数据论文 主要介绍google-bigtable google-file-sysytem google-mapreduce 尽管其中有些技术已经过时,但读完后很有启发,码
2021-03-29 12:19:29 2.72MB 大数据 mapreduce google
1