在DigitalOcean上使用Docker Swarm运行Spark 想学习如何构建它吗? 查看。 要使用这个项目吗? 货叉/克隆 Digital Ocean并访问令牌 将令牌添加到您的环境中: $ export DIGITAL_OCEAN_ACCESS_TOKEN=[your_token] 启动三个Droplet并部署Docker Swarm: $ sh scripts/create.sh 运行脚本: $ sh scripts/run.sh 减少资源: $ sh scripts/destroy.sh
2022-05-21 22:53:33 5KB docker spark apache-spark docker-swarm
1
sqoop-1.4.6.bin__hadoop-0.23.tar.gz
2022-05-21 20:46:10 16.09MB sqoop
1
完整的Hadoop jar包,解压直接用。
2022-05-21 18:04:23 82.35MB Hadoop Hadoop jar
1
windows系统下eclipse集成hadoop,spark,hive开发环境
2022-05-21 14:10:15 11KB eclipse hadoop spark sql
1
Hadoop平台在云计算中的应用.pdf
2022-05-21 14:06:04 579KB hadoop 云计算 大数据 big
Hadoop云计算平台的研究及实现.pdf
2022-05-21 14:06:04 1.31MB hadoop 云计算 文档资料 大数据
第3章 Hadoop 2 3.1. 简介 2 3.1.1. 概述 2 3.2. 环境搭建 2 3.2.1. 搭建过程总览 2 3.2.2. 集群规划 3 3.2.3. 电脑虚拟网卡VMnet8设置 3 3.2.4. 克隆机器 5 3.2.5. 设置三台虚拟机的硬盘至少为30G,内存至少为2G 7 3.2.6. 虚拟机网络模式设置为NAT 8 3.2.7. 设置静态IP 8 3.2.8. 修改主机名 9 3.2.9. 设置ip和域名的映射 10 3.2.10. 重启虚拟机让设置生效 10 3.2.11. 第二台和第三台虚拟机重复以上设置 10 3.2.12. 三台机器拍摄快照 10 3.2.13. 三台虚拟机关闭防火墙 11 3.2.14. 三台虚拟机关闭selinux 13 3.2.15. 三台虚拟机设置免密登陆 14 3.2.16. 三台虚拟机设置时钟同步 16 3.2.17. 安装jdk 18 3.2.18. 配置hadoop集群 22 3.3. 常见错误解决方法 36 3.3.1. 查看日志 36 3.3.2. 无法启动hadoop集群的检查方法 37 3.3.3. 执行jps
2022-05-21 12:04:42 4.93MB hadoop
1
项目主要内容: 1.采用Hadoop作为分布式文件文件系统存储数据 2.基于 TensorFlow 复现论文 PNN、DeepFM 3.搭建推荐系统架构,召回、过滤、精排阶段 4.使用 SparkStreaming 进行流计算,不断将用户行为反馈给模型进行计算,提供 下一次推荐服务 5.使用 SparkStreaming 对接 Kafka 源,消费 Kafka 中的实时用户行为数据 6.使用 PNN、DeepFM 进行 CTR 点击评估 目前,几大互联网厂商例如腾讯、百度、阿里已陆续开始使用推荐系统,因为在海量数据的今天,人们已经无法看清自己真正的喜好,所以推荐系统应运而生,像现在快手、抖音等平台都陆续开始引进推荐系统,这些厂商会收集大量用户的观看行为,例如点赞、评论、收藏以及视频观看时间等,基于这些数据会对用户进行分析,帮助用户进行定位自身的兴趣所在,然后基于大数据平台帮助用户拿到它们想要的视频,而且包括百度,它们正在使用广告推荐这种,当我们在搜索引擎中搜索一些关键词时,它们将会根据 query 进行分析进而将一些广告商进行关联,然后在首页为用户推荐一些广告进而增加广告的点击量。
2022-05-21 09:09:08 76.41MB hadoop spark 数据分析 推荐系统
网上搜集的3本spark书籍: Spark快速大数据分析 大数据Spark企业级实战版 深入理解Spark 核心思想与源码分析
2022-05-20 20:48:30 122.05MB spark
1
Spark相关论文资料 (机器学习、数据挖掘、文本分析、推荐系统)
2022-05-20 19:59:46 63.61MB Spark 论文
1