大数据开发项目参考
2021-07-16 18:08:27 259KB 大数据开发项目
1
上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 本课程主要讲解的内容包括:Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优、Spark SQL、Spark Streaming。 本课程的最大特色包括: 1、代码驱动讲解Spark的各个技术点(绝对不是照着PPT空讲理论); 2、现场动手画图讲解Spark原理以及源码(绝对不是干讲源码和PPT); 3、覆盖Spark所有功能点(Spark RDD、Spark SQL、Spark Streaming,初级功能到高级特性,一个不少); 4、Scala全程案例实战讲解(近百个趣味性案例); 5、Spark案例实战的代码,几乎都提供了Java和Scala两个版本和讲解(一次性同时精通Java和Scala开发Spark); 6、大量全网唯一的知识点:基于排序的wordcount,Spark二次排序,Spark分组取topn,DataFrame与RDD的两种转换方式,Spark SQL的内置函数、开窗函数、UDF、UDAF,Spark Streaming的Kafka Direct API、updateStateByKey、transform、滑动窗口、foreachRDD性能优化、与Spark SQL整合使用、持久化、checkpoint、容错与事务。 7、多个从企业实际需求抽取出的复杂案例实战:每日uv和销售额统计案例、top3热卖商品统计案例、每日top3热点搜索词统计、广告计费日志实时黑名单过滤案例、热点搜索词滑动统 计案例、top3热门商品实时统计案例 8、深度剖析Spark内核源码与Spark Streaming源码,给源码进行详细的注释和讲解(史上最细致源码讲解) 9、全面讲解Spark、Spark SQL、Spark Streaming的性能调优,其中包括全网唯一的Shuffle性能调优(详细讲解性能调优的各个技术点) 10、涵盖Spark两个重要版本,Spark 1.3.0和Spark 1.5.1的讲解(走在Spark最前沿,涵盖最新高级特性) 一、Scala编程详解 二、课程环境搭建 三、Spark核心编程 四、Spark内核源码深度剖析 五、Spark性能优化 六、Spark SQL 七、Spark Streaming
2021-07-15 09:10:24 75B spark sparkSQL sparkStreaming 大数据开发
第二阶段模块开发训练: 1)网络数据采集,使用requests或者scrapy爬取数据(不能使用我案例中爬取的页面),存储到一个文本文件(文件命名为:姓名-学号-数据源文件.txt)中。 2)使用Spark RDD或者Spark Sql,读取“姓名-学号-数据源文件.txt”内容,对某一个字段的数据进行统计,获得词频前10的字段数据。把结果放在一个文本文件里面,命名为:姓名-学号-排行结果.txt 不能爬取下面2个网页内容,可以爬取其网站的其他网页内容 http://www.yingjiesheng.com/commend-fulltime-{}.html https://www.bilibili.com/v/popular/rank/all 要求: 1)7月15号21:00前提交作业 2)提交的作业为:爬虫项目+处理数据项目+姓名-学号-数据源文件.txt+姓名-学号-排行结果.txt四个内容放在一个文件夹里面打包,命名为:姓名-学号-第二阶段作业.rar(或者zip),然后发给我。可以发邮件+私聊窗口(21:00前有效)
2021-07-14 22:06:39 3KB python spark 爬虫
适合新手学习hadoop入门使用 其他地方也能下载到 但是页面布局是乱的 这是我下载之后进行了修改 带目录而且页也已经整理过了 但愿更多的人有用 积分我不能改 默认就是5分不可修改 我也不知道为什么不可编辑
2021-06-30 15:00:16 216.94MB hadoop 大数据 入门 基础
1
互联网+旅游:基于大数据开发下的智慧景区产品,精品一级
2021-06-28 09:02:48 18.8MB 智慧旅游 智慧景区
GUI 界面,用户体验感更好 将可变的部分抽离出来,用户可以自己换数据体验 操作区域 - 提供更换数据操作和查询、保存、绘制等操作 结果区域 - 展示 table 以及 获取的数量等 控制台区域 - 显示运行过程中的一些提示信息以及报错信息
2021-06-24 17:04:36 27KB PyQt5 股票查询 GUI
大数据开发英语单词大全.xlsx
2021-06-16 09:09:46 92KB 大数据
1
本资源是《Hadoop大数据开发基础》配套资源,包含源数据和代码。 本书是对Hadoop大数据技术从入门到应用的简明系统教程,包括Hadoop基本原理与架构、集群安装配置、MadReduce编程、完整项目案例等精选内容。涉及的知识点简要精到,实践操作性强,使用本书能有效指导读者对Hadoop大数据技术的学习理解及开发应用。本书采用了以任务为导向的教学模式,按照解决实际任务的工作路线,逐步展开学习相关的理论知识点,推导生成可行的解决方案,最后实现任务。全书紧扣任务需求展开,不堆积知识点,有助于读者对大数据技术真正的理解与消化。 如果分享链接失效,请留言告知,会尽快补上。
2021-06-08 15:25:29 69B 大数据 Hadoop 配套资源 MadReuce
1
上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 大数据企业级项目用户画像实战从0手把手设计、开发教学,实现用户标签化,精准定位与营销 第一章用户画像概念讲解,项目及环境构建 第二章数据ETL迁移、标签模型Oozie调度、标签存储与计算 第三章标签模型开发、规则匹配引擎 第四章SparkSQL开发、外部数据源配置、Hbase应用、统计开发 第五章Hbase条件过滤、数据条件动态过滤动态加载、推荐系统入门(协同过滤算法讲解CF、使用ALS实现) 第六章机器学习快速入门及应用 第七章数据挖掘标签开发(Kmens算法) 第八章算法模型调优、RFE、PSM标签开发 第九章USG标签开发 第十章多数据源配置、用户商品推荐、标签索引化(ES)、用户画像项目总结