Hadoop、Hive、Spark 实验 本实验报告主要介绍了 Hadoop、Hive、Spark 等大数据技术的应用和实践。实验中,学生需要使用 Hadoop、Hive、Spark 等环境,完成大数据开发和分析,并对拍卖成功率进行预测。 知识点: 1. Hadoop 伪分布安装部署:在 Centos 7.5 系统上安装 Hadoop 2.7.3,并配置免密钥登陆和主机名映射。 2. Hadoop 完全分布式安装部署:在多台机器上安装 Hadoop,实现分布式存储和计算。 3. Hadoop 常用命令:学习 Hadoop 的基本命令,例如启动 Hadoop 集群、查看相关进程、查看 HDFS 上文件目录、递归列出目录及文件、删除文件等。 4. HDFS:学习 HDFS 的基本概念和 API 使用,例如使用 IOUtils 方式读取文件、文件创建与写入等。 5. MapReduce 编程:学习 MapReduce 编程模型,例如单词计数、数据过滤及保存等。 6. Hive 环境搭建:学习 Hive 的基本概念和使用,例如创建 Hive 表、加载数据、执行查询等。 7. Spark 环境搭建:学习 Spark 的基本概念和使用,例如创建 Spark 程序、加载数据、执行查询等。 8. 逻辑回归和决策树预测:学习逻辑回归和决策树算法,用于预测拍卖成功率。 实验设备和环境: * 虚拟机数量:1 * 系统版本:Centos 7.5 * Hadoop 版本:Apache Hadoop 2.7.3 * Hive 版本:未指定 * Spark 版本:未指定 实验步骤: 1. 安装 Javajdk 1.8.0_131,并测试版本 2. 增加主机名和 ip 的映射 3. 配置免密钥登陆 4. 启动 Hadoop 集群,并查看节点(进程) 5. 运行 PI 实例,并查看结果 6. 实现 Hadoop 伪分布安装部署 7. 实现 Hadoop 完全分布式安装部署 8. 实现 HDFS 的基本操作,例如文件创建与写入、文件上传下载等 9. 实现 MapReduce 编程,例如单词计数、数据过滤及保存等 10. 实现 Hive 环境搭建和使用 11. 实现 Spark 环境搭建和使用 12. 实现逻辑回归和决策树预测拍卖成功率 本实验报告介绍了 Hadoop、Hive、Spark 等大数据技术的应用和实践,涉及到大数据开发、存储、计算和分析等多个方面。
2025-09-25 14:09:25 5.43MB hive hadoop spark 数据仓库
1
大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip
2022-12-13 14:24:29 1.02MB 大数据技术课程 Spark大作业 Spark实验
spark实验1:linux系统的安装和常用命令
2022-11-04 18:06:16 312KB 实验报告
1
实验三 RDD编程初级实践 1 实验目的 (1)熟悉Spark的RDD基本操作及键值对操作 (2)熟悉使用RDD编程解决实际具体问题的方法 2 实验平台 Ubantu16.04、Spark-2.1.0 3 实验要求 (1)掌握连接操作 (2)掌握spark-shell交互式编程 (3)编写独立应用程序实现数据去重 (4)编写独立用用程序实现求平均值问题 4 实验内容和步骤(操作结果要附图) 一、连接操作 二、Spark-shell交互编程 三、数据去重 四、求平均值 5 实验总结 通过本次实验,我了解了如何使用RDD编程解决实际问题,并熟悉RDD的基本操作以及键值对操作和用法。注意在求平均值问题中,要注意avg.scala
2022-09-23 09:06:31 6MB spark RDD
1
实验二 Scala编程初级实践 1 实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构 2.掌握面向对象编程的基础知识,能够编写自定义类和特质 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉Scala的容器类库的基本层次结构,熟练使用常用的容器类进行数据 4.熟练掌握 Scala的REPL运行模式和编译运行方法 2 实验平台 Scala 环境 3 实验要求 1. 计算级数 2. 统计学生成绩 4 实验内容和步骤(操作结果要附图) 一、计算级数 1.脚本方式编程 2.RELP模式运行 二、统计学生成绩 5 实验总结 通过本次实验,我了解了如何使用Scala编程实验,可以在REPL模式下编译运行代码,在命
2022-09-23 09:06:30 1.55MB spark scala
1
实验四 Spark SQL编程初级实践 1 实验目的 (1)通过实验掌握Spark SQL的基本编程方法 (2)熟悉RDD到DataFrame的转化方法 (3)熟悉利用Spark SQL管理来自不同数据源的数据 2 实验平台 操作系统:Ubuntu16.04 Spark:2.4.0 数据库:MySQL 3 实验要求 1.Spark SQL基本操作 2.编程实现将RDD转换为DataFrame 3.编程实现利用DataFrame读写MySQL的数据 4 实验内容和步骤(操作结果要附图) 一、Spark SQL基本操作 二、编程实现将RDD转换为DataFrame 三、编程实现利用DataFrame读写MySQL的数据 5 实验总结 通过本次实验我了解了Spark SQL的基本编程方法,RDD转换成DataFrame有两种方式,一种是利用反
2022-09-23 09:06:29 1.96MB spark SparkSQL
1
实验一 Spark和Hadoop的安装 1 实验目的 1.掌握Spark和Hadoop的安装 2.掌握spark-shell命令 3.了解编写Spark应用程序代码 4.掌握Maven对Scala程序的编译 2 实验平台 Hadoop-2.7.1、Spark-2.1.0 3 实验要求 1.安装Hadoop和Spark 2.掌握Maven对Scala程序的编译 4 实验内容和步骤(操作结果要附图) 一、安装Hadoop和Spark 二、Maven对Scala程序编译 5 实验总结 通过本次试验,我了解了如何安装Hadoop和Spark、Maven,并为Hadoop和Spar
2022-09-23 09:06:28 4.05MB spark hadoop
1
实验五 Spark Streaming编程初级实践 1 实验目的 (1)实现文件流输入 (2)实现RDD队列流输入 (3)实现套接字流输入到mysql (4)实现kafka和Flume的安装以及将结果写入MySQL 2 实验平台 操作系统:Ubuntu16.04 数据库:MySQL Spark:2.4.0 Kafka:2.11 Flume:1.7.0 3 实验要求 1.文件流输入 2.RDD队列流输入 3.套接字流输入 4.kafka和Flume将结果写入MySQL 4 实验内容和步骤(操作结果要附图) 一、文件流输入 二、RDD队列流输入 三、套接字流 四、kafka和Flume将结果写入MySQL 5 实验总结
2022-09-23 09:06:27 3.52MB SparkStreaming
1
大数据spark实验报告包含实验过程
2022-05-13 09:06:36 9.2MB big data spark 文档资料
1
spark实验5 rdd编程2.doc
2021-11-13 12:18:30 642KB spark
1