上传者: ADEXOM
|
上传时间: 2025-06-08 15:55:11
|
文件大小: 913KB
|
文件类型: DOCX
Spark 初级编程实践
Spark 是一个大数据处理的开源 cluster computing 框架,具有高效、灵活、可扩展等特点。本实验报告旨在通过 Spark 初级编程实践,掌握 Spark 的基本使用和编程方法。
一、安装 Hadoop 和 Spark
在本机 Windows 10 上安装 Oracle VM VirtualBox 虚拟机,安装 CentOS 7 操作系统,并配置 Hadoop 3.3 环境。由于 Hadoop 版本为 3.3,所以在官网选择支持 3.3 的 Spark 安装包,解压安装包到指定文件夹,配置 spark-env.sh 文件,启动 Spark 成功。
二、Spark 读取文件系统的数据
Spark 可以读取 Linux 系统本地文件和 HDFS 系统文件。在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数。在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数。编写独立应用程序(使用 Scala 语言),读取 HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数。使用 sbt 工具将整个应用程序编译打包成 JAR 包,并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。
三、编写独立应用程序实现数据去重
编写 Spark 独立应用程序,对两个输入文件 A 和 B 进行合并,并剔除其中重复的内容,得到一个新文件 C。使用 Scala 语言编写程序,并使用 sbt 工具将整个应用程序编译打包成 JAR 包,并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。
四、编写独立应用程序实现求平均值问题
编写 Spark 独立应用程序,求出所有学生的平均成绩,并输出到一个新文件中。使用 Scala 语言编写程序,并使用 sbt 工具将整个应用程序编译打包成 JAR 包,并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。
五、问题解决
在实验过程中,遇到了三个问题。问题一是运行 start-all 命令时 Spark 报错说缺少依赖,解决方法是下载安装包时选择正确的版本。问题二是在 etc/profile 中更改完环境后,Source 命令刷新文件仍然出现路径配置错误,解决方法是在同一个窗口 source 一下成功启动。问题三是在用 sbt 编译的过程中报错,解决方法是将编译的 sbt 文件配置改为启动 spark-shell 中现实的 Scala 版本号。
本实验报告通过对 Spark 的基本使用和编程方法的实践,掌握了 Spark 的基本使用和编程方法,并解决了实验过程中的问题。