大数据实验实验六：Spark初级编程实践

spark 编程语言

Spark 初级编程实践 Spark 是一个大数据处理的开源 cluster computing 框架，具有高效、灵活、可扩展等特点。本实验报告旨在通过 Spark 初级编程实践，掌握 Spark 的基本使用和编程方法。一、安装 Hadoop 和 Spark 在本机 Windows 10 上安装 Oracle VM VirtualBox 虚拟机，安装 CentOS 7 操作系统，并配置 Hadoop 3.3 环境。由于 Hadoop 版本为 3.3，所以在官网选择支持 3.3 的 Spark 安装包，解压安装包到指定文件夹，配置 spark-env.sh 文件，启动 Spark 成功。二、Spark 读取文件系统的数据 Spark 可以读取 Linux 系统本地文件和 HDFS 系统文件。在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数。在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数。编写独立应用程序（使用 Scala 语言），读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数。使用 sbt 工具将整个应用程序编译打包成 JAR 包，并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。三、编写独立应用程序实现数据去重编写 Spark 独立应用程序，对两个输入文件 A 和 B 进行合并，并剔除其中重复的内容，得到一个新文件 C。使用 Scala 语言编写程序，并使用 sbt 工具将整个应用程序编译打包成 JAR 包，并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。四、编写独立应用程序实现求平均值问题编写 Spark 独立应用程序，求出所有学生的平均成绩，并输出到一个新文件中。使用 Scala 语言编写程序，并使用 sbt 工具将整个应用程序编译打包成 JAR 包，并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。五、问题解决在实验过程中，遇到了三个问题。问题一是运行 start-all 命令时 Spark 报错说缺少依赖，解决方法是下载安装包时选择正确的版本。问题二是在 etc/profile 中更改完环境后，Source 命令刷新文件仍然出现路径配置错误，解决方法是在同一个窗口 source 一下成功启动。问题三是在用 sbt 编译的过程中报错，解决方法是将编译的 sbt 文件配置改为启动 spark-shell 中现实的 Scala 版本号。本实验报告通过对 Spark 的基本使用和编程方法的实践，掌握了 Spark 的基本使用和编程方法，并解决了实验过程中的问题。

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

大数据实验 实验六：Spark初级编程实践

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载

大数据实验实验六：Spark初级编程实践