一、实验目的 1. 理解Hive作为数据仓库在Hadoop体系结构中的角色。 2. 熟练使用常用的HiveQL。 二、实验平台 1. 操作系统:Ubuntu18.04(或Ubuntu16.04)。 2. Hadoop版本:3.1.3。 3. Hive版本:3.1.2。 4. JDK版本:1.8。 三、数据集 由《Hive编程指南》(O'Reilly系列,人民邮电出版社)提供,下载地址: https://raw.githubusercontent.com/oreillymedia/programming_hive/master/prog-hive-1st-ed-data.zip 备用下载地址: https://www.cocobolo.top/FileServer/prog-hive-1st-ed-data.zip 解压后可以得到本实验所需的stocks.csv和dividends.csv两个文件。 在大数据处理领域,Hive是一种基于Hadoop的数据仓库工具,它允许用户使用SQL类的语言(称为HiveQL)对大规模数据进行分析和处理。在这个实验中,我们将深入理解Hive的角色以及如何执行基本操作。 Hive在Hadoop生态系统中的角色是作为一个数据仓库接口,它简化了对分布式存储的大数据进行查询和分析的过程。Hive将复杂的MapReduce任务转化为简单的SQL查询,使得非Java背景的分析师也能轻松地处理大数据。 实验平台包括Ubuntu操作系统、Hadoop 3.1.3、Hive 3.1.2和JDK 1.8。这些组件共同构成了一个支持大数据处理的基础架构。 实验主要分为以下几个步骤: 1. 创建内部表`stocks`,它包含了关于股票交易的信息,如交易所、股票代码、交易日期、开盘价、最高价、最低价、收盘价、交易量和调整后的收盘价。内部表的数据存储在HDFS上,由Hive完全管理。 2. 创建一个外部分区表`dividends`,该表用于存储股息信息,包括交易日期、股息金额、交易所和股票代码。分区表的好处在于可以根据分区字段快速定位数据,提高查询效率。 3. 导入数据到`stocks`表,这是通过LOAD DATA命令实现的,将csv文件的数据加载到Hive表中。 4. 创建未分区的外部表`dividends_unpartitioned`,然后从csv文件导入数据。外部表的元数据由Hive管理,但数据本身的位置由用户指定,这使得数据可以独立于Hive存在。 5. 利用Hive的自动分区功能,将`dividends_unpartitioned`表中的数据按特定条件插入到`dividends`的各个分区中,这样可以优化查询性能。 6-10. 这些步骤涉及到各种查询操作,包括: - 查询IBM公司从2000年起的股息支付记录。 - 查询苹果公司2008年10月的涨跌情况。 - 查找收盘价高于开盘价最多的股票记录。 - 查询Apple公司年平均调整后收盘价超过50美元的年份及价格。 - 找出每年年平均调整后收盘价前三的股票代码和价格。 通过这些操作,我们可以熟练掌握HiveQL的基本语法,如CREATE TABLE、LOAD DATA、INSERT INTO、SELECT等,以及如何利用Hive进行数据分区和复杂查询。此外,实验也强调了Hive在大数据分析中的实用性,特别是在处理大量历史交易数据时,能够提供高效的数据查询和分析能力。 实验总结指出,通过实际操作,我们不仅了解了Hive在大数据处理中的核心功能,还掌握了如何利用Hive进行数据导入、查询和分析。这对于理解大数据处理流程,提升数据分析技能,以及在实际工作中应用Hive解决复杂问题具有重要意义。
2025-05-21 10:10:04 1.88MB hadoop hive
1
实验2 熟悉常用的HDFS操作 一、实验目的 1. 理解HDFS在Hadoop体系结构中的角色; 2. 熟练使用HDFS操作常用的Shell命令; 3. 熟悉HDFS操作常用的Java API。 二、实验平台 1. 操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); 2. Hadoop版本:3.1.3; 3. JDK版本:1.8; 4. Java IDE:Eclipse。 三、实验步骤(每个步骤下均需有运行截图) (一)编程实现以下功能,并利用Hadoop提供的Shell命令完成相同任务: (1) 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件;(2) 从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;(3) 将HDFS中指定文件的内容输出到终端中;(4) 显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息;
2024-07-03 14:25:05 2.36MB hadoop hdfs
1
大数据实验报告,1-8合集 熟悉常用的HBase操作 熟悉常用的mongoDB数据库操作等等 大数据实验报告(实验一到八) 实验一: 熟悉常用的Linux操作和Hadoop操作 实验二: 熟悉常用的HDFS操作 实验三: 熟悉常用的HBase操作 实验四: 熟悉常用的mongoDB数据库操作 实验五: MapReduce初级编程实践 实验六: 熟悉Hive的基本操作 实验七: Spark初级编程实践 实验八: Flink初级编程实践
2023-11-29 21:11:44 6.57MB hbase mongodb
1
在Ubuntu14.04 server系统下安装Xen并安装虚拟机 给大家做做参考
2023-04-06 14:06:21 483KB Xen Ubuntu14.04 常用命令
1
实验2-熟悉常用的HDFS操作-答案-厦门大学-林子雨-大数据技术原理与应用(第3版).doc
2023-03-10 21:54:45 936KB
1
文件为Android基础视频讲解的ppt 视频地址: http://i.youku.com/520wcf 笔记参考:http://blog.csdn.net/yulianlin 欢迎订阅和关注我的优酷频道 欢迎关注我的博客
2022-12-05 14:23:27 108KB Android ppt Android Studio
1
信息技术基础(WPS Office版)
2022-11-28 14:20:30 8.02MB 信息技术 WPS Office版
通过对此答案的参考,可以使我们认识到自己在VB学习上还有哪些地方需要改进
2022-11-20 19:12:13 80KB 快速熟悉VB编程
1