每天都有着大量的用户关注各类新闻,特别是随着各种网络通信技术的发展,网络应用的普及使得每时每刻都有着大量的人们通过网络进行各类新闻的搜索,产生海量的日志数据。过去使用单机的方式通过 MySQL数据库对这些数据进行存储,但是积累下来的用户日志数据量达到了一定的级别,当一台电脑无法存储这么庞大的数据时,就产生了海量数据的存储问题。如果使用网络文件系统对数据进行分开存储,那么就无法对大量的实时和离线数据进行分析处理,处理结果也无法以一种更加直观的方式进行展示。 为了解决海量新闻日志数据的存储问题,在新闻业务中得到实时的用户搜索内容的排行并进行可视化显示,得到公众关注的重点,从而达到针对用户关注的重点进行推送、广告的投放、及时消除不良的用户等目的。本文在对以上需求进行调研后,通过Flume日志收集系统对各个服务器中的日志文件进行读取合并,并将数据划分成离线流数据和实时流数据两条路线。离线数据通过Hadoop集群处理、存储,通过Hive完成离线数据处理和分析,并最终通过Hue实现对用户的可视化展示。实时流数据通过Kafka消息队列临时存储,并通过Spark流处理,最终将结果存放在 MySQL数据库中,通过Java程序获取,最终通过Echarts插件在前端对实时数据进行展示。 本文讲述了系统研究的背景、目的和意义。对系统所使用到的相关技术的原理进行了介绍;对系统进行了总体的需求分析并且按照系统实现的功能划分了相关模块;在进行了需求分析后,对系统进行了具体的硬件平台构建以及各个功能模块设计实现,最终完成对用户搜索日志数据的结构化处理和可视化展示。 最后对课题工作进行了总结,并分析了未来系统中可改进的地方。
1
Python数据分析实战项目-共享单车有效的解决了“走路累,公交挤,开车堵,打车贵”的苦恼。一夜之间,北上广深、甚至部分二线城市,共享单车大街小巷随处可见。
2021-02-28 22:25:56 340KB Python 数据分析 数据可视化
1
安居客网址结合大数据分析房价可视化分析,分别利用python爬虫爬取安居客的某个省的各个地区的二手房房价的最大、最少、平均、中位数、进行可视化分析展示。
2021-02-25 15:50:24 3.09MB python 大数据 爬虫
1
tableau可视化分析-案例集锦-门户创建--油井数据分析
2021-02-04 13:05:27 520KB 油井数据分析 tableau可视化分析
R语言Shiny官方教程中文版,用R语言搭建可视化数据分析平台中文教程。
2020-11-04 13:42:04 7.47MB R语言 数据分析 数据可视化
1
通过python爬去豆瓣网的数据,用大数据基础对数据进行清洗,然后对清洗的数据可视化,更直观的展示出来
2019-12-21 20:53:23 367KB 数据爬取 数据分析  数据可视化
1