1.2功能需求 明确任务:明确目的、确定思路 数据收集:网络爬虫、公开数据集、客户数据 数据处理:数据清洗、数据规整 数据分析:数据统计、探索性数据分析(EDA)、数据建模 结果展示:数据可视化、报表生成、结果保存 数据收集:获取歌单索引页、获取歌单详情页 数据处理:数据清洗、数据规整 数据分析统计:歌曲出现次数TOP10,歌单贡献UP主TOP10,歌曲播放量TOP10,歌单收藏量TOP10,歌单评论数TOP10 歌单收藏数量分布情况,单播放数量分布情况,歌单标签图,歌单介绍词云图 结果展示:可视化图表 二、项目分析与设计 2.1本项目需解决的关键技术问题 1.运用大数据分析技术对网站数据进行挖掘。 2.将挖掘到的数据输出到excel表格,并统一到一起进行整理。 3.对大量的数据基于Python进行技术分析,完成数据分析。 4.通过代码实现数据可视化,得出所需要的结论的图表形式。 2.2项目流程 1.基于Python语言,对网站数据进行爬取挖掘。 2.将数据整理到表格中。 3.对数据进行分析,并对数据进行统计处理,得到所需要的数据。 4.对数据进行计算处理,得到所需要的排名,占比等。 5.进行数据可视化,将得出的结论通过更直观的图表形式呈现。
2021-12-30 14:37:16 39.87MB 资料作业
1
开源ETL工具kettle,共三个分包,请在主页中将三个分包下载至同一文件夹解压(资源上传最大不得超过1000M,无奈)
2021-12-28 10:02:55 700MB ETL 数据清洗
1
开源ETL工具kettle,共三个分包,请在主页中将三个分包下载至同一文件夹解压(资源上传最大不得超过1000M,无奈)
2021-12-28 10:02:54 700MB ETL 数据清洗
1
KETTLE中文版的详细使用文档,含数据清洗方法论,适合入门和进阶使用,含一定案例。
2021-12-27 09:07:37 94.6MB KETTLE ETL 数据清洗
1
通过10个文件从小功能一步步更新到网络爬虫、数据清洗 1.AQI计算 2.读取已经获取的JSON数据文件,并将AQI前5的数据输出到文件 3.CSV 4.根据输入文件判断是CSV还是JSON格式,并进行相应操作(with语句 os模块) 5、6、7、8.网络爬虫 requests模块 9.Pandas数据处理 数据分析 10.Pandas数据清洗 数据过滤
2021-12-25 23:15:42 7KB Python 网络爬虫 数据清洗
1
开源ETL工具kettle,共三个分包,请在主页中将三个分包下载至同一文件夹解压(资源上传最大不得超过1000M,无奈)
2021-12-24 16:03:27 314.81MB ETL 数据清洗
1
清洗后的数据:包括全国333地级市的十年气象数据,包括省份地区、年份、时间、天气状况、最高气温、最低气温 、风向(早)、风力(晚上)等,记录数据将近90W行,并附中国二级行政区域对照表 原始数据集:包含34个省级行政区所有二级行政区的数据按照城市为单位,比如陕西为例(西安、宝鸡、咸阳、铜川、渭南、延安、榆林、汉中、安康、商洛共十个地级市数据都有,每一个地级市有单独文件) 爬虫项目源码:源码为Python代码、使用idea运行,也可以使用VScode运行,采用requests-bs4模式爬取数据。Requests模块用于网页信息提取,get方法获取参数;BeautifulSoup用于网页解析,获取网页内容 分析结果PPT,分析过程采用Tableau软件,天气预测总结如下:总结结果是为了完成项目组任务。 1、全国温度最高的前十个省份的夏季温度持续保持在40℃以上,这正好贴切的反映出当前全球变暖的情况,为我们保护环境敲响了警钟。 2、内陆地区昼夜温差大于沿海地区,所以我们应该时刻关注天气情况,注意增减衣物。 3、风力最强的季节往往都是春季,这也是我国北方和西北地区沙尘暴频发的一个季节,在春季来临之前做好预防可以大幅度降低国家和人民的财产损失。 4、西安市最常出现的是多云和晴天,这也是西安气候干燥的原因,我们应该从日常做起,节约用水,使水资源可持续循环使用。
2021-12-17 11:04:07 74.03MB 天气数据集 python 分析结果 数据分析
摘要 为提高数据仓库数据质量,需要在ETL过程进行数据清洗。本文首先提出了ETL过程进行数据清洗应解决的问题,然后通过分析现有的ETL处理方式说明应采用数据库中的ETL处理,介绍了数据质量和数据清洗的原理并提出了数据清洗在ETL中的应用模型,最后通过实例说明数据清洗的具体实现。
2021-12-10 08:42:30 48KB 数据清洗
1
Python3爬虫、数据清洗与可视化配套资源代码和数据集 零一 韩要宾 黄园园 Python技术入门读物,通过实战教初学者
2021-12-09 14:37:10 210.57MB Python 爬虫 数据清洗 可视化
1
python 空气质量AQI 数据分析与预测----用到的库,数据集,数据清洗-附件资源
2021-12-08 19:32:20 23B
1