《Python3爬虫、数据清洗与可视化》pdf+配套代码+数据集,亲测全部有效,提供给大家学习交流!欢迎下载
2021-03-06 22:56:12 229.71MB python 爬虫
1
机器学习课程附带的程序练习,有很多简单的基础程序可供练习参考,自带鸢尾花数据等database
2021-03-02 17:00:14 13.79MB 机器学习 data modeling pca降维
1
数据录入过程、数据整合过程都可能会产生重复数据,直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_duplicates。以如下数据为例:发现重复数据通过duplicated方法完成,如下所示,可以通过该方法查看重复的数据。需要去重时,可drop_duplicates方法完成:drop_duplicates方法还可以按照某列去重,例如去除id列重复的所有记录:缺失值是数据清洗中比较常见的问题,缺失值一般由NA表示,在处理缺失值时要遵循一定的原则。首先,需要根据业务理解处理缺失值,弄清楚缺失值产生的原因是故意缺失还是随机缺失,再通过一些业务经
1
批量电子邮件收发人提取工具。大数据工具。经数十万封电子邮件测试。在win10+vs2017下编译运行,已经编译好,下载解压后可用。 用法简单:将电子邮件放到一个文件夹中,选中,点开工,立等可取。每个邮件独立提取。合并方法:到cmd中,进入该文件夹(例如cd c:\aa),输入命令copy *.txt all.txt,即可完成合并。
讲述了如何使用r语言来清理数据和数据与预处理,很多好用实用的小函数。
2021-02-04 15:09:34 428KB r语言 数据分析
1
 针对游客游迹跟踪与追溯系统,本文深入分析了游客游迹不确定数据产生的原因,根据景区应用特点,提出了一种游客游迹RFID数据处理与清洗方法。在数据处理时,引入事件概念,设计出了游客游迹RFID事件处理机制;引入过滤器概念,给出了游客游迹数据的一种过滤模型,设计了游客游迹数据的去噪、平滑以及去冗余清洗算法。最后,通过模拟场景的实验,对该算法的准确性和有效性进行了验证。
1
开源数据清洗工具,github,官网由于墙的原因,无法下载,共享到CSDN,方便大家下载。
2020-01-03 11:26:37 42.55MB openrefine 开源
1
目前很多的行人数据集都是seq视频格式,但是很多时候训练神经网络需要.jpg图片格式,这个小脚本可以将视频按帧采样成图像,我在Caltech行人数据集亲测可用,网上用"\xFF\xD8\xFF\xE0\x00\x10\x4A\x46\x49\x46" 来采样的经过实践显示不好使。
2019-12-21 21:55:51 682B 数据清洗 视频转图片
1
清华大学出版社,数据清洗(大数据应用人才培养系列教材)PPT
2019-12-21 21:18:49 41.74MB 李法平 数据清洗 PPT
1
简单试水……
2019-12-21 19:41:59 103KB data
1