【非常重要】课程资料 CLASSDATA_第五门_专题一地理空间三维可视化技术.rar CLASSDATA_第二门_数据辅助决策:商业智能.zip CLASSDATA_第三门_交互图表:Echarts数据渲染技术.zip CLASSDATA_第四门_图表到设计:数据可视化理论增强_课程资料.zip CLASSDATA_第一门_存储与管理:数据库PostgreSQL.zip 【非常重要】项目答案 项目04参考答案-连接数据源及数据清洗-15题.docx 考核项目09_单时间线趋势表达,以降雨量数据为例.rar 考核项目10_日历数据表达,以每日运动数据为例.rar 考核项目11_投资数据表达,以股票数据为例.rar 考核项目12_综合动态数据表达,以身材指标数据为例.rar 考核项目1_个人数据库搭建参考答案.zip 考核项目2_数据清洗及筛选综合实践参考答案.zip 考核项目3_基于PostgreSQL的消费数据解析参考答案.zip 考核项目05-利用销售数据建立报表.zip 考核项目06-结合公式制作超市物流分析报表.zip 项目07参考答案-【练习】风投资数据制作产业与投资机构选择
原始体检数据存在信息模糊、有噪声、不完整和冗余的问题,无法直接用于疾病的风险评估与预测。由于体检数据在结构和格式等方面的不足,不适合采用传统的数据预处理方法。为了充分挖掘体检数据中有价值的信息,从多角度提出了针对体检数据的预处理方法:通过基于压缩方法的数据归约,降低了体检数据预处理的时间及空间复杂度;通过基于分词和权值的字段匹配算法,完成了体检数据的清洗,解决了体检数据不一致的问题;通过基于线性函数的数据变换,实现了历年体检数据的一致性和连续性。实验结果表明,基于分词和权值的字段匹配算法,相对于传统算法具有更高的准确性。
1
# 过滤文本中的html链接等 # 提取微博中的话题名称#和人名@ # 分词 #去除停用词 # 表情处理
2022-06-08 18:03:25 2KB python 开发语言
1
数据清洗在网络安全中的应用
2022-05-17 09:00:11 3.52MB web安全 安全
1
博文中python数据清洗所用到的源数据,包括在线杂货店订单数据、摩托车的销售情况数据、关于淘宝母婴产品的用户消费行为的数据集
2022-05-10 19:00:54 2.76MB python
1
可以作为大数据预处理的MapReduce代码的参考!!! -执行脚本文件: cd /home/hadoop/logfiles/ source format_run_2013_o5_30.sh source format_run_2013_o5_31.sh 执行我们的脚本文件,可以用source或者./
2022-05-09 19:14:03 55KB python hadoop mapreduce 开发语言
数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。Python内置的None值也会被当作NA处理处理NA的方法有四种:dropna,fillna,isnull,notnullis(not)null,这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。dropna,对于一个Series,dropna返回一个仅含非空数据和索引值的Series。问题在于DataFrame的处理方式,因为一旦drop的话,至少要丢掉一行(列)。这里解决方法与前面类似,还是通过一个额外的参数:dropna
1
【特征工程是什么?】 身高不同的两人,比较体重毫无意义, 但是如果将身高体重加以计算,转化成了BMI指数:BMI=体重/(身高^2) 通过比较这个新创造的特征值,谁胖谁瘦就一目了然了。 这就是特征工程,将原始数据转换为可以更好的、代表预测模型潜在问题的特征,通过分析这个新的特征,可以得到更准确的预测结果。 【特征工程——Python数据分析必备】 脏数据的“清洗剂” 有人说:学会了Python语言,就会做数据分析? 不一定! 你拿到的数据样本集,有可能存在这些问题: 如果样本数据存在问题,对数据建模的执行效率会有很大影响,甚至可能会造成模型结果的偏差。 不懂特征工程,数据分析=白忙一场! 【站内首门!特征工程全解课程】 过去,数字化是企业优化的要点; 而今,数字化成为了企业活下去的关键。 而数据分析应用有多广,特征工程的学习需求就有多大。 不过,大部分课本对于特征工程这一知识点鲜有提及,市面上的课程也少之又少,导致很多人在实际工作或学习中,遇到问题束手无策,严重降低效率。 CSDN全站首发——Python数据处理与特征工程 课程聚焦数据科学中,数据清
1
常见网站日志生成过程业务详解 企业数据采集方案介绍 Flume拦截器、channel选择器、sink 处理器回顾 Flume实现日志采集到HDFS并自动分区 定时调度Shell脚本实现日志数据分区上传HDFS ETL实现思路分析 ETL中Driver类的实现 ETL中自定义Key的实现 ETL日志解析类的代码实现 ETL开发Mapper代码开发实现 ETL程序打包测试
2022-04-06 02:49:54 588.69MB 大数据 ETL 日志收集 数据采集
通过对基于K-means聚类的缺失值填充算法的改进,文中提出了基于距离最大化和缺失数据聚类的填充算法。首先,针对原填充算法需要提前输入聚类个数这一缺点,设计了改进的K-means聚类算法:使用数据间的最大距离确定聚类中心,自动产生聚类个数,提高聚类效果;其次,对聚类的距离函数进行改进,采用部分距离度量方式,改进后的算法可以对含有缺失值的记录进行聚类,简化原填充算法步骤。通过对STUDENT ALCOHOL CONSUMPTION数据集的实验,结果证明了该算法能够在提高效率的同时,有效地填充缺失数据。
1