1. 在jar包执行时,会出现ansj中的类找不到的错误,解决方法是将ansj和nlp两个包上传到hadoop节点上,然后运行程序的执行命令时加上jar包就可以了。 2. 重复运行程序的时候因为之前生成结果文件但是没有删掉,运行程序的时候出现文件已存在所以无法建立新的文件。 3. 运行时会存在classNotFound的错误,因为包名和类名错误,所以运行时的命令要把包名类名等都写对。 4. Linux上查看结果文件的时候中文是乱码,用PuTTY连接linux即可解决
2021-07-02 15:09:40 2KB 大数据 数据清洗
1
该论文是由本人和国赛队友共同完成,我的队伍是中北大学2021年国赛冲击国一的种子队伍之一。文章3,4,5题建立的数学模型原理极其复杂,请谨慎下载,预计该篇论文保底省二,冲击省一
2021-06-29 17:42:09 1.72MB 指派问题 数学建模 数据清洗
1
对于数据管理工作,尽管专业的信息系统+数据库要比excel强大,但是操作人员可能依然要面对初始数据导入以及信息系统导出数据终端再加工的任务,尤其是行政、财务等方面的工作人员,面对此类工作的情况会更加普遍,即便是熟悉Excel函数公式使用的人,针对某一问题专门编写公式也是费时费力的事情,如果有一个现成的“工具包”,可以解决常见的数据处理问题,那就非常方便了。 此工具集主要包含以下功能 一、身份证号码验证。 其中包括: 【1】身份证末位验证码验证; 【2】日期合法性验证; 【3】非法字符识别; 【4】18位和15位新旧身份证号码长度识别; 【5】身份证号码文本格式数字化识别; 【6】15位旧身份证号码转18位新号码; 【7】身份证号码末位验证码 【8】身份证号码提取出生日期; 【9】身份证号码提取性别; 【10】身份证号码提取年龄; 【11】检测身份证号码可能存在的相邻两位数颠倒; 【12】检测身份证号码可能存在的相隔两位数颠倒; 二、分类识别。 可将包含某些关键词的单元格数据转换成指定的数据,例如将“天安门”、“天安门广场”、“天安门城楼”、“人民大会堂”转换成指定的文本“天安门广场”。本工具支持最多35个分类,350个关键字的分析归类。    三、日期整理。 解决了常用的DATEDVALUE函数分析处理的局限性,识别日期格式的能力更强、更全面。    四、隐藏字符: 可以分析识别不可见字符并删除,避免Excel在查询、比对、筛选等操作时的数据差错; 其它功能:陆续添加中。。。
2021-06-25 18:02:31 91KB 数据处理 数据清洗 excel公式 行政
1
MapReduce--->实现简单的数据清洗需要的数据文件
2021-06-25 00:22:34 2.34MB 大数据
1
利用kettle工具进行数据清洗,按照条件去除不需要的内容
2021-06-24 09:46:37 33KB kettle
1
data-integration(7.1.0.0-12)
2021-06-23 17:08:46 189B 大数据清洗 数据转换 BI
1
rest client接口解析,JavaScript脚本数据清洗、json input、入库
2021-06-09 14:01:32 24KB rest JSON javascript 数据清洗
1
记一个python处理excel数据清洗的实例的源文件
2021-06-03 11:11:48 12KB python数据分析
1
资料清理 河工程二年级数据清洗课程 数据说明:共五类糖尿病细胞拉曼光谱数据:文件夹名称就是对应的分类
2021-05-31 15:48:29 10.33MB
1
包括了爬虫项目(爬北上广深热门城市的租房信息)和数据清洗和数据分析,值得下载。其中数据分析会产生许多图片,适合小白同学初步入门大数据。
1