新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn
1
在工程应用中,若采用长短基线配对使用的多基线干涉仪系统,由于基线一般比较小,尤其在高频段辐射源测向时,首先天线架设和安装比较困难,其次天线阵元太近可能会带来天线互耦现象。若采用多长基线系统,主要问题集中在解模糊的问题上。所以构造了一种非对称三元直线阵,采用虚拟阵元的办法来构造虚拟短基线,达到解模糊,从而实现测向
2021-05-10 23:24:01 50KB 虚拟基线 测向 DOA估计
1
CIS-Microsoft-Windows-Server-2012安全基线
2021-05-08 09:13:15 116KB 安全基线
1
天融信基线管理系统用户手册.pdf
2021-05-07 17:05:05 2.81MB 天融信
1
linux/docker安全基线 1.1适用范围 Centos6、Centos7、Centos8等 1.2 SSH服务配置 1.2.1禁止SSH 空密码用户登录 安全基线项目名称 操作系统Linux安全基线要求项 安全基线项说明 禁止SSH空密码用户登录 安全基线要求 编辑文件/etc/ssh/sshd_config,将 PermitEmptyPasswords设置为:no 并重启服务 备注 主机安全合规、降低暴力破解风险 1.2.2禁止SSH root用户登录 安全基线项目名称 操作系统Linux安全基线要求项 安全基线项说明 PermitRootLogin参数指定root用户是否可以使用ssh登录,默认值为 no 安全基线要求 编辑/etc/ssh/sshd_config文件将 PermitRootLogin设置为:no 并重启服务 备注 主机安全合规、权限最小原则
2021-05-06 20:00:13 32KB 基线 linux docker
1
本算法能有效去除信号中的趋势项,效果明显优于低通滤波器和传统线性去趋势方法。
2021-05-06 09:03:28 749B 去趋势 基线漂移 脉搏波去噪
1
物联网安全基线
2021-04-30 19:00:08 3.05MB 安全 物联网
1
根据某某安全公司经常给第三方公司做基线检查的标准,用shell编写的linux基线检查脚本,将脚本放入需要检查的服务器,在对应位置输入sh.脚本名称,跑完后的结果直接与excel对应填写就好
2021-04-29 15:55:23 20KB 安全 基线 linux 信息安全
1
因为工作需要,编写的Linux系统的基线自动化检查脚本
2021-04-29 15:51:56 8.88MB 信息安全 网络安全
1
SAR数据基线处理软件、不需要破解、说明书,安装系统一体化
2021-04-27 00:36:46 50.29MB DESCW
1