只为小站
首页
域名查询
文件下载
登录
供垃圾邮件分类的中文邮件语料库
从外网中得到的56m中文邮件语料,供垃圾邮件分类的数据集
2021-05-25 16:32:05
12KB
邮件分类
中文
语料
贝叶斯
1
维基
中文语料
.txt
我搜索了很多,发现关于维基百科物料的下载方式都很慢,努力了很久终于有所收获,和大家分享。有两个内容,一个为json接口版本,一个为已分词版本
2021-05-05 15:10:59
238B
维基百科
中文物料
1
维基百科
中文语料
(已分词)
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2021-04-26 22:45:04
650B
维基
中文语料
word2vec
1
2021年4月wiki简体
中文语料
已分词.txt
文件中包含百度网盘链接和密码
2021-04-02 19:12:26
69B
nlp
自然语言处理
中文语料
维基百科
1
2021年4月wiki简体
中文语料
未分词.txt
百度网盘链接和密码在文件中
2021-04-02 19:12:25
69B
nlp
自然语言处理
中文语料
维基百科
1
完整版复旦
中文语料
库
(完整版)来源:复旦大学计算机信息与技术系国际数据库中心自然语言处理小组;由复旦大学李荣陆提供;test_corpus.rar为测试语料,train_corpus.rar为训练语料。
2020-12-29 16:06:26
103.56MB
中文语料
中文分词
复旦中文语料库
语料库
1
中文语料
停用词
中文语料
的停用词txt文档,取自复旦大学
中文语料
库,文件很小
2020-01-10 03:06:08
3KB
停用词
1
维基百科
中文语料
word2vec训练后结果
中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科
中文语料
训练后的结果,拿去可以直接使用。
2019-12-21 22:09:03
234B
wiki中文
1
人民日报1998年1月中文标注语料库
人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
2019-12-21 22:05:48
10.18MB
中文语料
标注语料
自然语言处理
1
中文自然语言处理中文分词训练语料
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
2019-12-21 20:45:48
108.12MB
NLP
语料
中文分词语料
中文语料
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
opcua服务器模拟器+opcua客户端工具.rar
基于hadoop商品推荐系统课程设计
EEMD算法应用于信号去噪.rar
多目标优化算法(四)NSGA3的代码(python3.6)
CUDA并行程序设计 GPU编程指南-中文扫描539页完整版pdf+高质量英文完整591页原版非扫描pdf
离散时间信号处理第三版课后习题答案
全国道路网SHP数据.zip
基于Servlet+jsp+mysql开发javaWeb学生成绩管理系统
毕业设计:基于Python的网络爬虫及数据处理(智联招聘)
matpower5.0b1.zip
android studio课程设计作业PPT+设计文档+可运行源代码+设计思路
王万良-人工智能导论(第五版)课件
采用K-means聚类,实现多维矩阵的聚类,并进行可视化展示(matlab)
商用密码应用与安全性评估——霍炜.pdf
多目标优化算法(二)MOEAD(附带NSGA2)的文档和代码(MATLAB)
最新下载
BSPHP-PROv1.4.1破解版
MT29TZZZ8D5BKFAH-125 W.95K(1)(1).pdf
Unity3D 游戏源码《投篮游戏》
E9操作手册.zip
Freebase_2M_5M.rar
身份证数字识别,DBNET+CRNN,只需要OPENCV460
CR5000手把手教程
基于STM32H7开发板的TCP_Telnet服务器源代码
查壳脱壳工具ACKiller 0[1][1].31 pre-release
usbredirector6.12.rar
其他资源
南京shp地物数据
自动控制原理吴麟-下册.pdf
shape context形状上下文
RS码编译码方法及软判决译码应用的研究
C++课程设计,股票交易系统
OFDM中降低峰均比的PTS算法
OLED SH1106驱动
DES及其3种改进版CBC,CFB,OFB加密模式编程实现(java)
史上最全的中国HL7标准的文档。涵盖了所有HL7的知识域
线性回归模型完整案例
员工信息管理系统(B/S结构)
遗传算法java实现代码
基于SSM框架的在线商城简易平台
Android-将数据写入Excel表格并存储到外部存储中
Intent_20210221-源码
AFNetworking4.0+封装
俄罗斯人开发,高价出售的指标
配合elementuiupload组件支持分片上传功能
精美生日祝福小程序
基于小波算法的分形压缩程序
jitsi 基于 openfire 的 视频通话 客户端
最新 Ext甘特图控件 + Ext日程控件 破解版 Bryntum-2.2.9-cracked