从外网中得到的56m中文邮件语料,供垃圾邮件分类的数据集
2021-05-25 16:32:05 12KB 邮件分类 中文 语料 贝叶斯
1
我搜索了很多,发现关于维基百科物料的下载方式都很慢,努力了很久终于有所收获,和大家分享。有两个内容,一个为json接口版本,一个为已分词版本
2021-05-05 15:10:59 238B 维基百科 中文物料
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。 共包含3273626个段落的文本(一个段落包含了多个语句)。 处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2021-04-26 22:45:04 650B 维基 中文语料 word2vec
1
文件中包含百度网盘链接和密码
1
百度网盘链接和密码在文件中
1
(完整版)来源:复旦大学计算机信息与技术系国际数据库中心自然语言处理小组;由复旦大学李荣陆提供;test_corpus.rar为测试语料,train_corpus.rar为训练语料。
1
中文语料的停用词txt文档,取自复旦大学中文语料库,文件很小
2020-01-10 03:06:08 3KB 停用词
1
中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科中文语料训练后的结果,拿去可以直接使用。
2019-12-21 22:09:03 234B wiki中文
1
人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
2019-12-21 22:05:48 10.18MB 中文语料 标注语料 自然语言处理
1
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
2019-12-21 20:45:48 108.12MB NLP 语料 中文分词语料 中文语料
1