搜索【语料】的结果

ADIOS无监督生语料模板学习算法资料

从完全生语料中提取生成树，该算法用于模式训练，利用信息统计的手段解决传统规则学习的一种有价值的探索。

2022-12-09 10:22:28 6.55MB ADIOS 模板 机器学习

1

负面评价词语（英文）.txt 负面评价词语（中文）.txt 负面情感词语（英文）.txt 负面情感词语（中文）.txt 程度级别词语（英文）.txt 程度级别词语（中文）.txt 正面评价词语（英文）.txt 正面评价词语（中文）.txt 正面情感词语（英文）.txt 正面情感词语（中文）.txt 主张词语（英文）.txt 主张词语（中文）.txt

2022-11-28 15:16:47 82KB 语料情感 中英文

1

预处理过的搜狐新闻语料，utf-8

搜狐新闻语料，5000条，包括新闻标题、新闻链接、新闻内容、新闻类别。搜狐新闻语料，5000条，包括新闻标题、新闻链接、新闻内容、新闻类别。

2022-11-20 19:33:24 9.49MB 机器学习

1

自定义中文语料约2千万条数据

自定义中文语料，约2千万条数据，用于训练kenlm模型，使用地址：https://github.com/yeyupiaoling/PPASR/blob/develop/docs/beam_search.md#%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E7%9A%84%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B

2022-11-17 19:27:15 287.19MB 中文语料 kenlm 语言模型

利用wikipedia语料训练word2vec代码

利用wikipedia语料训练word2vec代码，中英文都可，语料自行下载

2022-11-16 00:13:59 5KB word2vec

1

CEC-Automatic-Annotation:基于CEC语料库挖掘要素识别规则，对新闻报道类生语料进行自动标注

本项目是基于上海大学语义智能实验室刘宗田教授、刘炜研究员及各硕士博士研究生所共同构建的中文突发事件语料库CEC-（Chinese Emergency Corpus），针对已标注的语料库中，采用LTP进行分词、词性标注、命名实体识别与依存句法分析等；对事件的要素进行规则挖掘，包括词性规则、命名实体规则、依存关系规则等。进而实现对突发事件类新闻报道的生语料进行自动化标注，添加对应的标签，并进行格式校验，存储为XML文件等。开发环境(测试环境为Windows，不保证支持Unix/Linux环境) Licence：Apache Licence Version2 Version：1.0.0 项目编码设定：UTF-8 开发工具：Eclipse 4.4 luna 操作系统OS：Windows7 64bit JDK version：Oracle JDK 1.8+ 64bit 日志：log4j2.0 单元

2022-11-04 21:14:59 7.67MB Java

1

复旦大学分词语料库

2022-11-02 15:12:21 50.38MB 分词语料

1

PKU-Chinese-Paraphrase-Corpus:中译名著多译本翻译转述语料。语料仅限于用于科研教学活动。文本著作权归原著者

PKU-Chinese-Paraphrase-Corpus 中译名著多译本翻译转述语料。语料仅限于用于科研教学活动。文本著作权归原著者。

2022-08-25 14:20:11 3.03MB

1

中英平行语料小型数据集

这个数据集有两万多条平行语料，适合学习seq2seq或者transformer的时候练习用。里面有统计好的该语料的词典，使用python pickle.load查看

2022-07-22 00:19:08 1.56MB python 学习 transformer 自然语言处理

1

中文文本分类语料-测试集下载

中文文本分类语料-测试集下载是测试集，训练集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。

2022-07-21 10:16:29 52.72MB 大数据 文本分析 文本训练 机器学习

1

个人信息

热门下载

最新下载

其他资源