从完全生语料中提取生成树,该算法用于模式训练,利用信息统计的手段解决传统规则学习的一种有价值的探索。
2022-12-09 10:22:28 6.55MB ADIOS 模板 机器学习
1
负面评价词语(英文).txt 负面评价词语(中文).txt 负面情感词语(英文).txt 负面情感词语(中文).txt 程度级别词语(英文).txt 程度级别词语(中文).txt 正面评价词语(英文).txt 正面评价词语(中文).txt 正面情感词语(英文).txt 正面情感词语(中文).txt 主张词语(英文).txt 主张词语(中文).txt
2022-11-28 15:16:47 82KB 语料 情感 中英文
1
搜狐新闻语料,5000条,包括新闻标题、新闻链接、新闻内容、新闻类别。 搜狐新闻语料,5000条,包括新闻标题、新闻链接、新闻内容、新闻类别。
2022-11-20 19:33:24 9.49MB 机器学习
1
自定义中文语料,约2千万条数据,用于训练kenlm模型,使用地址:https://github.com/yeyupiaoling/PPASR/blob/develop/docs/beam_search.md#%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E7%9A%84%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B
2022-11-17 19:27:15 287.19MB 中文语料 kenlm 语言模型
利用wikipedia语料训练word2vec代码,中英文都可,语料自行下载
2022-11-16 00:13:59 5KB word2vec
1
本项目是基于上海大学语义智能实验室刘宗田教授、刘炜研究员及各硕士博士研究生所共同构建的中文突发事件语料库CEC-(Chinese Emergency Corpus),针对已标注的语料库中,采用LTP进行分词、词性标注、命名实体识别与依存句法分析等;对事件的要素进行规则挖掘,包括词性规则、命名实体规则、依存关系规则等。进而实现对突发事件类新闻报道的生语料进行自动化标注,添加对应的标签,并进行格式校验,存储为XML文件等。 开发环境(测试环境为Windows,不保证支持Unix/Linux环境) Licence:Apache Licence Version2 Version:1.0.0 项目编码设定:UTF-8 开发工具:Eclipse 4.4 luna 操作系统OS:Windows7 64bit JDK version:Oracle JDK 1.8+ 64bit 日志:log4j2.0 单元
2022-11-04 21:14:59 7.67MB Java
1
复旦大学分词语料
2022-11-02 15:12:21 50.38MB 分词 语料
1
PKU-Chinese-Paraphrase-Corpus 中译名著多译本翻译转述语料语料仅限于用于科研教学活动。文本著作权归原著者。
2022-08-25 14:20:11 3.03MB
1
这个数据集有两万多条平行语料,适合学习seq2seq或者transformer的时候练习用。里面有统计好的该语料的词典,使用python pickle.load查看
2022-07-22 00:19:08 1.56MB python 学习 transformer 自然语言处理
1
中文文本分类语料-测试集下载 是测试集,训练集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。
2022-07-21 10:16:29 52.72MB 大数据 文本分析 文本训练 机器学习
1