使用nltk处理中文语料(1)- 统计相关-附件资源
2021-11-18 22:33:25 106B
1
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。 词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding
2021-11-11 17:13:13 184KB c ec gensim
1
使两个机器人的相互对话生成语料,文本大小为1.03m,用于闲聊机器人的训练数据,使用 # 作为两个多轮对话之间的分隔符
2021-11-04 16:58:16 351KB 中文语料 闲聊语料 多轮对话
1
Wiki中文语料2020年版,经过opencc繁简转换,jieba分词,训练出的词向量模型,维度为20。。。。。。。。。。。。。。
2021-07-13 19:58:29 259.9MB wiki中文语料 训练出的bin模型
1
基于谭松波老师的酒店评论数据集的中文文本情感分析,二分类问题 数据集标签有pos和neg,分别2000条txt文本 选择RNN、LSTM和Bi-LSTM作为模型,借助Keras搭建训练 主要工具包版本为TensorFlow 2.0.0、Keras 2.3.1和Python 3.6.2 在测试集上可稳定达到92%的准确率
文档为基于美团、携程、途牛、同城等几个APP上对于海南景区的评价xlsx、sql格式文件,其中包含海南各大景区的评价,内容丰富,适合模型训练、语料归纳、数据分类等训练检测用。下载方便。
2021-07-05 15:01:36 3.48MB 评论数据 海南景区 中文语料 nlp
1
主要介绍了python gensim使用word2vec词向量处理中文语料的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2021-06-25 14:04:33 184KB python word2vec词向量 python 词向量
1
电商评论中文语料,全中文,分词,60W
2021-06-24 14:17:26 41.71MB 中文语料 分词 电商
1
基本AIML格式中文语料1000条,问题来自常用中文短语,答案来自网络采集。数据量不多,格式比较完整。
2021-06-24 14:00:57 153KB AIML 中文语料 语料库
1
整合格式为 :字 BIO标签 格式,可以直接使用主流NER模型进行训练
2021-06-12 16:10:21 11.52MB NER NLP CORPUS
1