该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。 同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。 国家包括了Python的Jieba分词代码,详见博客。 免费资源希望对你有所帮助~
2019-12-21 19:41:38 142.09MB word2vec 源码 中文预料 词向量
1