整理的常用的停用词词表,此词表包含各种特殊字符、英文乱码、无用数字
1
simhash算法对字符串计算权重时,对中文要做特殊操作,及先分词,请自行下载sanford中文分词jar包及中文分词
2019-12-21 20:35:36 3KB 中文分词 simhash 中文相似度
1
IKAnalyzer2012FF_u1.jar solr中文分词器 最少要2分,不能选0分,很无语
2019-12-21 20:31:37 1.11MB 中文 分词器
1
中科院的标注、北大标注集。也有词频。可以满足大多数的需求。这个是我写java分词器的时候用到的,现在分词器已经编写完毕,特把词库分享给大家。 分词总数是29万8左右。其中包括三级地名、名胜古迹、知名的山川河流、1万多成语,还有就是其中的一部词语是来自搜狗输入法的词库。
2019-12-21 20:30:41 9.68MB 分词 词库 中文分词 中文分词词库
1
中文分词词库,中科院和北大标注。包括地名,名胜古迹,知名山川河流,还有1万多的成语,包括一部分搜狗互联网词库。已经整理成sql语句,直接导入数据库即可使用。非常方便!
2019-12-21 20:30:41 12.75MB 词库 分词 中文词库 中文分词
1
使用R语言中的jiebaR包,对中文文本进行分词,求词频,做词云图并进行LDA主题建模
2019-12-21 20:30:20 4KB LDA jieba
1
人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
2019-12-21 20:28:58 2.12MB 语料库 人民日报 中文分词 语义
1
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份同音异形词库
1
非常好用solr中文分词器(含使用手册) ,Solr4.x 此版本适用于高版本Solr4.x,IK 分词器 ,智能分析,与细粒度分析配置
2019-12-21 20:27:01 2.05MB 中文分词器 solr
1
中文分词是中文搜索引擎重要的一部分,分词词库为基于词典分词的中文分词算法提供了分词的依据。
2019-12-21 20:21:59 392KB 中文分词 词库
1