搜索【中文分词】的结果

Chinese-Names-Corpus:中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别

中文人名语料库（Chinese-Names-Corpus）业余项目“萌名NameMoe（一个基于语料库技术的取名工具）”的副产品。萌名手机网页测试版：，欢迎体验。不定期更新。只删词，不加词。可用于中文分词、人名识别。请勿将本库打包上传其他网站挣积分，已上传的请配合删除，谢谢！中文常见人名（Chinese_Names_Corpus）数据大小：120万。语料来源：从亿级人名语料中提取。数据清洗：已清洗，但仍存有少量badcase。新增人名生成器。中文古代人名（Ancient_Names_Corpus）数据大小：25万。语料来源：多个人名词典汇总。数据清洗：已清洗。中文姓氏（Chinese_Family_Name）数据大小：1千。语料来源：从亿级人名语料中提取。数据清洗：已清洗。中文称呼（Chinese_Relationship）数据大小：5千，称呼词根

2023-02-23 16:26:55 17.62MB corpus names dataset dict

1

Python 58同城房价 bs4 浏览器多页爬虫 jieba中文分词 tf-idf向量化 kmeans聚类

Python 58同城房价bs4 beautiful soup爬虫获取 room_name room_type room_area room_addr0 room_addr1 room_price房价名称类型面积地址价格等 jieba中文分词 tf-idf向量化 kmeans聚类浏览器多页爬虫 jupyter notebook numpy pandas sklearn 数据分析数据挖掘

2023-02-22 22:22:27 113KB jieba NLP 爬虫 kmeans

1

jieba 0.42.1中文分词

Python Jieba中文分词工具实现分词功能

2023-02-15 18:34:44 53.31MB python

1

IKAnalyzer中文分词器

solr5.5.4对应的中文分词器下载，如果solr为tomcat方式部署，下载后解压该压缩文件，将下面的jar文件复制到solr项目的lib目录下，将里面的配置其他配置文件复制到classes目录下即可。

2023-02-14 23:09:18 13.84MB solr ikanalyzer

1

lucene6.6+拼音分词+ik中文分词包

lucene6.6中适配的拼音分词jar包以及ik中文分词jar包，以及自定义的分词词组包和停词包，可以实现lucene建立索引时进行拼音和中文的分词。

2023-02-13 09:23:59 16.39MB lucene分词ik

1

38万条中文分词数据库access，mdb格式.rar

记录超大容量辞海词典词库可以自行导入数据库后用于分词辞海词典。 Access数据库。含380578条数据。含各类词语解释、注音和例句。

2023-01-27 15:52:56 14.21MB 辞海词典 分词数据库

1

dev_最短路径中文分词_最短路径分词算法_

利用最短路径算法进行分词

2023-01-17 09:51:26 763KB 最短路径分词算法

1

搜索引擎技术基础.ppt

中文分词：自然语言理解和处理，是人工智能的重要的研究领域之一，是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。分词作为搜索引擎的一项核心功能，和存储和查询有重大关系。但是不同的研究角度，不同的研究方向，带来研究重点和研究结果都是不一样的。语言学方向研究的分词算法，看重分词的准确性，不看重运算速度；而搜索引擎的分次算法，特别看重分词速度，分词准确性中等。 (五)全文检索系统和搜索引擎关系： 1、搜索引擎技术来源于全文检索系统,搜索引擎是全文检索技术最重要的一个运用. 2、搜索引擎在数据总量,最大并发处理能力,单次查询速度方面,都远远强大于全文检索系统. 3、搜索引擎为了最求最高的查询速度，在搜索结果准确性及搜索结果重现方面,都弱于全文检索系统.

2022-12-02 19:52:14 1.26MB 中文分词 Cache Server 爬虫

1

SIGHAN-中文分词

中文分词

2022-11-29 22:30:35 6.87MB 中文分词

1

中文分词词典（按长度分为2/3/4/5四个文件）

中文分词词典。按照长度分成2/3/4/5四个文件，剔除稀有冷门的词，适合常规的项目开发使用。本人项目中就在使用。好用不贵！

2022-11-29 11:42:33 1.97MB 词典字典

1

个人信息

热门下载

最新下载

其他资源