基于TF-IDF算法,结合simhash算法,中文分词等一些技术要点概述。应用了开源hanlp中文处理包
2021-09-11 14:06:56 2.4MB 答辩 文本分析 simhash hanlp
1
最新的hanlp的jar包,模型data包、配置文件hanlp.properties
2021-08-12 15:03:56 582.26MB hanlp NLP 自然语言处理 命名实体识别
1
maven下载不下来com.hankcs.hanlp.HanLP时,所需文件
2021-08-10 13:03:06 2.17MB hanlp
1
hanlp分词各类词性状态表: 比如: a 形容词 ad 副形词 b 区别词 n 名词 h 前缀 i 成语 j 简称略语 k 后缀 l 习用语 m 数词 mg 数语素 Mg 甲乙丙丁之类的数词 mq 数量词
2021-08-10 12:32:08 3KB hanlp 汉普 分词 nlp
1
最近适用了这五款分词工具,光是下载安装就踩了很多坑,特别是pyltp和hanlp,装到我怀疑人生。 以下是整理的安装过程和注意事项。 希望能给大家提供些帮助。 目录一、Nlpir第一步:下载工具。第二步:下载后,解压,按如下顺序进入目录。第三步:打开工具,可以看到有精准采集、文档转换、批量分词等功能。具体使用方法可参考右下角“使用手册”。二、 Pyltp第一步:下载安装Pyltp。第二步:下载模型。第三步:使用基本组件。三、 Jieba第一步:pip安装,指令为第二步:基于python中jieba包的中文分词中详细使用。四、 Hanlp第一步:下载Hanlp 。第二步:在eclipse里导入项
2021-08-08 21:12:59 781KB hanlp ie jieba
1
一个处理汉语的python包,类似nlp
2021-07-20 22:06:45 215KB hanlp
1
手动下载hanlp相关jar包,用于python相关自然语言的工具,可进行分词、短语提取、摘要提取等
2021-06-13 12:48:32 1.19MB hanlp jar 1.7.7
1
HanLP: Han Language Processing | | | | | 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PSD四套规范)、语义角色标注、词干提取、词法语法特征提取、抽象意义表示(AMR)。 量体裁衣,HanLP提供RESTful和nati
1
实验 句法分析 1)使用至少两种依存句法分析工具(HanLP,Stanford CoreNLP 等)编写句法 程序; 2)给出至少20 个句子的分析结果,以结构化方式存储(json 或xml); 3)分别计算出不同方法结果的正确率,并对比不同方法的差异。 4)对结果进行可视化(选做)
2021-06-07 14:07:10 495.22MB 自然语言处理 standfordcorenlp hanlp
1
关键词提取是词语颗粒度的信息抽取的一种重要的需求,即提取文章中重要的词语。 关键词提取的常用方法包括词频统计、TF-IDF和TextRank等。 其中,词频和TextRank属于单文档算法,即只需一篇文章即可提取出其中的关键词;而TF-IDF则属于多文档宣发,需要其他文档的辅助来提取当前文章的关键词。 词频统计的Python实现 词频统计的逻辑是:在一篇文章中,越重要的关键词往往会在文章中反复出现;因为为了解释关键词,作者经常会反复地提及它们。所以通过统计文章中各个词语的出现频率,即可初步地获得关键词。 但是因为齐夫定律,文章中出现频率最高的往往并不是长度较长的关键词,而是标点符号和助词等,因
2021-06-03 16:25:01 59KB hanlp 关键 学习
1