本文提出了结合主题和各主题下关键特征的文本相似度算法,目的在于更准确的挖掘被描述对象的近邻对象集。本文首先介绍卡方统检验特征统计法,并利用改进的卡方检验,计算训练集中已知主题的文本的特征;而后介绍了最小编辑距离算法、余弦相似度算法和杰卡德相似系数,在论证了主题对文本相似度的重要性后,又针对难提取主题的文本加以改进,最终提出了基于主题和特征的文本相似度算法;然后对各个算法在测试集上的相似度计算结果进行分析,证明本文提出的算法在速度和精确度上明显优于其他算法;最后将该算法应用于股票的概念股题材标注上,分析结果
2022-05-28 10:41:26 1MB 工程技术 论文
1
弦相似算法计算 短文本相似度
2022-05-08 19:03:50 49KB 算法 源码软件
余弦相似度算法文本相似度算法的对比及python实现五种常见的相似度算法:余弦相似度(cosine_similarity)、jaccard相似度、编辑距离(Levenshtein)、MinHash、SimHash + 海明距离。
2022-04-09 09:05:50 3KB python 算法 开发语言
chatbot_by_similarity 根据文本相似度实现问答的聊天机器人(弱智版) 项目介绍 这是根据工作需求写的一个简易版本的聊天机器人,主要目的是根据问题从知识库中匹配相应的答案,从而帮助使用者去更方便的查询到一些知识性内容。 模块简介 用法比较简单,给文本列表,经过训练后去匹配问题返回相似的答案。 结构及用法 模块由五个部分构成:测试数据、预处理分词、计算词向量、计算相似度和聊天机器人 文本的预处理(cut_text.py): 提供知识库的word文档数据和小黄鸡聊天记录 from chatbot import load_data # word数据 texts = load_data(type='knowledge') # 小黄鸡数据 texts = load_data(type='chat') 文本的预处理(cut_text.py): 用于分词、剔除停用词(这里偷懒直接把长度
2022-04-03 15:54:33 10.54MB nlp chatbot similarity-measures Python
1
中文文本相似度/文本推理/文本匹配数据集——LCQMC
2022-03-28 16:49:57 5.96MB 文本匹配
1
simhash 高效的文本相似度去重算法实现 simhash是什么 Google发明的的文本去重算法,适合于大批量文档的相似度计算 主要步骤 对文本分词,得到N维特征向量(默认为64维) 为分词设置权重(tf-idf) 为特征向量计算哈希 对所有特征向量加权,累加(目前仅进行非加权累加) 对累加结果,大于零置一,小于零置零 得到文本指纹(fingerprint)
2022-03-16 16:35:17 2.05MB Java
1
计算文本相似度文本相似度计算,用于鉴别文章是否存在抄袭
2022-03-03 20:04:53 2KB 文本相似度 相似度
1
基于WMF_LDA主题模型的文本相似度计算
2022-02-28 21:08:43 1.17MB 研究论文
1
上传防止原文丢失
2022-02-26 09:11:33 24.04MB nlp 千言数据集 文本相似度
1