基于Pytorch的中文语义相似度匹配模型 基于Pytorch的中文语义相似度匹配模型 本项目将持续更新,对比目前业界主流文本匹配模型在中文的效果 运行环境:python3.7,pytorch1.2,transformers2.5.1 数据集采用LCQMC数据(将一个句子对进行分类,判断两个句子的语义是否相同(二分类任务)),因数据存在涉嫌嫌疑,故不提供下载,需要者可向官方提出数据申请 ,将数据解压到数据文件夹即可。模型评价指标为:ACC,AUC以及预测总计耗时。 嵌入:本项目输入都统一采用分字策略,故通过维基百科中文语料,训练了字向量作为嵌入。训练语料,矢量模型以及词表,可通过百度网盘下载。链接: : 提取码:s830 模型文件:本项目训练的模型文件(不一定最优,可通过超参继续调优),也可通过网盘下载。链接: : 提取码:s830 测试集结果对比: 模型 行政协调会 AUC 耗时(s
2021-11-03 12:47:32 126KB Python
1
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
2021-07-23 10:05:18 4.73MB simHash 海明距离 IK分词
1
php默认有个函数similar_text()用于计算字符串之间的相似度,该函数也可以计算两个字符串的相似度(以百分比计)。不过这个函数感觉对中文计算很不准确
2021-07-03 15:27:51 2KB 文章查重 文章相似度匹配
1
语音相似度匹配全过程,c++
2021-06-16 18:18:38 3.81MB 语音相似度
1
1 绪论 1 1.1 研究背景 1 1.2 国内外研究现状 1 1.3 研究目的及内容 2 1.4 本章小结 3 2 系统的相关技术 4 2.1 手写识别技术 4 2.2 Gensim框架 4 2.3 PyQt5 GUI程序 4 2.4 MongoDB数据库 5 2.5 本章小结 5 3 系统的可行性分析与需求分析 6 3.1 可行性分析 6 3.1.1 技术可行性 6 3.1.2 经济可行性 6 3.1.3 运行可行性 6 3.2 需求分析 6 3.2.1 业务需求 6 3.2.2 功能性需求 8 3.2.3 非功能需求 9 3.3 本章小结 10 4 主观题阅卷系统的设计 11 4.1 系统功能设计 11 4.1.1 基础用户功能模块 11 4.1.2 管理功能模块 12 4.1.3 试卷批阅功能模块 12 4.2 系统数据库设计 12 4.2.1 概念设计 12 4.2.2 数据库集合设计 14 4.3 本章小结 16 5 主观题阅卷系统的实现 17 5.1 基础用户功能模块 17 5.1.1 登录注册功能 17 5.1.2 修改密码功能 17 5.1.3 下载与上传功能 17 5.1.4 查看成绩功能 18 5.2 管理功能模块 18 5.2.1 管理员登录功能 18 5.2.2 文件管理功能 18 5.2.3 账号管理功能 18 5.3 试卷批阅功能模块 19 5.3.1 手写识别功能 19 5.3.2 文本相似度计算功能 20 5.4 本章小结 22 6 系统测试 23 6.1 测试目的 23 6.2 基本功能测试 23 6.3 主要功能详细测试 24 6.4 本章小结 27 总结与展望 29 参考文献 30 致 谢 31 附 录 32
相似性匹配系统 这个是一个《电商标题数据相似度匹配系统》,使用方法有:tfidf +词袋模型,余弦相似度,word2vec 1.基本方法 1.1结巴分词 1.2 TF-IDF 1.3余弦相似度 1.4 word2vec 2.项目:《电商标题数据相似度匹配系统》 2.1项目原理 2.2项目代码 ------------------------------------完------------- -------------------------------------------- 更多NLP知识请访问: 我的主页: : 我的博客: :
2021-03-26 15:34:30 7MB 系统开源
1
图像检索算法之相似度匹配算法 形状上下文
2019-12-21 21:10:02 212KB 相似度 形状上下文
1
博客《图像处理大型科普——图像直方图》中的资源
2019-12-21 20:30:41 1.45MB 直方图 相似度
1
使用JAVA编写的,分词、TFIDF相似度计算,K临近法聚类
2019-12-21 19:23:29 10KB JAVA TFIDF计算 K临近聚类
1
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
2019-12-21 18:54:18 4.73MB simHash 海明距离 中文文本 相似度匹配
1