随着电信基础设施的发展,电信诈骗威胁日益严峻。据相关数据,中国电信诈骗案件金额已超两万亿,76%网民曾受其困扰。新技术催生智能化、跨境犯罪化的诈骗手法,成本低且难察觉。现有的防范手段如检测手机号及机器学习模型存在局限,且目前并没有较全面的中文数据集来进行研究。 在本文中,我们通过选取CCL2023电信网络诈骗数据集中部分类别数据以及收集到的一些数据组成了一个涵盖冒充客服、冒充领导熟人、贷款、公检法诈骗和正常文本的中文5分类数据集。
2026-03-07 09:41:06 1.19MB 文本分类 中文数据集
1
电信诈骗中文数据集-8分类
2025-04-28 10:10:43 2.83MB 中文数据集 文本分类
1
EasyOCR中文数据集,放在EasyOCR/model文件下即可使得EasyOCR库正常使用
2024-05-20 12:35:59 20.93MB python
1
train.src (训练集的输入(短文本)) train.tgt (训练集的输出(摘要)) test.src (测试集的输入(短文本)) test.tgt (测试集的输出(摘要)) vaild.src (验证集的输入(短文本)) vaild.tgt (验证集的输出(摘要))
2023-02-28 22:34:46 230.78MB nlp
1
自然语言处理的子任务命名实体识别中文的数据集,很全
2023-02-25 17:23:59 148KB Resume NER中文数据集
1
内容、格式如下 0,标准间太差房间还不如3星的而且设施非常陈旧.建议酒店把老的标准间从新改善. 1,这个价格,算性价比很高的一个酒店了。当然价格便宜,就不能太计较服务了。总的来说是一个愿意再次入住的酒店。
2022-11-30 12:28:52 2.22MB 酒店评论数据 中文 数据集
1
基于Pytorch实现的EcapaTdnn声纹识别,训练中文数据集,这个模型使用的是spectrogram 源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/develop
2022-11-25 12:26:52 25.91MB Pytorch EcapaTdnn 声纹识别 spectrogram
基于PaddlePaddle实现的EcapaTdnn声纹识别,训练中文数据集,这个模型使用的是预处理是fbank 源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/develop
2022-11-17 19:27:17 24.2MB PaddlePaddle EcapaTdnn 声纹识别 fbank
基于Pytorch实现的EcapaTdnn声纹识别,训练中文数据集,这个模型使用的是fbank预处理方法。 源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/develop
2022-11-17 19:27:13 24.31MB fbank Pytorch EcapaTdnn 声纹识别
基于PaddlePaddle实现的EcapaTdnn声纹识别,训练中文数据集,这个模型使用的是spectrogram 源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/develop
2022-11-11 16:31:03 25.8MB PaddlePaddle EcapaTdnn 中文数据集 声纹识别