只为小站
首页
域名查询
文件下载
登录
TextClassification:基于scikit-learn实现对新浪新闻的文本分类,数据集为100w篇文档,总计10类,测试集与训练集1:1划分。分类算法采用SVM和Bayes,其中Bayes作为基线-源码
新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12
98KB
data-mining
text-classification
svm
scikit-learn
1
Chatbot_CN:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取,NLU,NLG,知识图谱等,并利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口-源码
Chatbot_CN:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取,NLU,NLG,知识图谱等,并利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口
2021-05-13 01:21:50
1.74MB
reinforcement-learning
deep-learning
sentiment-analysis
text-classification
1
chinese_text_cnn:TextCNN Pytorch实现中文文本分类情感分析-源码
TextCNN Pytorch实现中文文本分类 论文 参考 依赖项 python3.5 pytorch == 1.0.0 torchtext == 0.3.1 jieba == 0.39 词向量 (这里用的是Zhihu_QA知乎问答训练出来的单词Word2vec) 用法 python3 main.py -h 训练 python3 main.py 准确率 CNN-rand随机初始化嵌入 python main.py Batch[1800] - loss: 0.009499 acc: 100.0000%(128/128) Evaluation - loss: 0.0000
2021-05-02 21:05:21
5.99MB
nlp
text-classification
chinese-text-classification
text-cnn
1
多标签文本分类:关于基于神经网络的多标签文本分类-源码
深度学习的多标签文本分类 该存储库是我的研究项目,也是对TensorFlow,深度学习(Fasttext,CNN,LSTM等)的研究。 该项目的主要目的是解决基于深度神经网络的多标签文本分类问题。 因此,根据这种问题的特征,数据标签的格式类似于[0、1、0,...,1、1]。 要求 Python 3.6 Tensorflow 1.15.0 Tensorboard 1.15.0 斯克莱恩0.19.1 脾气暴躁的1.16.2 Gensim 3.8.3 Tqdm 4.49.0 项目 项目结构如下: . ├── Model │ ├── test_model.py │ ├──
2021-04-30 19:34:03
276KB
text-classification
tensorflow
python3
sentence-classification
1
text-cnn:嵌入Word2vec词向量的CNN中文文本分类-源码
使用CNN和Word2vec进行文本分类 本文是参考gaussic大牛的“
text-classification
-cnn-rnn”后,基于同样的数据集,嵌入词级别操作的CNN文本分类实验结果,gaussic大牛是基于字符级的;进行了第二版的更新:1。加入不同的卷积核; 2。加入正则化; 3。词唯一的中文或英文,删除掉文本中数字,符号等类型的词; 4。删除长度为1的词训练结果较第一版有所提升,验证集准确率从96.5%达到97.1%,测试准确率从96.7%达到97.2%。 本实验的主要目是为了探索基于Word2vec训练的词向量嵌入CNN后,对模型的影响,实验结果得到的模型在验证集达到97.1%
2021-03-11 19:01:08
15.65MB
text-classification
tensorflow
word2vec
cnn
1
PaddleNLP:基于PaddlePaddle 2.0的NLP核心库和模型动物园-源码
简体中文| 简介 PaddleNLP 2.0具有丰富的模型库,简洁易用的API与高性能的分布式训练的能力,可以为飞轮开发者提升文本建模效率,并提供基于Padddle 2.0的NLP领域最佳实践。 特性 丰富的模型库 涵盖了NLP主流应用相关的前沿模型,包括中文词向量,预训练模型,词法分析,文本分类,文本匹配,文本生成,机器翻译,通用对话,问答系统等,更多详细介绍请查看。 简洁易用的API 深度兼容飞轮2.0的高层API体系,提供可替换的文本建模模块,可大幅度减少数据处理,组网,训练互换的代码开发量,提高文本建模开发效率。 高效分散训练 通过深度优化的混合精度训练策略与舰队分布式训练API,可充
2021-02-07 12:06:41
2.33MB
nlp
text-classification
transformer
seq2seq
1
text-classification
论文.zip
150篇相关论文
2021-02-01 21:40:40
113.29MB
自然语言处理
深度学习
文献
1
Text Classification Algorithms _ A Survey.pdf
A brief overview of text classification algorithms is discussed. This overview covers different text feature extractions, dimensionality reduction methods, existing algorithms and techniques, and evaluations methods.
2021-01-28 04:54:51
7.2MB
文本分类
综述
算法
机器学习
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
ios无人直播 虚拟视频实用版 可以导入视频
基于VMD算法的信号降噪.rar
Academic+Phrasebank+2021+Edition+_中英文对照.pdf
现代操作系统原理与实现.pdf
csma/ca和csma/cd的matlab仿真源代码带有详细的注释
鲸鱼优化算法 WOA matlab源代码(详细注释)
voc车辆检测数据集(已处理好,可直接训练)
(推荐)小爱触屏音箱LX04_2.34.5-官改-(开发版)SP5
avantage 软件 xps 处理软件30天后不能使用问题
2021华为芯片研发岗位笔试题
凯斯西储大学(CWRU)轴承数据集(含数据包+整理Python程序+使用说明)
MATLAB之LSTM预测
简易示波器-精英板.zip
长江流域shp.zip
雷达信号处理仿真程序(MTI,MTD等)
最新下载
Unity:C的简单单元测试
FANUC程序传输工具V16.0.rar
各种音视频测试文件
中科大研一课程算法课后作业答案.rar
STM32 IIC驱动DRV10983
航空票务管理系统(JAVA+sqlserver)
MixRamDisk 下载 MixRamDisk 免费下载
标准C中多层组织中光传输的蒙特卡洛建模——翻译版本
KNDPLCV5.4.2.rar
移远RM520N-GL模组Open固件带webui配置页面
其他资源
BILOG-MG (Version 3.0)
MFC界面控件美化
220VAV转DC36V可调开关电源ALTIUM设计硬件原理图文件.zip
大学期末网页设计作业
bladed软件
SNMP实验报告
echarts地图数据(含全国和省以及全国、省、地市)
基于Verilog的VGA显示 汉字 字符 的例子 以及 vga资料
初试江苏大学考研885程序设计资料汇总.zip
arcgis api for js 缓冲区分析
数字信号处理(孙洪第三版)答案
用Verilog实现MIPS31条指令
TechnieVirtualConsole
UnityGazeAndClickUI AR/VR 分屏 Gaze 凝视 和 Click 点击 UI 交互并存
dataimport.zip
C#采集软件源码
Linux进程线程编程
微服务架构的分布式事务解决方案(Dubbo分布式事务处理)
编译原理综合性实验
900个cad填充图案打包下载
基于springboot实现的文件下载上传
微信判断浏览器自动弹出遮罩层代码