新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn
1
Chatbot_CN:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取,NLU,NLG,知识图谱等,并利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口
1
TextCNN Pytorch实现中文文本分类 论文 参考 依赖项 python3.5 pytorch == 1.0.0 torchtext == 0.3.1 jieba == 0.39 词向量 (这里用的是Zhihu_QA知乎问答训练出来的单词Word2vec) 用法 python3 main.py -h 训练 python3 main.py 准确率 CNN-rand随机初始化嵌入 python main.py Batch[1800] - loss: 0.009499 acc: 100.0000%(128/128) Evaluation - loss: 0.0000
1
深度学习的多标签文本分类 该存储库是我的研究项目,也是对TensorFlow,深度学习(Fasttext,CNN,LSTM等)的研究。 该项目的主要目的是解决基于深度神经网络的多标签文本分类问题。 因此,根据这种问题的特征,数据标签的格式类似于[0、1、0,...,1、1]。 要求 Python 3.6 Tensorflow 1.15.0 Tensorboard 1.15.0 斯克莱恩0.19.1 脾气暴躁的1.16.2 Gensim 3.8.3 Tqdm 4.49.0 项目 项目结构如下: . ├── Model │   ├── test_model.py │   ├──
1
使用CNN和Word2vec进行文本分类 本文是参考gaussic大牛的“ text-classification-cnn-rnn”后,基于同样的数据集,嵌入词级别操作的CNN文本分类实验结果,gaussic大牛是基于字符级的;进行了第二版的更新:1。加入不同的卷积核; 2。加入正则化; 3。词唯一的中文或英文,删除掉文本中数字,符号等类型的词; 4。删除长度为1的词训练结果较第一版有所提升,验证集准确率从96.5%达到97.1%,测试准确率从96.7%达到97.2%。 本实验的主要目是为了探索基于Word2vec训练的词向量嵌入CNN后,对模型的影响,实验结果得到的模型在验证集达到97.1%
2021-03-11 19:01:08 15.65MB text-classification tensorflow word2vec cnn
1
简体中文| 简介 PaddleNLP 2.0具有丰富的模型库,简洁易用的API与高性能的分布式训练的能力,可以为飞轮开发者提升文本建模效率,并提供基于Padddle 2.0的NLP领域最佳实践。 特性 丰富的模型库 涵盖了NLP主流应用相关的前沿模型,包括中文词向量,预训练模型,词法分析,文本分类,文本匹配,文本生成,机器翻译,通用对话,问答系统等,更多详细介绍请查看。 简洁易用的API 深度兼容飞轮2.0的高层API体系,提供可替换的文本建模模块,可大幅度减少数据处理,组网,训练互换的代码开发量,提高文本建模开发效率。 高效分散训练 通过深度优化的混合精度训练策略与舰队分布式训练API,可充
2021-02-07 12:06:41 2.33MB nlp text-classification transformer seq2seq
1
150篇相关论文
2021-02-01 21:40:40 113.29MB 自然语言处理 深度学习 文献
1
A brief overview of text classification algorithms is discussed. This overview covers different text feature extractions, dimensionality reduction methods, existing algorithms and techniques, and evaluations methods.
2021-01-28 04:54:51 7.2MB 文本分类 综述 算法 机器学习