搜索【text-classification】的结果

TextClassification：基于scikit-learn实现对新浪新闻的文本分类，数据集为100w篇文档，总计10类，测试集与训练集1：1划分。分类算法采用SVM和Bayes，其中Bayes作为基线-源码

新浪新闻文本分类语料库重建本项目的语料来源新浪新闻网，通过spider.py爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10条。采纳新浪新闻网的一个api获取新闻文本，api的url为使用进度池并发执行爬虫，加快抓取速度。数据预处理本项目的数据预处理包括：分词处理，去噪，向量化，由stopwords.py模块，text2term.py模块，vectorizer.py模块实现。本项目借助第三方库解霸完成文本的分词处理。通过停用词表移除中文停用词，通过正则表达式消除数字（中文数字＆阿拉伯数字）。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪，加快数据预处理的过程。把数据集1：1划分为训练集和测试集，各50w篇文档。通过scikit-learn提供的CountVectorizer类完成矢量化，得到训练集和测试集两个文本的特征矩阵，矩阵类型为稀疏矩阵。移除文档中文档频率小于0.1％的特征，这些特征我们认

2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn

1

Chatbot_CN：基于金融-司法领域（兼有闲聊性质）的聊天机器人，其中的主要模块有信息抽取，NLU，NLG，知识图谱等，并利用Django整合了前端展示，目前已经封装了nlp和kg的restful接口-源码

Chatbot_CN：基于金融-司法领域（兼有闲聊性质）的聊天机器人，其中的主要模块有信息抽取，NLU，NLG，知识图谱等，并利用Django整合了前端展示，目前已经封装了nlp和kg的restful接口

2021-05-13 01:21:50 1.74MB reinforcement-learning deep-learning sentiment-analysis text-classification

1

chinese_text_cnn：TextCNN Pytorch实现中文文本分类情感分析-源码

TextCNN Pytorch实现中文文本分类论文参考依赖项 python3.5 pytorch == 1.0.0 torchtext == 0.3.1 jieba == 0.39 词向量（这里用的是Zhihu_QA知乎问答训练出来的单词Word2vec）用法 python3 main.py -h 训练 python3 main.py 准确率 CNN-rand随机初始化嵌入 python main.py Batch[1800] - loss: 0.009499 acc: 100.0000%(128/128) Evaluation - loss: 0.0000

2021-05-02 21:05:21 5.99MB nlp text-classification chinese-text-classification text-cnn

1

多标签文本分类：关于基于神经网络的多标签文本分类-源码

深度学习的多标签文本分类该存储库是我的研究项目，也是对TensorFlow，深度学习（Fasttext，CNN，LSTM等）的研究。该项目的主要目的是解决基于深度神经网络的多标签文本分类问题。因此，根据这种问题的特征，数据标签的格式类似于[0、1、0，...，1、1]。要求 Python 3.6 Tensorflow 1.15.0 Tensorboard 1.15.0 斯克莱恩0.19.1 脾气暴躁的1.16.2 Gensim 3.8.3 Tqdm 4.49.0 项目项目结构如下： . ├── Model │ ├── test_model.py │ ├──

2021-04-30 19:34:03 276KB text-classification tensorflow python3 sentence-classification

1

text-cnn：嵌入Word2vec词向量的CNN中文文本分类-源码

使用CNN和Word2vec进行文本分类本文是参考gaussic大牛的“ text-classification-cnn-rnn”后，基于同样的数据集，嵌入词级别操作的CNN文本分类实验结果，gaussic大牛是基于字符级的；进行了第二版的更新：1。加入不同的卷积核； 2。加入正则化； 3。词唯一的中文或英文，删除掉文本中数字，符号等类型的词； 4。删除长度为1的词训练结果较第一版有所提升，验证集准确率从96.5％达到97.1％，测试准确率从96.7％达到97.2％。本实验的主要目是为了探索基于Word2vec训练的词向量嵌入CNN后，对模型的影响，实验结果得到的模型在验证集达到97.1％

2021-03-11 19:01:08 15.65MB text-classification tensorflow word2vec cnn

1

PaddleNLP：基于PaddlePaddle 2.0的NLP核心库和模型动物园-源码

简体中文| 简介 PaddleNLP 2.0具有丰富的模型库，简洁易用的API与高性能的分布式训练的能力，可以为飞轮开发者提升文本建模效率，并提供基于Padddle 2.0的NLP领域最佳实践。特性丰富的模型库涵盖了NLP主流应用相关的前沿模型，包括中文词向量，预训练模型，词法分析，文本分类，文本匹配，文本生成，机器翻译，通用对话，问答系统等，更多详细介绍请查看。简洁易用的API 深度兼容飞轮2.0的高层API体系，提供可替换的文本建模模块，可大幅度减少数据处理，组网，训练互换的代码开发量，提高文本建模开发效率。高效分散训练通过深度优化的混合精度训练策略与舰队分布式训练API，可充

2021-02-07 12:06:41 2.33MB nlp text-classification transformer seq2seq

1

text-classification论文.zip

150篇相关论文

2021-02-01 21:40:40 113.29MB 自然语言处理 深度学习 文献

1

Text Classification Algorithms _ A Survey.pdf

A brief overview of text classification algorithms is discussed. This overview covers different text feature extractions, dimensionality reduction methods, existing algorithms and techniques, and evaluations methods.

2021-01-28 04:54:51 7.2MB 文本分类 综述算法 机器学习

个人信息

热门下载

最新下载

其他资源