基于pytorch+bilstm_crf的中文命名实体识别 文件说明 --checkpoints:模型保存的位置 --data:数据位置 --|--cnews:数据集名称 --|--|--raw_data:原始数据存储位置 --|--|--final_data:存储标签、词汇表等 --logs:日志存储位置 --utils:辅助函数存储位置,包含了解码、评价指标、设置随机种子、设置日志等 --config.py:配置文件 --dataset.py:数据转换为pytorch的DataSet --main.py:主运行程序 --main.sh:运行命令 --models.py:模型 --process.py:预处理,主要是处理数据然后转换成DataSet 运行命令 python main.py --data_dir="../data/cnews/final_data/" --log_dir="./logs/" --output_dir="./checkpoints/" --num_tags=33 --seed=123 --gpu_ids="0" --max_seq_len=128 --
2025-03-30 17:14:57 331KB pytorch bilstm
1
葵花8卫星数据产品netCDF文件命名含义(文件名以.nc结尾)。文件亦可从官网下载。
2024-07-16 16:29:24 4KB
1
BERT+BiLSTM+CRF是一种用于中文命名实体识别(Named Entity Recognition,简称NER)的模型,结合了BERT模型、双向长短时记忆网络(Bidirectional LSTM)和条件随机场(CRF)。 BERT是一种预训练的深度双向变换器模型,具有强大的自然语言处理能力。它能够学习上下文相关的语义表示,对于NLP任务非常有用。 BiLSTM是一种循环神经网络,能够捕捉上下文之间的依赖关系。通过同时考虑前向和后向上下文,BiLSTM能够更好地理解句子中实体的边界和内部结构。 CRF是一种概率图模型,常用于序列标注任务。它能够基于输入序列和概率分布进行标签推断,使得预测的标签序列具有全局一致性。 在BERT+BiLSTM+CRF模型中,首先使用BERT模型提取句子中的特征表示。然后,将这些特征输入到BiLSTM中,通过双向上下文的学习,得到更丰富的句子表示。最后,使用CRF层对各个词的标签进行推断,并输出最终的实体识别结果。 这种模型的优势在于能够充分利用BERT的语义信息和BiLSTM的上下文依赖性,同时通过CRF层对标签进行约束,提高了实体识别的
2024-07-02 15:37:12 801KB python 毕业设计 bert 自然语言处理
python编写的简单程序,一共只有130多行,但是应付老师绰绰有余:) 实验:基于LSTM的命名实体识别 数据处理 给每个实体类型进行编号、给每个单词进行编号 文本填充 使用标识符,将所有序列处理成同样长度 训练流程 给每个输入和其对应编号建立一个张量 构成训练批 输入LSTM单元 输入全连接层 使用sorftmax或其他分类器进行预测 模型构建 pytorch自带LSTM类/其他工具也可以/自己编码也可以
2024-05-08 15:06:16 1.85MB 自然语言处理 pytorch pytorch 课程资源
1
Lambda 算法是 Hea 的新版本
2024-04-28 17:04:07 294KB matlab
1
工程源代码。
2024-04-08 17:38:14 528KB
1
chatbot_simbert 检索类型的微信聊天机器人/问答系统,通过API异步通信,实现在微信上交互,可以查询天气、重复问句识别等情况;本项目包括模型和工程化部署一体化。用到SimBert等模型。 描述 各位可以根据自己的需求部署或修改: 问答库如果是任务型的,就是一个任务型聊天机器人,如果闲聊的问答库,那就是闲聊型聊天机器人; 后续也可以添加意图,用来用意图识别的匹配;也可以添加个知识图谱的API... 总之可以添加的模块很多,扩展性非常强大。 品尝方式(使用说明) 准备: 环境准备:安装requirement中的依赖包 下载模型,并放置在code/1.retrieve_match/3.simbert_match/config路径下: simbert模型: 启动: 1、 启动code/2.API_serve/KG_service.py 2、 启动code/3.wx_project/c
2024-04-07 10:07:55 1.23MB Python
1
主要介绍了在VB中遍历文件并用正则表达式完成复制及vb实现重命名、拷贝文件夹的方法,需要的朋友可以参考下
2024-04-01 08:00:46 59KB vb遍历文件完成复制 vb拷贝文件
1
国巨电容也称为贴片电容,是无铅环保型电容,其形状是片状型,具有电容范围宽,温度特性宽,耐压范围宽,可靠性高等优点,广泛应用于高科技行业。 国巨电容的特性 1、先进的薄层化技术,使产品小型化,大容量。 2、独石结构,确保产品的机械强度及可靠性。 3、高尺寸精度,保证元件安装的高效率。 4、容量低漂移,可用于各种形势的采杨电路。 5、低残留电感,保证了出色的频率特性。 国巨电容的优点 1、微型化:携式信息与通信终端的小型化、轻量化。包括移动电话、笔记本电脑、W-LAN、MP3数码相机、摄像机等。 2、高品质、低成本化:贱金属电极材料(BME)技术。质优价廉的计算机、通信及数字视听A&V产品迅速普及。 3、高可靠性:高频/高压化、高Q值。适用于RF模块,CRT与主板电源滤波,LCD背光。 4、无铅无镉、绿色环保。 国巨电容命名规则 国巨电阻都是以R开头,前面2个字母表示电阻的系列名称。RC表示一般厚膜电阻,例如:RC0402JR-07100KL;RL表示低阻值电阻,如RL0603JR-070R12L;RT表示高精密厚膜电阻;RJ表示薄膜电阻;RV表示高压电阻。
2024-02-24 16:57:25 43KB 国巨电容 命名规则
1
命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的一项关键任务,旨在从文本中识别和分类特定的命名实体,如人名、地名、组织机构名等。NER的目标是标记文本中的实体,并将其归类到预定义的实体类型中。 NER通常使用机器学习和深度学习技术来完成任务。以下是一种常见的NER流程: 数据收集和标注:收集包含命名实体的文本数据,并为每个实体标注相应的标签(实体类型)。 特征提取:从文本数据中提取有用的特征,如词性、词形、上下文等。这些特征将作为输入提供给模型。 模型训练:使用标注好的数据和提取的特征来训练NER模型。常用的模型包括条件随机场(CRF)、循环神经网络(RNN)、注意力机制等。 模型评估和调优:使用评估数据集来评估训练得到的模型性能,并进行调优以提高准确性和召回率。 实体识别:使用训练好的NER模型对新的文本进行实体识别。模型将识别并标记文本中的命名实体,使其易于提取和理解。 NER在许多应用中起着重要作用,例如信息抽取、问答系统、文本摘要、机器翻译等。以帮助自动化处理大量文本数据,并提供有关实体的结构化信息,为后续的分析和应用提供基础。
2024-02-24 12:25:37 121.6MB
1