命名实体识别(NER)是自然语言处理(NLP)领域中的关键任务,它涉及识别文本中具有特定意义的实体,如人名、地名、组织名等。标题“中文NER集合”表明这是一个专注于中文环境下的命名实体识别资源集合。描述中提到的“基于马尔科夫逻辑的命名实体识别技术”,暗示了该压缩包可能包含一些利用马尔科夫逻辑网络(Markov Logic Networks, MLNs)的方法来解决中文NER问题的研究。 马尔科夫逻辑网络是一种概率逻辑框架,它结合了马尔科夫随机场和第一阶逻辑的优点,可以用于建立复杂的语义关系模型。在NER中,MLNs可以用来捕捉实体之间的局部和全局上下文信息,以提高识别准确性。例如,一个实体的类型可能与其前后词汇有关,MLNs可以通过定义这些依赖关系的规则来帮助识别。 压缩包中的文件名称提供了更多线索: 1. "NER综述.pdf":这可能是一个全面的NER技术综述,涵盖了各种方法和技术,包括传统的统计模型和深度学习方法。 2. "SSSSSSSSSSSSSSSSSSSSSSSOpen Information Extraction from the Web.pdf":可能探讨的是从互联网上提取开放信息,可能包括NER作为信息提取的一部分。 3. "基于层叠隐马尔可夫模型的中文命名实体识别.pdf":这可能是介绍如何使用层叠隐马尔可夫模型(Cascaded HMMs)进行中文NER的论文,这是一种经典的序列标注模型。 4. "Open Domain Event Extraction from Twitter.pdf":可能关注的是从社交媒体,特别是Twitter中提取开放领域的事件,这通常需要有效的NER来识别事件相关的实体。 5. "一种开放式中文命名实体识别的新方法.pdf":这可能描述了一种新的、创新的中文NER算法,可能采用了不同于传统方法的策略。 6. "[46]ner.pdf":文件名较简单,但可能是一个特定的NER研究或技术的详细说明,编号可能表示参考文献的序号。 这个集合对于学习和研究中文NER非常有价值,它可能包含了理论概述、经典模型的解释、最新方法的介绍以及实际应用案例。通过深入阅读这些资料,我们可以了解命名实体识别的发展历程,比较不同方法的优缺点,以及如何将这些技术应用于实际的数据挖掘和事件抽取任务。此外,对于想要在中文环境下提升信息提取和理解能力的研究者和开发者来说,这些资源无疑是一个宝贵的资料库。
2025-05-19 20:41:54 1.65MB 命名实体识别 数据挖掘 事件抽取
1
命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的一项关键任务,旨在从文本中识别和分类特定的命名实体,如人名、地名、组织机构名等。NER的目标是标记文本中的实体,并将其归类到预定义的实体类型中。 NER通常使用机器学习和深度学习技术来完成任务。以下是一种常见的NER流程: 数据收集和标注:收集包含命名实体的文本数据,并为每个实体标注相应的标签(实体类型)。 特征提取:从文本数据中提取有用的特征,如词性、词形、上下文等。这些特征将作为输入提供给模型。 模型训练:使用标注好的数据和提取的特征来训练NER模型。常用的模型包括条件随机场(CRF)、循环神经网络(RNN)、注意力机制等。 模型评估和调优:使用评估数据集来评估训练得到的模型性能,并进行调优以提高准确性和召回率。 实体识别:使用训练好的NER模型对新的文本进行实体识别。模型将识别并标记文本中的命名实体,使其易于提取和理解。 NER在许多应用中起着重要作用,例如信息抽取、问答系统、文本摘要、机器翻译等。以帮助自动化处理大量文本数据,并提供有关实体的结构化信息,为后续的分析和应用提供基础。
2024-02-24 12:25:37 121.6MB
1
iamQA 中文wiki百科问答系统,本项目使用了torchserver部署模型 知识库:wiki百科中文数据 模型:使用了的NER(CCKS2016数据)和阅读理解模型(CMRC2018),还有Word2Vec词向量搜索。 详细内容可以参考文章: 项目框架 模块介绍 ChineseWiki-master 功能:清洗wiki中文数据 相关项目: NER 功能:从问题中识别实体 例子:qurry:周董是谁? 》》 entiy:周董 模型:ALBERT 数据集:CCKS2016KBQA 相关项目: Word2vec 功能:如果实体不在知识库,则用W2V搜索近似实体 例子:entity:周董 >> ['周杰伦','JAY','林俊杰'] 相关项目: Entity linking 功能:根据NER或W2V得到的mention entity搜索知识库 Reader 功能:阅读理解文段,精确定位答
2023-12-22 16:42:56 636KB wiki Python
1
使用BERT的越南语NER(bert-vn-ner) 由Trong-Dat Ngo编写的代码。 引言 BERT模型的Pytorch实现为越南语执行命名实体识别(NER)。 此外,单词中的特征也用于表示单词。 该系统使用预训练模型 安装 要求: Python 3.6+ 火炬1.4+ 安装依赖项: pip3 install -r requirements.txt 数据集格式 bert-vn-ner的输入数据格式遵循CoNLL-2003格式,其中四列由制表符分隔,包括word , pos , chunk和named实体。 每个单词都放在单独的行上,每个句子后面都有一个空行。 请注意,分词不用于匹配BERT的预训练(以bert-base-multilingual-cased表示) 。 有关详细信息,请参见“数据”目录中的样本数据。 下表描述了数据集中的越南语例句示例。 单词 销售点
2023-03-23 21:36:36 710KB tagging named-entity-recognition ner bert
1
BERT-NER-Pytorch-master
2023-03-09 19:19:58 229KB nlp
1
自然语言处理的子任务命名实体识别中文的数据集,很全
2023-02-25 17:23:59 148KB Resume NER中文数据集
1
Conll-2003 数据集:第一列是单词,第二列是词性,第三列是语法,第四列是实体标签。在NER任务中,只关心一和四列。
2023-01-31 16:37:08 729KB 自然语言处理 人工智能 nlp
1
ner_crf ner_crf是Jupyter笔记本,它使用 / 实现,使用条件随机字段(CRF)描述了命名实体识别(NER)。 依存关系 ner_crf用编写,因此在使用python3之前应下载最新版本的python3 。 可以从找到python的下载(建议使用3.5.1版)。 您还需要能够运行Jupyter Notebook(请参阅 )。 还需要以下python库来运行ner_crf笔记本:
2022-12-12 20:26:51 961KB python nlp machine-learning crf
1
spacy-ner-注释器 安装 pip3 安装 spacy 使用步骤 打开index.html文件并打开其中的数据。 发布注释下载数据并使用convert_spacy_train_data.py转换为 spacy 格式 如果您愿意,将数据拆分为训练和测试并将其添加到train.py 最后在设置超参数后运行 train.py。 迭代损失记录在output_log.txt 。 准确率、召回率和 f1 分数记录在train_output.txt和test_output.txt 通过运行losses_plotter.py检查进度。 如果您希望通过模型进行训练,请下载模型并在train.py添加其名称 详细信息和积分 访问这个网址: https://manivannanmurugavel.github.io/annotating-tool/spacy-ner-annotator/
1
Stanza:斯坦福NLP自然语言处理Python工具包,NER有很大改进(支持中文) Stanza:适用于多种人类语言的 Python NLP 库 斯坦福 NLP 集团的官方 Python NLP 库。 它支持在 60 多种语言上运行各种准确的自然语言处理工具,并支持从 Python 访问 Java Stanford CoreNLP 软件。 有关详细信息,请访问我们的官方网站。 参考资料 如果您在研究中使用此库,请引用我们的 Stanza 系统描述论文:@inproceedings{qi2020stanza, title={Stanza: A {Python} Natural Language Processing Toolkit for Many Human Languages},作者={Qi, Peng and Zhang, Yuhao and Zhang, Yuhui and Bolton, Jason and Manning, Christopher D.}, booktitle = "Proceedings of the Association for Computa
2022-12-04 23:10:31 720KB 自然语言处理
1