TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行语料库包括 12 种语言超过1.2亿 个对齐句子并进行了句子对齐。 所有的预处理都是自动完成。
2023-04-13 20:23:17 365.48MB 自然语言理解 NLP 机器翻译
1
带S-NET提取的MSMARCO(提取网) 的CNTK(Microsoft深度学习工具包)实现提取部分的并进行了一些修改。 该项目是为数据集设计的 代码结构基于 支持MSMARCO V1和V2! 要求 这是一些培训和评估所需的库。 一般的 python3.6 cuda-9.0(需要CNTK) openmpi-1.10(需要CNTK) gcc> = 6(需要CNTK) Python 请参考requirements.txt 使用预先训练的模型进行评估 此存储库提供了经过预训练的模型和经过预处理的验证数据集以测试性能 请下载和经过,并将它们分别放在MSMARCO/data和MSMARCO根目录中,然后在正确的位置将其解压缩。 代码结构应该像 MSMARCO ├── data │   ├── elmo_embedding.bin │   ├── test.tsv │   ├── vo
2023-04-13 15:17:51 2.48MB nlp cntk question-answering machine-comprehension
1
武汉数据分析 该系列资源是Python疫情大数据分析,涉及网络爬虫,可视化分析,GIS地图,情感分析,舆情分析,主题挖掘,威胁情报溯源,知识图谱,预测预警及AI和NLP应用等。博客阅读,武汉必胜,湖北必胜,中国必胜! 发布者:Eastmount CSDN YXZ 2020-02-20 译文推荐: 我们们中国人一生的最高追求,为天地立心,为生民立命,为往圣继绝学,为万世开太平。以一人之力系。他们真是做到了,武汉加油,中国加油!
2023-04-13 00:22:29 36.37MB HTML
1
分享课程——自然语言处理NLP企业级项目课程合集,共包含5门课程,依次是:医疗命名实体识别、火车票识别、新闻文本分类、属性级情感分析、实体关系抽取。3个NLP经典任务,2个真实商业项目。
2023-04-11 18:50:22 428B 自然语言处理
1
自然语言处理 我在这里分享了我在IE Univesity的自然语言处理课程中使用的一些代码。 我也分享我所做的项目。 1.计算歌曲的词汇多样性 我遇到一篇文章,讨论一些音乐家在其职业生涯中的整体词汇。 因此,我想将清单上前3位歌手和最后2位歌手的歌曲与我们在课堂上看到的3首歌曲进行比较。 排在首位的是Eminem(毫不奇怪),他的100首最慢的歌曲中使用了大约8,800个单词。 然后是Jay Z(6,900字)和Tupac Shakur(6,600字)。 排在最末的是Spice Girls和Bruno Mars(大约1500个单词)。 我尝试选择看起来在词汇上更加多样化的歌曲,并且与预期的一样,结果表明两组之间的差异很大,而且与我们看到的三首歌曲相比,差异也很大。 (可以在文件1_Lexical_Diversity中找到该代码) 2.分类模型:真实与否? NLP与灾难鸣叫 我们获得了将近1
2023-04-11 16:46:54 7.42MB JupyterNotebook
1
OmniNet:用于多模式多任务学习的统一架构 OmniNet是用于多模式多任务学习的Transformer体系结构的统一和扩展版本。 单个OmniNet体系结构可以对几乎任何现实领域(文本,图像,视频)的多个输入进行编码,并能够跨多种任务进行异步多任务学习。 OmniNet体系结构包含多个称为神经外围设备的子网,用于将特定于域的输入编码为时空表示形式,并连接到称为中央神经处理器(CNP)的通用中央神经网络。 CNP实现了基于变压器的通用时空编码器和多任务解码器。 该存储库包含用于的官方Pytorch实施(Pramanik等)。 本文演示了OmniNet的一个实例,该实例经过联合训练以执行
2023-04-11 15:36:51 17.41MB nlp machine-learning deep-learning neural-network
1
bert-base-chinese bert中文预训练基线模型
2023-04-08 23:27:52 726.81MB bert chinese nlp
1
幽默是一种特殊的语言表达方式,在日常生活中扮演着化解尴尬、活跃气氛、促进交流的重要角色。而幽默计算是近年来自然语言处理领域的新兴热点之一,其主要研究如何基于计算机技术对幽默进行识别、分类与生成,具有重要的理论和应用价值。 本资源是基于基于bert的幽默识别模型,请结合我的博客使用!
2023-04-07 17:51:13 362.39MB nlp bert 预训练模型 python
1
Gensim数据有什么用? 研究数据集经常消失,随时间变化,变得过时或没有理智的实现来处理数据格式的读取和处理。 因此,Gensim推出了自己的d Gensim数据的用途是什么? 研究数据集经常消失,随时间变化,变得过时或没有理智的实现来处理数据格式的读取和处理。 因此,Gensim推出了自己的数据集存储,致力于提供长期支持,合理的标准化用法API,并专注于非结构化文本处理(无图像或音频)的数据集。 该Gensim数据存储库用作该存储。 您无需直接使用此存储库。 因斯泰
2023-04-04 23:05:25 22KB Python Deep Learning
1
COAE2016 评测是在前七届中文倾向性评测分析的基础上重点对于微博观点摘要(Task1)、用户评论的倾向与方面进行评测(Task2),同时增设关系分类和关系对抽取评测任务(Task3)。此数据集中主要有影视评论数据训练集与测试集(对应Task2),以及含实体等信息的网络文本数据训练集与测试集(对应Task3)。
2023-03-28 10:57:58 435KB NLP
1