子神经网络 NeurIPS 2020论文存储库: 作者: , ,, 要使用SubGNN,请执行以下操作: 安装环境 准备数据 在config.py修改PROJECT_ROOT 修改适当的config.json文件 训练和评估SubGNN 安装环境 我们提供了一个yml文件,其中包含SubGNN的必要软件包。 一旦安装了 ,就可以创建如下环境: conda env create --file SubGNN.yml 准备数据 通过(1)下载我们提供的数据集或按照prepare_dataset文件夹README中的步骤来为SubGNN准备数据,(2)生成合成数据集或(3)格式化您自己的数据。 真实数据集:我们将发布四个新的真实数据集:HPO-NEURO,HPO-METAB,PPI-BP和EM-USER。 您可以 从Dropbox下载这些文件。 您应该解压缩文件夹并将config.py的P
2025-10-21 11:52:49 87KB embeddings graph-neural-networks Python
1
在IT领域,特别是自然语言处理(NLP)中,BERT(Bidirectional Encoder Representations from Transformers)是一种革命性的预训练模型,由Google在2018年提出。它通过深度学习技术,利用Transformer架构实现了对文本的上下文感知的语义理解。本项目“Contextual-Embeddings-using-BERT-Pytorch--main”显然是一个使用PyTorch框架实现BERT的示例,重点在于如何在实际应用中获取并使用BERT的上下文嵌入。 让我们深入了解BERT的核心概念。BERT模型设计的目标是捕捉到词语在句子中的前后关系,即双向上下文信息。传统的词嵌入如Word2Vec或GloVe只能提供单向信息,而BERT则通过掩码语言模型(Masked Language Model, MLM)和下一句预测任务(Next Sentence Prediction, NSP)两个预训练任务,使得模型能够理解词语的全面语境。 在PyTorch中实现BERT,通常需要以下步骤: 1. **环境准备**:安装必要的库,如`transformers`,它是Hugging Face提供的库,包含了多种预训练模型,包括BERT。同时,可能还需要`torch`和`torchvision`等库。 2. **加载预训练模型**:使用`transformers`库中的`BertModel`类加载预训练的BERT模型。你可以选择不同的版本,如`bert-base-chinese`用于中文任务。 3. **构建输入**:BERT模型需要的输入包括Token IDs、Segment IDs和Attention Masks。Token IDs将文本转换为模型可以理解的数字序列,Segment IDs区分不同句子,Attention Masks则用于指示哪些位置是填充的(不可见)。 4. **前向传播**:将输入传递给模型,模型会返回每一层的隐藏状态。对于上下文嵌入,通常关注的是最后一层的输出,因为它包含最丰富的语言信息。 5. **获取嵌入**:从模型的输出中提取特定位置的嵌入,这些嵌入可以用于下游任务,如分类、问答或句对匹配。 6. **微调**:如果目标任务与预训练任务不同,需要在加载预训练权重的基础上进行微调。这通常涉及在附加的分类层上进行反向传播。 7. **Jupyter Notebook**:由于标签提到了“Jupyter Notebook”,我们可以假设这个项目是通过交互式笔记本进行的,这便于代码实验、数据可视化和结果解释。 在这个项目中,开发者可能已经实现了以上步骤,并提供了运行示例,让你可以直接在自己的环境中运行BERT,获取上下文嵌入。这可能是对某个具体NLP任务的演示,如文本分类或情感分析。通过阅读和运行这个项目,你可以更深入地理解如何在实践中应用BERT,以及如何利用上下文嵌入来提升模型的表现。
2025-09-24 16:05:34 4KB JupyterNotebook
1
球形文字嵌入 在NeurIPS 2019中发布的用于Spherical Text Embedding的源代码。代码结构(尤其是文件读取和保存功能)改编自。 要求 GCC编译器(用于编译源c文件):请参阅有关的。 预训练的嵌入 我们在上提供了经过预训练的JoSE嵌入。 与诸如Word2Vec和GloVe之类的欧几里德嵌入不同,球形嵌入不一定受益于高维空间,因此,首先从低维嵌入开始可能是一个好主意。 运行代码 我们提供了一个shell脚本run.sh来编译源文件和训练嵌入。 注意:在准备训练文本语料库时,请确保文件中的每一行都是一个文档/段落。 超参数 注:建议使用默认的超参数,尤其是阴性样品(数量-negative )和损失函数保证金( -margin )。 调用不带参数的命令以获得超参数及其含义的列表: $ ./src/jose Parameters: -train
2025-09-11 16:32:18 10.76MB word-embeddings unsupervised-learning
1
我们将看到如何使用dlib从图像中提取人脸嵌入并将其可视化。 在python笔记本中运行代码以生成嵌入。 #Run下面的命令以可视化tensboard。 将logdir路径替换为您的自定义路径 tensorboard --logdir = /用户/ anshu / meet-up / internship / recognition / face-embeddings / embeddings-logs / --port = 6006
2023-04-05 19:46:25 193.17MB JupyterNotebook
1
更新:现在可以嵌入预训练的通用句子编码器和BERT句子转换器。阅读。 Top2Vec Top2Vec是用于主题建模和语义搜索的算法。它会自动检测文本中存在的主题,并生成联合嵌入的主题,文档和单词向量。训练Top2Vec模型后,您可以: 获取检测到的主题数。 获取主题。 获取主题大小。 获取层次结构主题。 通过关键字搜索主题。 按主题搜索文档。 通过关键字搜索文档。 查找类似的单词。 查找类似的文档。 使用公开模型 有关其工作原理的更多详细信息,请参见。 好处 自动查找主题数。 无需停用词列表。 无需词干/词形限制。 适用于短文本。 创建联合嵌入的主题,文档和单词向量。 内置搜索功能。 它是如何工作的? 该算法所做的假设是,许多语义上相似的文档都表明了一个潜在的主题。第一步是创建文档和单词向量的联合嵌入。将文档和单词嵌入向量空间后,算法的目标是找到文档的密集簇,然后确定哪些单词将这些文档
2023-03-09 13:56:41 6.48MB word-embeddings topic-modeling semantic-search bert
1
Big5-性格React烧瓶 这是一个项目,我们可以在该项目上构建一个React应用并调用端点进行预测。 使用的模型是随机森林回归器和随机森林分类器。 使用myPersonality项目( )的数据集对模型进行训练。 模型使用回归模型生成预测的人格得分,并使用分类模型针对每个人格特征生成二元类别的概率。 技术领域 后端烧瓶 前端React 修改后的准备 Create-react-app创建一个基本的React应用程序。 接下来,加载了引导程序,该引导程序使我们可以为每个屏幕尺寸创建响应式网站。 在App.js文件中,添加了带有textarea和Predict按钮的表单。 将每个表单属性添加到状态,并在按下Predict按钮时,将数据发送到Flask后端。 将样式添加到页面的App.css文件。 Flask应用程序具有POST终结点/预测。 它接受输入值作为json,将其转换为数组,并使
2023-03-08 15:34:48 116.93MB deep-learning reactjs word word-embeddings
1
CodeSnippetSearch CodeSnippetSearch是一个Web应用程序和一个Web扩展,允许您使用自然语言查询和代码本身搜索GitHub存储库。 它基于使用PyTorch和项目中的数据的单词代码搜索实现的神经袋。 模型培训代码受到CodeSearchNet存储库中基线(Tensorflow)实现的极大启发。 当前,支持Python,Java,Go,Php,Javascript和Ruby编程语言。 有用的论文: 型号说明 模型结构 项目结构 code_search :一个带有脚本的Python包,用于准备数据,训练语言模型并保存嵌入 code_search_web :CodeSnippetSearch网站Django项目 serialized_data :在训练期间存储中间对象(文档,词汇表,模型,嵌入等) codesearchnet_data :来自CodeSe
1
情境化主题模型 上下文化主题模型(CTM)是一系列主题模型,这些主题模型使用语言的预训练表示形式(例如BERT)来支持主题建模。有关详细信息,请参见论文: Bianchi,F.,Terragni,S.,Hovy,D.,Nozza,D.,&Fersini,E.(2021)。具有零镜头学习功能的跨语言情境主题模型。 EACL。 Bianchi,F.,Terragni,S.和Hovy,D.(2020年)。预培训是一个热门话题:上下文化文档嵌入可提高主题一致性 具有上下文嵌入的主题建模 我们的新主题建模系列支持许多不同的语言(即,HuggingFace模型支持的一种),并有两个版本: CombinedTM将上下文嵌入与旧的单词组合在一起,以使主题更连贯; ZeroShotTM是完成任务的理想主题模型,在该模型中,您可能在测试数据中缺少单词,并且,如果经过多语言嵌入训练,则可以继承多语言主题模型
2022-08-13 12:32:38 31.14MB nlp embeddings transformer topic-modeling
1
弹性蛋白 Elasticsearch插件,用于在密集的浮点和稀疏布尔向量上进行相似性搜索。 文献资料 如果您想为Elastiknn做出贡献,请参阅developer-guide.md。 社区 如果您有疑问,错误等,请在上。 用户数 您正在使用Elastiknn吗? 如果是这样,请考虑提交拉取请求以在下面列出您的组织。 :使用Elastiknn进行数百万个图像集中的反向图像查找 建物 建造 地位 Github CI构建 Github发布版本 发行版 神器 释放 快照 资料下载 Elasticsearch插件zip文件 Elastiknn的Python HTTP客户端 具有精确和近似向量相似性模型的Java库 带Lucene查询和Elastiknn中使用的构造的Java库 Elastiknn JSON API的Scala案例类和圆形编解码器 基于elastic4s的Elast
1
站点 小号ELF-细心BiLSTM-ÇRF瓦特第I和T ransferredËmbeddings为因果关系提取。 arXiv论文链接: : 免费访问链接: : (论文中的表6似乎没有被正确编辑...) 强调 提出了一种新颖的因果关系标记方案以服务于因果关系提取 嵌入的嵌入大大减轻了数据不足的问题 自我注意机制可以捕获因果关系之间的长期依赖关系 实验结果表明,该方法优于其他基准 抽象的 从自然语言文本中提取因果关系是人工智能中一个具有挑战性的开放性问题。 现有方法利用模式,约束和机器学习技术来提取因果关系,这在很大程度上取决于领域知识,并且需要相当多的人力和时间来进行特征工程。 在本文中,我们基于新的因果关系标记方案,将因果关系提取公式指定为序列标记问题。 在此基础上,我们提出了一种以BiLSTM-CRF模型为骨干的神经因果提取器,称为SCITE(自注意力BiLSTM-CRF传递嵌
1