说明 本文是方法记录,不是完整的项目过程(在我Jupyter上,数据前期预处理部分懒得搬了),也没有调参追求准确度(家里电脑跑不动)。 参考任务来源于Kaggle,地址:电影评论情感分类 本文参考了不同的资料来源,包括斯坦福CS224N的课程资料,网上博客,Keras官方文档等 任务核心部分 1.单词表示 1.1 理论部分 对大部分(或者所有)NLP任务,第一步都应该是如何将单词表示成符合模型所需要的输入。最直接的思路就是将单词(符号)变为词向量。 词向量的表示方法: one-hot 编码:想法直接,但过于稀疏,且词与词之间正交,无法衡量词之间的相似度 基于矩阵分解的方法:比如不同词窗的矩阵,
2021-12-05 23:21:52 131KB dd ed IN
1
D向量 这是经过GE2E损失训练的扬声器嵌入的PyTorch实现。 有关GE2E丢失的原始文章可以在这里找到: 用法 import torch import torchaudio wav2mel = torch . jit . load ( "wav2mel.pt" ) dvector = torch . jit . load ( "dvector.pt" ). eval () wav_tensor , sample_rate = torchaudio . load ( "example.wav" ) mel_tensor = wav2mel ( wav_tensor , sample_rate ) # shape: (frames, mel_dim) emb_tensor = dvector . embed_utterance ( mel_tensor ) # shape: (emb
1
实体对齐旨在在不同的知识图(KG)中找到引用同一真实世界对象的实体。 KG嵌入的最新进展推动了基于嵌入的实体对齐的出现,该对齐方式在连续的嵌入空间中对实体进行编码,并根据学习到的嵌入来度量实体的相似性。 在本文中,我们对这一新兴领域进行了全面的实验研究。 这项研究调查了23种最新的基于嵌入的实体对齐方法,并根据它们的技术和特征对其进行了分类。 我们进一步观察到,当前的方法在评估中使用不同的数据集,并且这些数据集中的实体的程度分布与真实的KGs不一致。 因此,我们提出了一种新的KG采样算法,通过该算法我们可以生成一组具有各种异质性和分布的专用基准数据集,以便进行实际评估。 这项研究还产生了一个开源库,其中包括12种代表性的基于嵌入的实体对齐方法。 我们在生成的数据集上对这些方法进行了广泛的评估,以了解它们的优势和局限性。 此外,对于当前方法中尚未探索的几个方向,我们进行探索性实验并报告我们的
1
不是做NLP方向对这方面之前也并不了解,但本科学习过文本挖掘课程,在数据挖掘的时候偶尔会涉及到对本文特征的处理,只好趁着机会再学习总结下。 embedding 简单来说,embedding就是用一个低维的向量表示一个物体,可以是一个词,或是一个item(商品,或是一个电影等等)。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义,比如 Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近,但 Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会远一些。 除此之外Embedding甚至还具有数学运算的关系,比如Embed
2021-11-24 14:51:40 249KB dd ed em
1
TE故障检测数学代码用于故障检测的动态图嵌入 论文“用于故障检测的动态图嵌入”的代码 Matlab版本应晚于R2015b 演示代码可在目录“ Matlab_code”中找到。 开发它们以对故障1的数据进行故障检测。开发文件“ myConstructW.m”以获得等式(6)的相似性。 在文件中,我们根据本文中的等式给出注释。 主程序“ myfunction_tensorLPP_markov_paper.m”可以直接运行。 “ TensorLGE.m”和“ TensorLPP.m”是主程序所需的代码。 “ TensorLGE.m”和“ TensorLPP.m”都是由邓凯(Deng cai)设计的,邓蔡是发表在《神经信息处理系统18》(NIPS 2005)上的论文“ Tensor子空间分析”的第二作者。 文件“ kde.m”是内核密度估计的代码,用于确定T2和SPE统计信息的控制限制。 “ File_published_by_matlab_in_PDF.pdf”是运行结果以及使用MATLAB:registered:R2015b发布的代码。 “ Files_and_results_published_by_matl
2021-11-23 16:37:37 331KB 系统开源
1
Learning with Hypergraphs: Clustering, Classification, and EmbeddingDengyong Zhou†, Jiayuan Huang‡, and Bernhard Schölkopf§ †NEC Laboratories America, Inc.4 Independence Way, Suite 200, Princeton, NJ 08540, USA ‡School of Computer Science, University of WaterlooWaterloo ON, N2L3G1, Canada §Max Planck Institute for Biological CyberneticsSpemannstr. 38, 72076 Tübingen, Germany {dengyong.zhou, jiayuan.huang, bernhard.schoelkopf}@tuebingen.mpg.deAbstractWe usually endow the investigated objects wi
2021-11-16 13:34:00 264KB Papers Specs Decks Manuals
1
快步走 node2vec随机游走的多线程实现。 介绍 该存储库提供了node2vec随机遍历的多线程实现,并具有基于LRU缓存的别名表,它可以在有限的内存使用情况下进行处理,因此可以在单台计算机上遍历大型图。 测试了包含参数的23000个节点和2300万条边的图形 --walk_length=80 --num_walks=10 --workers=20 --max_nodes=50000 --max_edges=100000 --p=10 --q=0.01 仅使用了11GB的内存,并在2小时内完成遍历。 有关更多信息,请访问 。 先决条件 g ++ 4.8+。 用法 准备具有以下格式的输入数据: node1 node2 [edge_weight] node2 node3 [edge_weight] ... 默认情况下,edge_weight是1.0。 编译: make 运行
2021-11-14 21:26:26 12KB embedding node2vec C++
1
循环神经网络-Embedding
2021-11-03 20:08:31 51KB rnn 自然语言处理
1
今天的这篇论文是 MSRA 2015 年的工作——《LINE: Large-scale Information Network Embedding》,截至目前共有 1900 多引用,主要的是如何在大尺度网络中应用 Embedding 技术。 1. Introduction 之前介绍的 DeepWalk 采用分布式并行方式来训练模型,但如果在硬件资源有限的条件下该如何训练出一个拥有百万结点和数十亿条边的网络呢?针对这种情况,MSRA 的同学们提出了一种可以应用于这种大规模网络计算的新型算法——LINE。LINE 适用于任何类型的网络结构,无论是有向图还是无向图,以及是否加权(DeepWalk 只
2021-10-13 10:51:33 623KB alias dd ed
1
中文XLNet预训练模型,该版本是XLNet-base,12-layer, 768-hidden, 12-heads, 117M parameters。
1