在当今信息高度发达的社会中,人们每天都会接触到大量的信息。由于信息的来源多样性和传播速度的迅速性,不可避免地会产生和传播谣言。谣言不仅会误导公众,扰乱社会秩序,甚至可能会对社会稳定和公共安全造成严重影响。因此,如何快速且准确地检测和识别谣言成为了一个亟待解决的问题。基于Transformer模型的谣言检测系统应运而生,它的出现标志着信息检测技术的一大进步。 Transformer模型是一种深度学习模型,它通过自注意力机制(Self-Attention)来捕捉序列中各个元素之间的关系,从而处理序列数据。该模型最初是在自然语言处理(NLP)领域内大放异彩,尤其是通过其变体BERT(Bidirectional Encoder Representations from Transformers)在多个NLP任务中取得了卓越的性能,包括文本分类、问答系统、文本生成等。由于谣言检测本质上可以被视为一种文本分类任务,因此将Transformer模型应用于谣言检测自然成为了一种理想的解决方案。 基于Transformer的谣言检测系统通常涉及以下几个关键部分:数据预处理、模型构建、训练与评估。数据预处理是系统工作的第一步,涉及到对数据集的清洗和标注。谣言检测的数据集通常包含大量的文本数据,这些数据需要经过分词、去除停用词、进行词干提取等处理。在标注方面,需要有专家对数据集中的文本进行谣言或非谣言的分类标注,这是构建有效模型的基础。 模型构建阶段,研究者会利用预训练的Transformer模型,如BERT,作为谣言检测的基础架构。通过微调(Fine-tuning)预训练模型,使其适应谣言检测这一特定任务。微调过程中,模型的参数会根据谣言检测数据集进行优化调整。为了提升模型的性能,研究者通常会采用一些高级技巧,比如正则化方法、学习率调整策略等。 训练与评估是谣言检测系统开发的重要环节。在训练阶段,模型需要在训练集上进行迭代学习,不断地优化参数以最小化预测结果与真实结果之间的差异。这通常涉及到诸如交叉熵损失函数、Adam优化器等深度学习训练方法。在训练完成后,需要在独立的验证集和测试集上对模型性能进行评估,常用的评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数等。这些指标能够全面地反映模型在谣言检测任务上的性能表现。 本系统采用PyTorch框架进行开发。PyTorch是一个开源的机器学习库,它提供了强大的张量计算功能,并支持自动微分系统,非常适合用于构建和训练深度学习模型。使用PyTorch,研究者可以方便地构建复杂的数据流图和网络结构,实现高效的模型训练和调试。 该系统的代码实现和数据文件的公开,使得更多的研究者和开发者能够接触和学习该技术。这对于推动谣言检测技术的发展,以及提升大众的信息素养具有重要的意义。通过不断地研究和实践,基于Transformer的谣言检测系统有望在未来的谣言防控工作中发挥越来越大的作用。
2025-06-04 10:20:05 366.8MB Transformer PyTorch
1
绍研究所使用的微博数据集的结构和规模。然后介绍了本文进行早期谣言检测的实现原理。接着对本文所实现的谣言检测模型性能的评估方法进行了说明。最后对实验结果进行了分析,并提出了本文实验中存在的一些不足以及未来模型改进的方法。详细设计见md文件。
2023-02-19 17:11:51 296.6MB 机器学习
1
社会网络信息的可信度问题近年来受到了相当大的关注。谣言的散播可能造成社会恐慌,引发信任危机。在国内,新浪微博用户量的快速增长,使其成为了谣言传播的温床。及时清理在新浪微博中传播的谣言,对于社会的和谐发展有着现实的意义。该文以新浪微博为背景,将谣言检测任务作为分类问题,首次提出将微博评论的情感倾向作为谣言检测分类器的一项特征。实验结果表明,引入评论的评论情感倾向特征后,使得谣言检测的分类结果得到了可观的提升。
2022-05-19 15:29:32 1.37MB 新浪微博 谣言检测
1
在社交媒体谣言检测问题上, 现有的基于特征表示学习的研究工作大多数先把微博事件划分为若干个时间段, 再对每个时间段提取文本向量表示、全局用户特征等, 忽略了时间段内各微博间的时序信息, 且未利用到在传统机器学习方法中已取得较好效果的文本潜在信息和局部用户信息, 导致性能较低. 因此, 本文提出了一种基于分层注意力网络的社交媒体谣言检测方法. 该方法首先将微博事件按照时间段进行分割, 并输入带有注意力机制的双向 GRU 网络, 获取时间段内微博序列的隐层表示, 以刻画时间段内微博间的时序信息; 然后将每个时间段内的微博视为一个整体, 提取文本潜在特征和局部用户特征, 并与微博序列的隐层表示相连接, 以融入文本潜在信息和局部用户信息;最后通过带有注意力机制的双向 GRU 网络, 得到时间段序列的隐层表示,进而对微博事件进行分类. 实验采用了新浪微博数据集和Twitter数据集,实验结果表明,与目前最好的基准方法相比,该方法在新浪微博数据集和 Twitter 数据集上正确率分别提高了1.5% 和1.4%,很好地验证了该方法在社交媒体谣言检测问题有效性.
2022-05-06 10:37:15 1.33MB 研究论文
1
分析框架 文本建模 特征建模 主题建模
2022-04-29 16:08:26 58.89MB 中文谣言检测程序及数据
谣言语句检测数据集.zip
2022-04-20 17:06:37 58.35MB 谣言检测数据集 谣言语句检测
社会网络信息的可信度问题近年来受到了相当大的关注。谣言的散播可能造成社会恐慌,引发信任危机。在国内,新浪微博用户量的快速增长,使其成为了谣言传播的温床。及时清理在新浪微博中传播的谣言,对于社会的和谐发展有着现实的意义。该文以新浪微博为背景,将谣言检测任务作为分类问题,首次提出将微博评论的情感倾向作为谣言检测分类器的一项特征。实验结果表明,引入评论的评论情感倾向特征后,使得谣言检测的分类结果得到了可观的提升。
2022-03-29 16:28:04 1.98MB 新浪微博 谣言检测
1
本文解决了在更现实的社交媒体场景下的假新闻检测问题。给定源短文本推文和相应的没有文本评论的转发用户序列,我们的目的是预测源推文是否是假的,并通过突出可疑转发者的证据和他们关注的词语来产生解释。为了实现这一目标,我们提出了一种新的基于神经网络的模型--图感知协同注意网络(GCAN)。在真实推文数据集上进行的广泛实验表明,GCAN的平均准确率比最先进的方法高出16%。此外,案例研究还表明,GCAN可以给出合理的解释。
2022-03-22 17:02:37 1.01MB FakeNewsDetection 目标检测 GCAN 谣言
在微博谣言检测中,对微博谣言进行正确标注需要耗费大量的人力和时间,同时数据类别的不平衡也影响了微博谣言的正确识别。为了解决该问题,提出一种基于Co-Forest算法针对不平衡数据集的改进方法,利用SMOTE算法和分层抽样平衡数据分布,并通过代价敏感的加权投票法来提高对未标记样本预测的正确率。该方法只需要对少量训练数据实例进行谣言类别标注即可有效检测谣言。10组UCI测试数据和2组微博谣言的实证实验证明了算法有效性。
1
在线社交网络上的谣言检测研究最后一年研究项目的源代码。 抽象 这项研究旨在确定诸如Twitter和Facebook之类的在线社交网络上谣言的关键特征。 鉴于互联网作为新闻来源的普及性以及互联网上信息的不断增长,自动识别谣言的重要性正变得越来越重要。 开发了一组定性和定量指标,以更好地了解每个搜索查询的特征及其生成的结果数据集。 定量指标表明数据集的大小,而定性指标则评估数据集的新闻/谣言纯度和上下文纯度。 指标将指示数据集从数据集中剖析不同上下文所需的预处理工作量,并使其对进一步分析更加有用。 利用计算机科学和社会科学的现有文献,进行了三个实验: 数据集的总体情绪概况是什么? 在以谣言为中
2021-12-10 16:07:26 4.41MB python machine-learning twitter sentiment-analysis
1