关键词搜索 查找与其他(已知)关键字相关联的(可能未知)关键字。 该程序从用户定义的种子关键字开始,从Google搜索结果中找到相关的种子关键字。 来自相关的Google图片搜索的文字也会被考虑。 重复该过程,直到达到一个停止标准(即,用户停止程序或提取的关键字不再有太大变化)为止。 桂 用户可以通过gui与迭代搜索进行交互(也可以通过编程方式与程序进行交互)。 要打开gui,请从程序目录中打开一个终端,然后键入: python kwGui.py 要启动关键字搜索,请输入搜索词,然后按Enter或单击“搜索”按钮。 关键字将显示在gui的左侧,而相关图像显示在gui的右侧。 关键字类型: 顶部(绿色):所有迭代中都包含原始(“永久”)关键字。 中(白色):相关的关键字包含在搜索词中,但它们不是永久的,可以在后续迭代中降级。 底部(灰色):其余关键字按其相关性排序。 可以通过
1
关键词提取数据集 用于开发、评估和测试关键字提取算法的不同数据集。 有关基准性能,请参阅:O. Medelyan。 2009. 。 博士论文。 新西兰怀卡托大学。 使用受控词汇表或同义词库作为来源提取关键字: NLM_500.zip - 500 个带有 MeSH 术语的 PubMed 文档 fao780.tar.gz - 780 份带有Agrovoc术语的粮农组织出版物 fao30.tar.gz - 30 份粮农组织出版物,每份均由 6 位专业的粮农组织索引员注释 自由文本关键字提取(没有词汇表): citeulike180.tar.gz - 从CiteULike抓取的 180 个出版物,以及保存这些出版物的不同 CiteULike 用户分配的关键字 SemEval2010-Maui.zip - Maui 格式的关键数据 keyphrextr.tar.gz - 使用 SemEval-
2022-05-16 20:16:33 71.92MB
1
SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上,部分管道进行了改动英文原版在。。 版本介绍 2020/03 / 03——最初最初版本本版本中只包含了最基本的功能,部分细节还有待优化和扩展。 核心算法 预训练模型ELMo +句向量模型SIF 词向量ELMo优势:1)通过大规模预训练,较早的TFIDF,TextRank等基于统计和图的具有更多的语义信息; 2)ELMo是动态的,可以改善一词多义问题; 3)ELMo通过Char -CNN编码,对生隐词非常友好; 4)不同层的ELMo可以捕捉不同层次的信息 句子矢量SIF优势:1)根据词频对词向量进行平滑逆频率变换,能更好地捕捉句子的中心话题; 2)更好地过滤通用词 最终关键焦点识别 首先对句子进行分词和词性标注,再利用正则表达式确定确定名词短语(例如:形容词+名词),将名词作为前缀关键字 最终关键利率
1
基伯特 KeyBERT是一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。 相应的媒体帖子可以在 找到。 目录 2.1。2.2。2.3。2.4。2.5。 1.关于项目 尽管已经有很多方法可用于关键字生成(例如 , ,TF-IDF等),但我想创建一种非常基本但功能强大的方法来提取关键字和关键字。这就是KeyBERT进来的地方!它使用BERT嵌入和简单的余弦相似性来查找文档中与文档本身最相似的子短语。 首先,使用BERT提取文档嵌入,以获得文档级表示。然后,针对N元语法词/短语提取词嵌入。最后,我们使用余弦相似度来查找与文档最相似的词/短语。然后,可以将最相似的词识别为最能描述整个文档的词。 KeyBERT绝不是唯一的,它是一种用于创建关键字和关键词的快速简便的方法。虽然有许多伟大的论文和解决方案,在那里,使用BERT-嵌入物(如, , ,
2021-09-22 21:15:31 77KB mmr keyword-extraction bert keyphrase-extraction
1
另一个关键字提取器(Yake) 使用文本功能自动提取关键字的无监督方法。 AKE! 是一种轻量级无监督自动关键字提取方法,该方法基于从单个文档中提取的文本统计特征来选择文本中最重要的关键字。 我们的系统不需要针对特定​​的文档集进行培训,也不必依赖于字典,外部语料库,文本大小,语言或领域。 为了展示我们建议的优点和重要性,我们将其与十种最新的无监督方法(TF.IDF,KP-Miner,RAKE,TextRank,SingleRank,ExpandRank,TopicRank,TopicalalPageRank,PositionRank和MultipartiteRank)进行比较,以及一种监督方法(KEA)。 在二十个数据集之上进行的实验结果(请参见下面的基准部分)表明,在许多不同大小,语言或领域的集合下,我们的方法明显优于最新方法。 除了此处描述的python包之外,我们还提供了一个,
1