您现在的位置: 首页> 研究主题> 关键词抽取

关键词抽取

关键词抽取的相关文献在1998年到2023年内共计218篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究 等领域,其中期刊论文126篇、会议论文8篇、专利文献26338篇;相关期刊70种,包括情报理论与实践、情报学报、现代图书情报技术等; 相关会议8种,包括2011年安徽省智能电网论坛、第十一届全国计算语言学学术会议、第六届全国信息检索学术会议等;关键词抽取的相关文献由549位作者贡献,包括吴信东、李涓子、谢飞等。

关键词抽取—发文量

期刊论文>

论文:126 占比:0.48%

会议论文>

论文:8 占比:0.03%

专利文献>

论文:26338 占比:99.49%

总计:26472篇

关键词抽取—发文趋势图

关键词抽取

-研究学者

  • 吴信东
  • 李涓子
  • 谢飞
  • 唐杰
  • 夏天
  • 孙新
  • 张超
  • 张颖怡
  • 张颖捷
  • 曾伟辉
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 孟旭阳; 白海燕
    • 摘要: [目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。
    • 于腊梅; 杨良斌
    • 摘要: 将信息熵融入TextRank算法中分词器部分以改善关键词抽取的准确度。在分词前,先用信息熵的方式提取文章的关键新词,加入到分词字典中,使分词器能够自主识别新词,以增强文章关键词提取的准确性。当语料中存在新词的时候,关键词抽取准确度效果提升明显,对不存在新词的语料关键词抽取准确度无明显提升。改善分词效果可以提升关键词抽取准确度。
    • 韩红旗; 桂婕; 张运良; 翁梦娟; 薛陕; 悦林东
    • 摘要: 现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。
    • 段建勇; 鲁朝阳; 王昊; 李欣; 何丽
    • 摘要: [目的/意义]关键词抽取技术可以帮助用户从海量文本中快速定位核心内容,对情报收集工作有着重要意义。目前,关键词抽取主要依靠词频和共现关系,忽视了知识库对关键词抽取的指导作用。[方法/过程]本文提供了一种融合知识的关键词抽取方法,首先基于义原和词林构建词汇知识图谱,其次结合词语的共现关系,生成新的概率转移矩阵,最后实现关键词抽取。[结果/结论]基于海量摘要数据集的实验表明,融合知识的关键词抽取方法,能有效提高现有关键词抽取方法的性能。
    • 苗宇; 金醒男; 杜永萍
    • 摘要: 在大数据时代,用户画像对于企业了解并获取目标用户的重要性日益提升,但基于统计的用户画像方法无法处理非结构化的文本数据,而传统的基于模型的用户画像方法亦无法从多角度深层次提取用户特征。为实现更加全面且精准的用户属性预测,该文提出一种基于多层级特征提取的融合网络用户画像生成方法,通过对用户原始文本关键词的提取和排序,分别生成基于top 2关键词的子句表示和top N关键词的词向量,并结合循环神经网络和注意力机制,构建多层次用户特征提取的分类模型,利用原始用户数据进行用户属性预测。在搜狗用户搜索文本数据集上的实验表明,文中模型较其他基线模型在分类准确率上显著提升,达到0.73,通过消融实验进一步表明各个模块均为有效提取用户特征从而提升分类准确率发挥了重要作用。
    • 张晓涵; 吕金鑫
    • 摘要: 随着互联网行业的发展,在灾难发生期间,社交媒体已经成为公众重要的交流手段,通过对受灾地区公众的社交媒体数据进行合理的抽取与内容分析,可以为应急管理人员提供有效的决策支持。本研究选取了2021年10月山西暴雨期间的微博数据作为研究数据,通过运用词频-逆文档频率算法(TF-IDF)、中文词法分析(LAC)和百度AI(Artificial Intelligence)情感分析等方法对社交媒体数据进行综合分析以获取该灾害下公众情感以及公众注意力焦点变化趋势,为新媒体时代救援减灾工作提供支撑。
    • 姚奕; 杨帆
    • 摘要: 关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战。一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想。针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法。该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序。在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验。实验结果表明,该模型相比多种基线方法,准确率均有所提升,在CLTS数据集上与传统统计方法 TF-IDF相比F1值提高了9.14%,与传统图方法 TextRank相比F1值提高了4.82%。
    • 胡觉亮; 徐瑶瑶; 董建明
    • 摘要: 为有效指导服装企业生产经营决策,选取服装网购评论为数据样本和研究对象,提出了基于服装网购评论的消费热点情报分析方法,以探究消费者对所采购的服装的关注热点.采用网络爬虫技术采集服装网购评论数据并进行预处理后,利用SnowNLP技术进行情感倾向性分类.在关键词抽取时针对分词过程存在错分专业词汇问题,引入服装专业领域分词词典和停用词典,并结合GooSeeker方法和人工调整方法进一步提高关键词抽取精准度.关键词抽取后建立共词矩阵,并聚类进行社会网络分析得到消费热点情报信息.以真丝服装网购评论进行实证分析以验证方法的有效性.结果发现:真丝服装网购消费者依次易就面料、颜色、尺码、质量等热点关键词给出负面反馈;此外还得到这些热点关键词关联的负面反馈信息及与其他热点关键词之间的相互关系,如面料的负面反馈主要与薄透、褶皱、缩水和引申的丝料价格贵有关,对面料差评的消费者往往会更关注尺码、物流、价格以及退换货等信息.
    • 章成志; 胡少虎; 张颖怡
    • 摘要: 眼动数据记录了浏览者在浏览信息时的眼球轨迹,已有研究依据眼动数据度量阅读者在不同单词上的注意力强弱,并进一步将该特征加入微博关键词抽取模型中,从而提高抽取模型的性能.然而,目前的微博关键词抽取模型仅考虑通用领域眼动数据的总注视时长这一特征,尚未全面探究眼动数据对微博关键词抽取任务性能的影响.因此,本文将从眼动特征的选择、眼动特征与文本特征的组合这两个方面,全面考察通用语料的眼动数据对微博关键词抽取任务性能的影响.同时,由于眼动数据集与测试数据集在数据规模上相差较大,使得眼动特征过于稀疏,进而影响其作用的发挥,本文提出了一个眼动数据的扩充方案用于解决这一问题.
    • 胡少虎; 张颖怡; 章成志
    • 摘要: [目的]对关键词提取研究的主要方法、相关特征以及评价方法进行总结梳理,为后续的关键词提取研究提供借鉴.[文献范围]以“Keyword Extraction”、“Keyword Generation”、“Keyphrase Extraction”、“Keyphrase Generation”、“关键词抽取”、“关键词生成”等检索式在Web of Science、DBLP、Engineering Index、Google Scholar、CNKI和万方等数据库进行检索,结合个人积累与文献溯源得到代表性文献89篇.[方法]梳理关键词提取的发展脉络,从研究方法、相关特征与评价方法三个主要方面对关键词提取的相关研究进行深入分析与总结.[结果]关键词提取方法随着机器学习技术的发展,逐步从特征驱动的模型转向数据驱动的模型,并面临数据标注、评价规范等问题.[局限]更为关注关键词提取研究中主流的方法.[结论]本文通过对关键词提取方法,尤其是关键词生成方法进行总结,阐明了关键词提取方法的研究重心从特征转向数据的趋势与原因,并指出现有关键词提取评价体系所存在的缺陷.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号