首页> 中文学位 >基于TF算法的英文科技文献关键词提取方法研究
【6h】

基于TF算法的英文科技文献关键词提取方法研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 研究技术路线图与创新点

2 关键词提取的相关技术理论与方法

2.1关键词概述及相关技术

2.2 常用的提取算法介绍

2.3 本章小结

3 英文科技文献的相关描述

3.1 英文科技文献的界定

3.2基于英文科技文献的关键词提取技术优势与不足之处

3.3 本章小结

4 结合统计分析的关键词提取法

4.1 TF-IDF算法

4.2 基于TF-IDF算法的语料库的种类与选择

4.3过滤词库的建立

4.4 本章小结

5 基于候选关键词在文中位置不同的P-TF-IDF算法的提出

5.1 候选关键词在文中的位置

5.2 候选关键词在文中的集中程度

5.3 P-TF-IDF算法特征选取与权重计算

5.4本章小结

6 实验及结果分析

6.1 实验数据构建

6.2 分词系统与文本预处理

6.3 实验数据及分析评价

6.4 本章小结

7 总结与展望

7.1 总结

7.2 展望

参考文献

攻读硕士期间论文发表情况

致谢

展开▼

摘要

随着学术交流的国际化水平越来越高,如何使我国读者在英文素养不高的基础上对大量的英文科技文献进行有效阅读,并且迅速获取英文文献的信息,已经成为我国学者研究的一个重要课题,关键词挖掘提取技术可以很好的将英文文献中的信息进行挖掘和提取,是一种解决我国学者对英文科技文献需求困境的可行途径。
  本文对英文科技文献文本关键词采用统计方法、机器学习相结合的方法进行挖掘提取,通过现有的tf-idf算法和位置权重相结合的方法实现英文科技文献关键词的提取,在提取的过程中文本的预处理、过滤词库的建立和语料库的选择是影响关键词提取技术的重要因素。本文的主要内容如下:
  1.建立过滤词库:通过统计对比的方式将英文科技文献中具有共性的、无实际意义的、特殊的单词提取出来形成过滤词库。
  2.确定候选关键词位置及其权重:将候选关键词位置进行定义和区分,并且采用统计和概率的方法分别确定文章标题、文章章节标题和正文的三类位置权重。
  3.提出并详细介绍P-TF-IDF算法的原理和具体步骤。
  通过实验对比分析P-TF-IDF算法和TF-IDF算法的不同,实验表明P-TF-IDF算法不仅能够考虑到候选关键词词频的重要性,也能够将候选关键词位置的权重考虑进来,在提取关键词的精确度上相对仅仅依靠词频的TF-IDF算法有明显的改善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号