首页> 中文期刊> 《燕山大学学报》 >基于文本信息的PDF文档管理系统设计与实现

基于文本信息的PDF文档管理系统设计与实现

         

摘要

随着信息化应用程度不断提高,企业中越来越多的文本信息被存储在PDF文档中,PDF文档的数量也随之变大,为了帮助用户尽快找到需求的文本信息,并建立企业知识共享平台,本文设计了一种基于文本信息的PDF文档管理系统.首先,针对PDF文档文本信息利用率不足的问题,研究了基于Stream流的PDF文档解析方案,该方案可以用于PDF文档检索模块来进行PDF文本内容解析;其次,针对TF-IDF算法的天然缺陷,从词频、文本长度和关键词位置进行改进,进而计算得到关键词的权重值,再通过空间向量模型计算PDF文档的相似度,按照文档的权重值进行排序;最后,进行系统与功能的验证,证明了本文PDF文档管理系统内容查询具有更高准确性,为企业级智能文档管理平台提供有效和实用的方案.

著录项

  • 来源
    《燕山大学学报》 |2020年第6期|603-608|共6页
  • 作者单位

    燕山大学 信息科学与工程学院 河北 秦皇岛066004;

    大庆油田信息技术公司 北京分公司 北京100043;

    燕山大学 信息科学与工程学院 河北 秦皇岛066004;

    燕山大学 信息科学与工程学院 河北 秦皇岛066004;

    燕山大学 信息科学与工程学院 河北 秦皇岛066004;

    燕山大学 信息科学与工程学院 河北 秦皇岛066004;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 文字信息处理;
  • 关键词

    文本信息; 文件解析; 文档检索; 权重值;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号