首页> 中文期刊> 《情报学报》 >基于词形规则模板的术语层次关系抽取方法

基于词形规则模板的术语层次关系抽取方法

         

摘要

A term relationship extraction method was put forward integrating morphology rules and statistics analysis to extract two types of hierachical relations among term pairs; IS-A and PART-OF. In morphology rule analysis, five types of templates were designed to judge hierachical relations among terms with common left or right sub-string using head or modifier feature of multi terms. A generation index was put forward to measure generation degree of a term and judge hierachical position of two terms; an association index was put forward to measure association degree of term pair and judge similarity relation of two terms in concept tree. Presented methods contains following process; term generation measure computation, term pair association degree computation, morphology rule analysis and template match, non-match term pair relationship judgement. In experiments, 1306 hierarchical relation term pairs were extracted from information resource management paper corpus, and the precision is 92. 5% .%术语层次关系抽取是领域概念关系体系构建的重要基础.针对目前术语关系抽取中手工实现的问题,提出了基于词形规则模板匹配的术语层次关系抽取方法,实现从科技论文文本中抽取类属关系(IS-A)和整体部分关系(PART-OF)关系.利用复合术语的head和modifier特征,比较两个术语之间存在的边缘共用词汇,构造模板来确定它们之间的IS-A和PART-OF关系;提出泛化度指标,用于测量两个术语在概念层次树上的相对位置;提出相关度概念,用于测量两个术语之间在语义上的相关性.对不存在共用词汇和不匹配模板的术语采用泛化度差值和相关度来判断它们之间是否存在层次关系.实验从信息资源管理领域的论文文本中提取层次关系术语对1306对,准确率达到92.5%,证明提出的方法是有效的.

著录项

  • 来源
    《情报学报》 |2013年第7期|708-715|共8页
  • 作者单位

    中国科学技术信息研究所;

    北京;

    100038;

    中国科学技术信息研究所;

    北京;

    100038;

    中国科学技术信息研究所;

    北京;

    100038;

    中国科学技术信息研究所;

    北京;

    100038;

    中国科学技术信息研究所;

    北京;

    100038;

    数据工程与知识工程教育部重点实验室(中国人民大学)中国人民大学信息资源管理学院;

    北京;

    100872;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    术语关系抽取; 层次关系; 词形规则; 文本挖掘;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号