首页> 中文学位 >基于条件随机场模型的中医文献知识发现方法研究
【6h】

基于条件随机场模型的中医文献知识发现方法研究

代理获取

目录

文摘

英文文摘

声明

致谢

1 引言

1.1 文献知识发现

1.1.1 海量的信息

1.1.2 文献知识发现的含义

1.1.3 知识发现的方法:文本挖掘

1.2 生物医学文献知识发现

1.2.1 生物医学文献知识发现的背景

1.2.2 生物医学文本挖掘的国内外研究现状

1.3 中医文献知识发现

1.4 本文的研究内容

1.5 本文的结构组织

2 理论基础

2.1 文本挖掘

2.1.1 文本挖掘的定义

2.1.2 文本挖掘的过程

2.2 中医药和生物医学文献文本挖掘

2.2.1 生物医学文献文本挖掘

2.2.2 中医药文献文本挖掘

2.2.3 整合文本挖掘

2.3 信息抽取

2.3.1 信息抽取的基本概念

2.3.2 信息抽取的发展

2.3.3 信息抽取的分类

2.4 命名实体识别

2.4.1 命名实体识别简介

2.4.2 生物医学命名实体识别

2.4.3 生物医学命名实体识别方法

2.4.4 中医药文献命名实体识别

2.5 本章小结

3 两种基于统计方法的命名实体识别模型

3.1 问题的形式化描述

3.2 概率模型

3.3 两种基于统计方法的判别式模型

3.3.1 MEMM

3.3.2 CRF

3.4 本章小结

4 基于CRF的基因实体识别

4.1 基因实体识别流程

4.2 实验数据集

4.2.1 生物医学语料库资源

4.2.2 JNLPBA2004 数据集

4.2.3 BioCreAtIvE数据集

4.2.4 数据集处理

4.3 实验结果与分析

4.3.1 测评指标

4.3.2 实验结果

4.4 基于CRF的基因实体识别系统

4.5 本章小结

5 基于CRF的疾病实体识别

5.1 问题的提出

5.2 Bubble-bootstrapping方法介绍

5.2.1 Bootstrapping技术

5.2.2 Bubble-bootstrapping算法

5.3 Bubble-bootstrapping生成数据集

5.3.1 Bubble-bootstrapping语料标注的意义

5.3.2 Bubble-bootstrapping语料标注

5.3.3 数据集处理

5.4 基于CRF模型的中文疾病名称识别

5.4.1 基于CRF模型的中文疾病名称识别流程

5.4.2 实验数据集

5.5 实验结果与分析

5.6 基于CRF的疾病实体识别系统

5.7 本章小结

6 总结与展望

参考文献

作者简历

展开▼

摘要

随着计算机技术及医学技术的进步,当前医学相关的数据正在呈“爆炸”式增长。大量的医学数据以文本的形式被记载在各种医学文献中并存储于数据库,如中医药文献库和MEDLINE数据库。如何整合这些数据资源发现其中隐藏的知识对于解释人体复杂生命现象具有重要意义。 命名实体识别(Named Entity Recognition,NER)是文献知识发现最首要的且是最重要的步骤。本文在系统分析和阐述生物医学文献知识发现相关方法后,介绍了命名实体识别的概念、方法及模型,并主要分析了两种判别式模型:条件随机场模型(Conditional Random Field,CRF)和最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)。 首先,基于目前可以在生物医学命名实体识别研究领域获得的大量标注语料,以CRF为模型的基因实体识别实验取得了令人满意的效果。并通过实验表明CRF相比于MEMM具有更好的性能,从而将CRF作为本文进行中医文献知识发现的基因实体识别模型,为中医整合文本挖掘中分子生物学命名实体的自动识别奠定基础。 其次,在中医药学研究领域,几乎无法获得大规模关于实体标注的语料。为此我们提出了Bubble-bootstrapping算法与CRF模型相结合的方法进行中医药文献疾病实体的识别,从而解决了标注语料对统计方法的制约问题。实验证明该方法可行并有效,且避免了基于非统计模型和其他统计模型的疾病实体识别方法的弊端,具有良好的应用前景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号