首页> 中文学位 >异构信息源的领域人物信息抽取研究
【6h】

异构信息源的领域人物信息抽取研究

代理获取

目录

异构信息源的领域人物信息抽取研究

RESEARCH ON DOMAIN-SPECIFIC PEOPLE INFORMATION EXTRACTION FROM HETEROGENGOUS WEB SOURCES

摘 要

Abstract

第1章 绪论

1.1 课题研究的背景和意义

1.2 国内外研究现状

1.3 研究内容及论文结构安排

第2章 包含领域人物信息的网页判别

2.1 引言

2.2 数据源的获取

2.3 网页分类相关技术介绍

2.4 基于网页内容和网页结构的网页表示

2.5 特征选择

2.6 实验及结果

2.7 本章小结

第3章 基于网页结构的人物信息网页的分类

3.1 引言

3.2 人物信息网页分类

3.3 基于规则的方法识别多记录网页

3.4 基于网页结构识别单记录网页

3.5 人物信息网页分类实验及结果

3.6 本章小结

第4章 基于网页结构的人物信息抽取

4.1 引言

4.2 人物属性信息抽取过程

4.3 候选信息块的获取

4.4 基于规则的抽取器设计

4.5 基于网页结构和规则的人物信息抽取

4.6 实验及结果分析

4.7 本章小结

第5章 高校计算机人物志系统的设计与实现

5.1 引言

5.2 系统总体架构设计

5.3 数据来源

5.4 数据库设计

5.5 系统功能模块

5.6 本章小结

结论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

随着互联网的社会的各个方面的渗透,个人信息越来越多地出现在网上。人物搜索引擎作为互联网技术的一部分,近几年刚刚兴起,而针对某一特定领域的人物搜索也是一项新生事物,对其研究还不成熟。目前高校教师的教学水平和研究水平越来越受到关注,高校教师的信息搜索需求也越来越大,本文以高校计算机专业的教师的信息抽取为应用背景,对异构信息源的领域人物信息抽取进行研究,并实现了一个高校计算机专业的教师人物志系统。本文重点对以下问题进行了研究:
  首先,本文采用基于主题爬虫的方法来获取人物信息网页和从搜索引擎返回的结果网页中识别出包含人物信息的网页两种方式来获取数据源,将该网页识别问题看作一个网页分类问题,根据网页的结构特征和网页的内容特征提取网页的特征,运用SVM模型进行分类。为了提高分类的时间效率,提出了两种特征选择方法,即特征项对类的贡献度以及SVM训练权重的特征选择方法。
  其次,根据包含人物信息网页的特点,本文对包含人物信息的网页进行分类。在分类方法上,结合网页的结构特征和内容特征,提出了基于规则与机器学习相结合的方法进行网页分类。在处理多记录网页的分类上,本文采用了基于HTML标签密度与基于内容的分类方法。在处理单记录网页的分类上,基于网页结构进行特征提取,并使用了SVM模型设计分类器,实验结果显示基于规则与基于网页结构特征的分类器取得了比较好的效果。
  第三,本文在对包含人物信息的网页进行分类的基础上,提出了基于规则的人物属性抽取方法。首先构造领域人物信息抽取的触发词库,同时根据领域人物信息提取的特点以及基于网页结构的人物信息网页的类别特点构造人物属性信息抽取的规则库,人物的属性信息抽取即建立在网页类别、触发词库与规则库以及属性自身的特点的基础上。实验显示人物属性抽取取得了比较好的结果。
  最后,本文将异构信息源的领域人物信息抽取方法应用到高校计算机专业的教师的信息抽取中,并实现了一个高校计算机教师人物志系统,该系统收集了全国120所高校总计4134名教师的信息,实现了按照多种方式查询教师的信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号