异构信息源的领域人物信息抽取研究
RESEARCH ON DOMAIN-SPECIFIC PEOPLE INFORMATION EXTRACTION FROM HETEROGENGOUS WEB SOURCES
摘 要
Abstract
第1章 绪论
1.1 课题研究的背景和意义
1.2 国内外研究现状
1.3 研究内容及论文结构安排
第2章 包含领域人物信息的网页判别
2.1 引言
2.2 数据源的获取
2.3 网页分类相关技术介绍
2.4 基于网页内容和网页结构的网页表示
2.5 特征选择
2.6 实验及结果
2.7 本章小结
第3章 基于网页结构的人物信息网页的分类
3.1 引言
3.2 人物信息网页分类
3.3 基于规则的方法识别多记录网页
3.4 基于网页结构识别单记录网页
3.5 人物信息网页分类实验及结果
3.6 本章小结
第4章 基于网页结构的人物信息抽取
4.1 引言
4.2 人物属性信息抽取过程
4.3 候选信息块的获取
4.4 基于规则的抽取器设计
4.5 基于网页结构和规则的人物信息抽取
4.6 实验及结果分析
4.7 本章小结
第5章 高校计算机人物志系统的设计与实现
5.1 引言
5.2 系统总体架构设计
5.3 数据来源
5.4 数据库设计
5.5 系统功能模块
5.6 本章小结
结论
参考文献
攻读学位期间发表的学术论文
哈尔滨工业大学硕士学位论文原创性声明
哈尔滨工业大学硕士学位论文使用授权书
致谢