异构信息源的领域人物信息抽取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的社会的各个方面的渗透，个人信息越来越多地出现在网上。人物搜索引擎作为互联网技术的一部分，近几年刚刚兴起，而针对某一特定领域的人物搜索也是一项新生事物，对其研究还不成熟。目前高校教师的教学水平和研究水平越来越受到关注，高校教师的信息搜索需求也越来越大，本文以高校计算机专业的教师的信息抽取为应用背景，对异构信息源的领域人物信息抽取进行研究，并实现了一个高校计算机专业的教师人物志系统。本文重点对以下问题进行了研究：
　　首先，本文采用基于主题爬虫的方法来获取人物信息网页和从搜索引擎返回的结果网页中识别出包含人物信息的网页两种方式来获取数据源，将该网页识别问题看作一个网页分类问题，根据网页的结构特征和网页的内容特征提取网页的特征，运用SVM模型进行分类。为了提高分类的时间效率，提出了两种特征选择方法，即特征项对类的贡献度以及SVM训练权重的特征选择方法。
　　其次，根据包含人物信息网页的特点，本文对包含人物信息的网页进行分类。在分类方法上，结合网页的结构特征和内容特征，提出了基于规则与机器学习相结合的方法进行网页分类。在处理多记录网页的分类上，本文采用了基于HTML标签密度与基于内容的分类方法。在处理单记录网页的分类上，基于网页结构进行特征提取，并使用了SVM模型设计分类器，实验结果显示基于规则与基于网页结构特征的分类器取得了比较好的效果。
　　第三，本文在对包含人物信息的网页进行分类的基础上，提出了基于规则的人物属性抽取方法。首先构造领域人物信息抽取的触发词库，同时根据领域人物信息提取的特点以及基于网页结构的人物信息网页的类别特点构造人物属性信息抽取的规则库，人物的属性信息抽取即建立在网页类别、触发词库与规则库以及属性自身的特点的基础上。实验显示人物属性抽取取得了比较好的结果。
　　最后，本文将异构信息源的领域人物信息抽取方法应用到高校计算机专业的教师的信息抽取中，并实现了一个高校计算机教师人物志系统，该系统收集了全国120所高校总计4134名教师的信息，实现了按照多种方式查询教师的信息。

著录项

作者
周婷;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名刘秉权;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
异构信息源; 领域人物; 信息抽取; 触发词库;

相似文献

中文文献
外文文献
专利

1. 异构信息源集成系统的模式集成研究 [J] . 张桂香 . 微计算机信息 . 2007,第015期
2. 异构信息源集成系统的模式集成研究 [J] . 张桂香 . 微计算机信息 . 2007,第05X期
3. 异构多信息源组织与集成技术的研究现状及其进展 [J] . 王兰成 ,敖毅 ,曾琼 . 现代图书情报技术 . 2006,第003期
4. 基于异构信息源的地区级模拟电力市场的架构研究 [J] . 李川 ,李晓明 . 电力需求侧管理 . 2003,第004期
5. 基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例 [J] . 吴恒亮 . 图书馆论坛 . 2010,第003期
6. 基于Oracle数据库平台的异构信息源集成研究 [C] . 王亚军 ,何松柏 ,张智军 . 2007信息化与信息资源管理学术研讨会 . 2007
7. 异构信息源集成中本体的自动映射及应用 [A] . 魏巍 . 2007

异构信息源的领域人物信息抽取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅