基于XML和XSLT的Web信息抽取研究与设计

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper,关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题,基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。除了手工编写抽取规则外,本文提出了新颖的方法自动归纳网页模板和记录模板,以及相应的抽取规则。网页模板可以用来抽取网页的主要内容,这对很多基于网页内容的工作很重要,比如网页信息检索,网页聚类与分类等等。记录模板可以用来抽取网页中的列表数据。另外,由于使用的是XSLT,抽取模式可以很容易理解和修改。最后,我们还开发了多网页信息抽取框架。实际的应用经常需要对多个网页进行抽取,基于本文所设计开发的Web信息抽取平台,可以很快的构建出健壮和通用的网页信息抽取Wrapper。

著录项

作者
肖烽;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名江春华;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
Web信息抽取; 抽取规则; XML管理技术; 扩展样式表转换语言;

相似文献

中文文献
外文文献
专利

1. 基于XSLT和XML的报表开发技术在船员管理系统中的应用 [J] . 朱文婷 ,陆海冰 . 上海船舶运输科学研究所学报 . 2014,第004期
2. 基于XSLT和XML的智能电子表单的研究 [J] . 周建宁 ,是建荣 ,武红斌 . 科技信息 . 2011,第036期
3. 基于XSLT和XML改进的Struts框架研究 [J] . 黎世红 ,程耕国 . 信息技术 . 2011,第008期
4. 基于XSLT的XML文档信息隐藏方法研究 [J] . 黄国超 ,王衍波 ,黄开国 . 计算机技术与发展 . 2011,第010期
5. 基于XML和XSLT的通用报表系统的设计与实现 [J] . 刘红 ,王晔 ,潘晨 . 计算机应用与软件 . 2011,第002期
6. XSLT与XML-QL在XML文档查询中的应用与比较 [C] . 李涛涛 ,刘连忠 . 全国第十五届计算机科学与技术应用学术会议 . 2003
7. 基于XML和XSLT的信息发布平台 [A] . 陈烨桦 . 2008

基于XML和XSLT的Web信息抽取研究与设计

目录

摘要

著录项

相似文献

相关主题

期刊订阅