摘要
ABSTRACT
第一章 概述
1.1 引言
1.1.1 背景
1.1.2 Web信息抽取
1.1.3 XML
1.2 本文的工作
1.3 本文的组织
第二章 相关研究
2.1 基于自然语言理解的方法
2.2 基于机器学习的方法
2.3 基于Ontology的方法
2.4 上面三种方法的讨论
2.5 基于HTML结构的方法
2.5.1 W4F
2.5.2 XWrap
2.5.3 ANDES
2.5.4 小结
2.6 完全自动化的方法
2.6.1 IEPAD
2.6.2 RoadRunner
2.6.3 小结
2.7 方法总结和本文的工作
第三章 相关标准
3.1 HTML\(Hyper Text Markup Language\)
3.2 XML
3.2.1 XML的产生
3.2.2 XML语法
3.2.3 元素(Element)与标记(Tag)
3.2.4 属性(Attribute)
3.2.5 XML验证(Validation)
3.2.6 样式单
3.2.7 XML带来的好处
3.3 XHTML
3.4 DOM\(Document Object Model\)
3.5 XPath
3.5.1 查询
3.5.2 定位路径(Location Path)
3.5.3 表达式
3.6 XSLT
3.6.1 模板
3.6.2 取得节点值
3.6.3 应用模板
3.6.4 默认模板规则
3.6.5 循环
3.6.6 选择
3.6.7 变量
3.6.8 按名称调用模板
3.6.9 用Java扩展XSLT
3.6.10 EXSLT\(Extensions to XSLT\)
第四章 网页信息抽取平台
4.1 网页信息抽取的难点
4.2 网页信息抽取平台的目标
4.3 基于XSLT的抽取模式
4.4 示例:利用GUI编写XSLT
4.4.1 抽取天气信息
第五章 抽取规则健壮性研究
5.1 数据定位健壮性研究
5.1.1 完全基于文本的定位
5.1.2 使用属性模式定位
5.1.3 不同定位模式的讨论
5.2 基于缩略路径的数据抽取
5.3 构造通用的链接组抽取模式
第六章 自动归纳网页模板
6.1 引言
6.2 相关工作
6.3 模型和假定
6.4 归纳树模板
6.5 进一步的过滤与转换
6.6 实验结果
6.7 小结
第七章 自动归纳网页记录模板
7.1 引言
7.2 相关工作
7.3 模型和假定
7.3.1 数据类型
7.3.2 模板
7.3.3 抽取模型
7.3.4 简化后的模型
7.4 归纳记录模板
7.4.1 列表数据的路径模式
7.4.2 树路径聚类与归纳
7.5 实验结果
7.6 小结
第八章 多网页信息抽取
8.1 引言
8.2 模型和框架
8.2.1 问题描述
8.2.2 抽取框架
8.3 小结
第九章 总结和未来的工作
9.1 总结
9.2 未来的工作
致谢
参考文献
电子科技大学;