首页> 中文学位 >Web表格数据提取与分析系统的设计与实现
【6h】

Web表格数据提取与分析系统的设计与实现

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题背景及研究的目的和意义

1.2 与本课题有关的国内外研究现状

1.3 本文的主要研究内容

1.4 本文组织结构

第2章 Web表格数据提取与分析系统的需求分析与总体设计

2.1 Web表格数据提取与分析系统的业务流程分析

2.2 Web表格数据提取与分析系统的功能需求分析

2.3 Web表格数据提取与分析系统的非功能性需求分析

2.4 Web表格数据提取与分析系统的环境需求分析

2.5 Web表格数据提取与分析系统的总体设计

2.6 关键技术

2.7 本章小结

第3章 web表格数据提取与分析系统的详细设计与实现

3.1 web表格数据提取模块的设计与实现

3.2 数据分析模块的详细设计与实现

3.3 属性名自动标注模块的详细设计与实现

3.4 本章小结

第4章 web表格数据提取与分析系统的测试

4.1 测试方案

4.2 功能性测试

4.3 非功能性测试

4.4 本章小结

结论

参考文献

声明

致谢

个人简历

展开▼

摘要

数据表格作为网页数据展示的一种形式,开始越来越多的出现在各种领域的web页面中,因其具有简洁的展示方式以及显而易见地描述数据关系的优势而被越来越多的人应用到网页中并成为Web信息抽取中的热点。然而人们往往忽略表格数据自有的不足,通常表头(下文称属性名)决定一切,而现实中,Web上的表格经常出现无属性名或属性名难以理解的情况。因此,在自动分析修复表格的表头信息方面的研究将在Web挖掘、数据理解及决策支持方面提供极大的帮助,同时也将会被越来越多的研究者重视。
  论文开始讲述了本课题的研究背景、目的、意义及相关领域的研究现状,并对本文的主要研究内容进行了阐述。之后详细描述了本课题的需求分析、系统的总体设计、系统各功能模块的详细设计与实现及系统的功能测试与非功能性测试,最后对本文进行了总结及展望。
  本文的主要研究内容主要有以下三个方面:Web表格数据提取与存储、表格数据分析和属性名自动标注。Web表格数据提取主要实现了对HTML网页的解析、数据表格的识别和表格内数据的提取存储等功能。表格数据分析主要实现对数据的深度分析,由于不同类型的数据具有不同的特征,因此首先对表格数据进行简单分类,不同类型的数据运用不同的处理方法提取特定的特征。本文以数据的结构特征与统计特征作为研究对象,分别利用正则表达式表示数据的结构特征,利用统计分布均值和方差两个参数表示数据的统计特征,并利用大量训练数据建立“属性名-特征值”特征库。在属性名自动标注的研究中,主要完成对特定数据列匹配属性名。本文针对不同数据特征提出了不同的特征匹配策略并建立匹配模型,对于正则表达式表示的结构特征,运用编辑距离算法进行表达式串相似性比较,同时结合简单字符串匹配提高准确性;对于统计分布参数表示的统计特征则利用假设检验知识中的样本均值的检验方法比较两样本间的差异性。最后对于匹配出的候选属性名进行优化,得到最佳属性名。
  本文实验环节通过利用实验室现有的大量表格数据建立特征库,利用交叉验证的方式优化匹配模型参数(阀值和检验水平),通过多次迭代试验,证明了综合运用正则表达式、统计分布的策略能够很好的解决数据表格属性名修复问题。

著录项

  • 作者

    曹贞兴;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 王宏志;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    Web表格; 数据提取; 特征匹配; 属性名;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号