Web表格数据提取与分析系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据表格作为网页数据展示的一种形式，开始越来越多的出现在各种领域的web页面中，因其具有简洁的展示方式以及显而易见地描述数据关系的优势而被越来越多的人应用到网页中并成为Web信息抽取中的热点。然而人们往往忽略表格数据自有的不足，通常表头（下文称属性名）决定一切，而现实中，Web上的表格经常出现无属性名或属性名难以理解的情况。因此，在自动分析修复表格的表头信息方面的研究将在Web挖掘、数据理解及决策支持方面提供极大的帮助，同时也将会被越来越多的研究者重视。
　　论文开始讲述了本课题的研究背景、目的、意义及相关领域的研究现状，并对本文的主要研究内容进行了阐述。之后详细描述了本课题的需求分析、系统的总体设计、系统各功能模块的详细设计与实现及系统的功能测试与非功能性测试，最后对本文进行了总结及展望。
　　本文的主要研究内容主要有以下三个方面：Web表格数据提取与存储、表格数据分析和属性名自动标注。Web表格数据提取主要实现了对HTML网页的解析、数据表格的识别和表格内数据的提取存储等功能。表格数据分析主要实现对数据的深度分析，由于不同类型的数据具有不同的特征，因此首先对表格数据进行简单分类，不同类型的数据运用不同的处理方法提取特定的特征。本文以数据的结构特征与统计特征作为研究对象，分别利用正则表达式表示数据的结构特征，利用统计分布均值和方差两个参数表示数据的统计特征，并利用大量训练数据建立“属性名-特征值”特征库。在属性名自动标注的研究中，主要完成对特定数据列匹配属性名。本文针对不同数据特征提出了不同的特征匹配策略并建立匹配模型，对于正则表达式表示的结构特征，运用编辑距离算法进行表达式串相似性比较，同时结合简单字符串匹配提高准确性；对于统计分布参数表示的统计特征则利用假设检验知识中的样本均值的检验方法比较两样本间的差异性。最后对于匹配出的候选属性名进行优化，得到最佳属性名。
　　本文实验环节通过利用实验室现有的大量表格数据建立特征库，利用交叉验证的方式优化匹配模型参数（阀值和检验水平），通过多次迭代试验，证明了综合运用正则表达式、统计分布的策略能够很好的解决数据表格属性名修复问题。

著录项

作者
曹贞兴;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科软件工程
授予学位硕士
导师姓名王宏志;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
Web表格; 数据提取; 特征匹配; 属性名;

相似文献

中文文献
外文文献
专利

1. web流量日志数据分析系统的设计与实现 [J] . 张家骏 ,高星宇 . 福建电脑 . 2020,第001期
2. 基于Flink的Web日志实时分析系统的设计与实现 [J] . 金雷 . 市场周刊：商务营销 . 2020,第051期
3. 基于R语言的北京市医耗联动综合改革数据分析Web应用系统的设计与实现 [J] . 杨辉 . 中国数字医学 . 2020,第007期
4. 基于WebGIS的降雨信息管理与分析系统设计与实现 [J] . 李爽 . 现代测绘 . 2019,第005期
5. Web的工商银行员工培训系统设计与实现分析 [J] . 赵西冰 . 科教导刊-电子版（中旬） . 2019,第011期
6. 科技期刊论文常用图表格式修改实效分析——以《北方果树》为例，探讨文章图表格式修改问题 [C] . 何明莉 ,李兴超 ,孙丽梅 . 第6届中国科技期刊青年编辑学术研讨会暨中国科技期刊的实践经验与发展战略论坛 . 2006
7. 基于视觉、词法、语义特征的web数据表格检测系统设计与实现 [A] . . -1

Web表格数据提取与分析系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅