首页> 中文学位 >基于区域块密度的网页信息抽取技术在移动网站开发中的研究与实现
【6h】

基于区域块密度的网页信息抽取技术在移动网站开发中的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

绪论

1.1 课题研究背景和意义

1.2 国内外发展现状

1.3 研究思路及内容

1.4 论文组织结构

2. 网页信息抽取概念及相关技术介绍

2.1 网页信息抽取概念

2.2 网页信息抽取技术关键步骤

2.3 网页信息抽取相关技术介绍

2.4 网页信息抽取评价标准

2.5 本章小结

3. 网页信息抽取流程建模

3.1 网页类型分类

3.2 URL相似度匹配

3.3 网页类型判断

3.4 网页抽取流程

3.5 本章小结

4. 基于区域块密度的网页正文抽取算法

4.1 算法的原理及流程

4.2 阈值学习

4.3 实验结果及分析

4.4 本章小结

5. 移动网站开发平台的设计与实现

5.1 平台简介

5.2 平台目标

5.3 平台系统架构

5.4 平台关键模块

5.5 运行测试

5.6 运行效果演示

5.7 本章小结

6. 总结与展望

6.1 论文工作总结

6.2 未来研究展望

参考文献

致谢

个人简历

研究成果

展开▼

摘要

随着移动通信技术的高速发展,移动智能设备的普及率越来越高,使用移动设备访问网站的比例也逐步提高,人们迫切的需要使用移动设备随时随地的获取互联网资源。不过移动设备的屏幕尺寸、硬件性能等与普通电脑存在很大差异,并且移动设备用户的使用场景与传统互联网用户间的差别也很大,传统意义上的网站设计并不能很好的满足移动场景下用户的使用需求。同时移动设备碎片化的特点非常明显,这对移动网站的设计和开发都带来了很大的挑战。
  针对以上问题,本文对基于内容转换策略的移动网站开发方法进行了研究,提出了一种基于区域块密度的网页信息抽取技术,并以此为基础,实现了基于代理服务器策略的移动网站开发平台。该平台能够在较少人工干预的情况下根据网页类型的不同,选择对应规则实现网页信息的抽取,能够最大程度发挥移动端随时随地的特性,将原有业务系统与移动终端对接与融合,从而实现将PC端网站稳定快速的向移动终端扩展。本文具体的研究内容如下:
  1)论文从研究移动网站开发的现状开始,通过对现有网页信息抽取技术的综合比较,建立了网页信息抽取过程的流程模型。
  2)通过对正文抽取技术的相关研究,提出了基于区域块密度的网页信息抽取算法。该算法不受HTML标签的限制,通过分析网页正文密度函数来确定网页正文区域,进而进行网页内容的抽取。
  3)设计并实现了基于转换服务器策略的移动网站开发平台。该平台能在较少人工干预的情况下实现Web网站从PC端向移动端的迁移。
  本文最后通过一个移动网站设计与开发实例来验证本文提出的移动网站开发平台的设计方法以及设计原则的可行性。实例是青岛某管理学院官方网站移动版本,该移动网站的适配设备包括Android以及iOS的智能终端,能够较好的提高不同设备访问移动网站的用户体验,实现了较好的跨平台能力,有效降低了开发和维护成本。
  论文的创新点如下:
  a)通过对现有网页信息抽取技术的研究分析,并根据移动网站开发平台的特点,建立了对应的网页信息抽取流程模型。
  b)提出了基于区域块密度的网页信息抽取算法,能够在不受HTML标签限制的情况下完成网页正文的抽取,实验测试表明抽取准确率、召回率均高于90%。
  最后经过实验测试表明,本文提出的移动网站开发平台能够在较少人工干预下完成Web网站从PC端到移动端的迁移,具有较高的实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号