首页> 中文学位 >开放获取期刊资源采集系统研究与实现
【6h】

开放获取期刊资源采集系统研究与实现

代理获取

目录

声明

摘要

第一章 引言

1.1 研究背景

1.2 研究现状

1.3 研究目的与意义

1.4 主要研究内容与论文框架

第二章 开放获取期刊资源采集方法研究

2.1 开放获取期刊资源特点与分类

2.1.1 开放获取期刊资源的特点

2.1.2 开放获取期刊资源分类

2.2 基于OAI-PMH协议的资源采集方法

2.3 基于Web信息的资源采集方法

2.3.1 Web信息采集方法对比分析

2.3.2 Web信息采集方法对开放获取期刊资源采集的适用性分析

2.4 开放获取期刊资源采集方法

第三章 开放获取期刊资源采集系统分析与设计

3.1 开放获取期刊资源采集系统目标分析

3.2 开放获取期刊资源采集系统需求分析

3.2.1 系统业务需求

3.2.2 系统性能需求

3.2.3 系统其他需求

3.3 网页信息采集工具对比分析

3.4 开放获取期刊资源采集系统总体设计

3.4.1 系统设计目标

3.4.2 系统框架结构设计

3.4.3 系统流程设计

第四章 开放获取期刊资源采集系统实现

4.1 开发平台与工具

4.2 系统总体模块类图

4.3 用户交互模块

4.3.1 主要数据结构介绍

4.3.2 网页显示和页面元素选择及高亮显示

4.3.3 采集规则生成以及同类型节点自动选择

4.3.4 多线程控制

4.4 数据采集和网页结构检查模块

4.4.1 主要数据结构

4.4.2 数据采集

4.4.3 结构检查

4.5 数据存储模块

第五章 系统测试及效果展示

5.1 测试准备

5.1.1 软硬件环境准备

5.1.2 测试用例准备

5.2 系统测试

5.2.1 系统功能测试

5.2.2 系统性能测试

5.3 系统运行展示

5.4 系统评价

第六章 总结与展望

6.1 论文总结

6.2 论文创新之处

6.3 存在的问题

6.4 研究展望

参考文献

致谢

作者简历

展开▼

摘要

随着开放获取运动的发展,越来越多的期刊加入到开放获取行列中来。开放获取期刊资源经过同行评审保证了学术质量,且分布广泛,具有重要的学术价值。对开放获取期刊资源采集的研究是有效利用资源的基础。对于OAI-PMH协议的开放获取期刊,通常使用OAI-PMH接口对期刊资源进行采集。对于非OAI-PMH协议的开放获取期刊,一般是对期刊网页中的元数据信息进行采集。然而开放获取期刊是由期刊机构各自对资源进行组织和展示,不同期刊采用不同的资源展现形式,相同期刊在不同时期也可能有不同的资源展现形式,可谓是“千刊千面”。资源展现形式多变为非OAI-PMH协议的开放获取期刊资源采集带来了一定的难度。为了解决此问题,本文对开放获取期刊资源及其采集方法和系统实现做了以下研究。
  首先,本文对大量国内外开放获取期刊网站进行了采集调研,从网页资源描述的角度归纳总结出开放获取期刊资源具有描述粒度细、描述复杂和描述载体结构多变等特点,并根据资源组织形式,将其分为单一型资源和组合型资源。在对当前主要的资源采集方法对比分析的基础上,结合开放获取期刊资源特点,提出了一种适用于开放获取期刊资源采集的方法。
  然后,在对开放获取期刊资源采集系统的目标和需求进行了详细分析之后,本文对当前网页采集工具以及其在开放获取期刊资源采集上的应用进行了对比,分析了开发开放获取期刊资源采集系统的必要性。接着提出的开放获取期刊资源采集方法,对系统进行了总体设计。系统主要分为三大模块:用户交互模块、数据采集和网页结构检查模块以及数据存储模块。系统最主要实现的功能包括可视化信息采集、采集规则自动形成、多线程自动采集、网页结构检查、数据质量检测等功能。
  接着,对系统三大模块和主要功能点的具体实现进行了详细地介绍,并通过编码实现了系统的具体功能,同时从功能和性能两个角度对系统进行了测试。在功能测试中,系统能对单一型资源和组合型资源进行采集,能准确地识别出期刊网站网页结构的变化,并将结构变化后的页面反馈给用户重新进行选择和采集,系统具备了资源采集的基本功能。在性能测试中,通过将系统与八爪鱼采集器对同一期刊资源采集效果进行对比,结果表明系统在召回率和准确率都优于八爪鱼采集器。此外系统对12个非OAI-PMH协议的开放获取期刊网站进行采集,总共采集到了49660篇论文,总共花费时间为31659秒,平均每千篇文章采集所花费的时间为10.62分钟。系统采集的论文数量加上用户标注的脏页数量之和与爬虫脚本采集到的论文链接数量完全相同。说明系统能满足开放获取期刊资源的采集需求,同时验证了本文所提出的开放获取期刊资源采集方法的有效性。
  最后,本文归纳总结了论文主要研究内容,以及存在的不足。并对下一步工作进行了展望。开放获取期刊资源采集是开放获取期刊资源利用的第一步,也是最基础的一步。要用好开放获取期刊资源还需要有数据清洗、数据仓库建设、数据分析平台以及数据可视化展示等一系列工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号