首页> 中国专利> 网络小说新章节的获取方法及装置

网络小说新章节的获取方法及装置

摘要

本发明涉及计算机数据挖掘领域,特别涉及一种网络小说新章节的获取方法及装置。所述方法包括:将同一主题名称的多个章节列表页进行合并,得到合并结果页;判断每个章节列表页与合并结果页之间的相似度,确定其中相似度最大的章节列表页为第一正本,其他的章节列表页则均为对应的第一副本;获取所述第一正本更新的第一惯常时间、第一副本更新的第二惯常时间,以及该第一惯常时间与第二惯常时间之间的惯常时间差值;响应于获取章节列表页的外部请求,利用所述第一惯常时间、第二惯常时间及惯常时间差值所表征的时间规律数据,查询所述第一正本及第一副本,以获取并反馈所述的章节列表页。该发明能节约网络资源,并能反馈给用户已更新的章节列表页,提高用户体验度。

著录项

  • 公开/公告号CN105447130A

    专利类型发明专利

  • 公开/公告日2016-03-30

    原文格式PDF

  • 申请/专利号CN201510796828.7

  • 发明设计人 邝景胜;

    申请日2015-11-18

  • 分类号G06F17/30;

  • 代理机构北京市立方律师事务所;

  • 代理人王增鑫

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2023-12-18 15:12:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-05

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2015107968287 登记生效日:20220726 变更事项:专利权人 变更前权利人:北京奇虎科技有限公司 变更后权利人:北京奇虎科技有限公司 变更事项:地址 变更前权利人:100088 北京市西城区新街口外大街28号D座112室(德胜园区) 变更后权利人:100015 北京市朝阳区酒仙桥路6号院2号楼1至19层104号内8层801 变更事项:专利权人 变更前权利人:奇智软件(北京)有限公司 变更后权利人:

    专利申请权、专利权的转移

  • 2018-12-25

    授权

    授权

  • 2016-04-27

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151118

    实质审查的生效

  • 2016-03-30

    公开

    公开

说明书

【技术领域】

本发明涉及计算机数据挖掘领域,特别涉及一种网络小说新章节的获取 方法及装置。

【背景技术】

近年,随着网络小说的发展,出现了一大批专门从事网络小说连载的网 站。而对于小说网站的访问以及内容搜索都是在进入小说网站后,再输入关 键字进行站内的检索,检索出该网站中的有关关键字的小说内容。这种方式 多是一些小说的追捧者或者网络小说爱好者使用;对于更多的一般用户而言, 普遍还是通过搜索引擎(比如百度、谷歌等)进行搜索。

现有的搜索方式中,由于很难预测到某本小说最新章节的更新时间,搜 索引擎需要不断的抓取章节列表页来获取新章节,效率不高;且搜索结果中 含有大量包含虚假小说内容的阅读网站,这样使得用户的搜索需求没有完全 满足,用户体验差;而且由于版权等原因,部分网络小说的原创站点的新章 节不能直接查看,但是可以在副本站点中获取该新章节的内容,现有的采用 单个站点搜索的方式不能将可直接查看的副本站点推荐给用户,使得用户体 验差。

【发明内容】

本发明的目的旨在解决上述至少一个问题,提供了一种网络小说新章节 的获取方法及装置。

为实现该目的,本发明采用如下技术方案:

本发明提供了一种网络小说新章节的获取方法,包括有步骤:

将同一主题名称的多个章节列表页进行合并,得到合并结果页;

判断每个章节列表页与合并结果页之间的相似度,确定其中相似度最大 的章节列表页为第一正本,其他的章节列表页则均为对应的第一副本;

获取所述第一正本更新的第一惯常时间、第一副本更新的第二惯常时间, 以及该第一惯常时间与第二惯常时间之间的惯常时间差值;

响应于获取章节列表页的外部请求,利用所述第一惯常时间、第二惯常 时间及惯常时间差值所表征的时间规律数据,查询所述第一正本及第一副本, 以获取并反馈所述的章节列表页。

进一步的,在所述将同一主题名称的多个章节列表页进行合并,得到合 并结果页的步骤之前,还包括步骤:

检测并获取章节列表页,确定每个章节列表页的主题名称,每个章节列 表页对应于一个站点;

聚类有相同主题名称的章节列表页;

建立所述主题名称与所述章节列表页所在的多个站点信息之间的关联 性。

进一步的,在所述响应于获取章节列表页的外部请求,利用所述第一惯 常时间、第二惯常时间及惯常时间差值所表征的时间规律数据,查询所述第 一正本及第一副本,以获取并反馈所述的章节列表页的步骤之前,还包括步 骤:

接收获取章节列表页的外部请求。

具体的,所述响应于获取章节列表页的外部请求,利用所述第一惯常时 间、第二惯常时间及惯常时间差值所表征的时间规律数据,查询所述第一正 本及第一副本,以获取并反馈所述的章节列表页的步骤中,还包括步骤:

响应于获取章节列表页的外部请求,依据所述第一惯常时间,按照一定 的时间间隔查询第一正本;

判断所述第一正本所对应的章节列表页是否已更新;

当所述第一正本已更新,则依据所述惯常时间差值按照一定时间间隔查 询第一副本;

获取并反馈已更新的第一副本所对应的站点信息。

具体的,所述判断所述第一正本所对应的章节列表页是否已更新的步骤 中,还包括:

通过分析所述第一正本所对应的章节列表页中最新创立或修改的章节信 息,以判断该第一正本是否已更新。

进一步的,所述判断所述第一正本所对应的章节列表页是否已更新的步 骤之后,还包括步骤:

当所述第一正本没有更新,则执行所述依据所述第一惯常时间,按照一 定的时间间隔查询第一正本的步骤。

具体的,所述响应于获取章节列表页的外部请求,利用所述第一惯常时 间、第二惯常时间及惯常时间差值所表征的时间规律数据,查询所述第一正 本及第一副本,以获取并反馈所述的章节列表页的步骤中,还包括步骤:

依据所述第二惯常时间,按照一定的时间间隔查询第一副本;

判断所述第一副本所对应的章节列表页是否均已更新;

当所述第一副本均已更新,则依据所述惯常时间差值按照一定时间间隔 查询第一正本,以判断所述第一正本是否已更新。

具体的,所述判断所述第一副本所对应的章节列表页是否均已更新的步 骤中,还包括:

通过分析所述第一副本所对应的所有章节列表页中最新创立或修改的章 节信息,以判断第一副本是否均已更新。

进一步的,所述判断所述第一副本所对应的章节列表页是否均已更新的 步骤之后,还包括步骤:

当所述第一副本没有更新,则执行所述依据所述第二惯常时间,按照一 定的时间间隔查询第一副本的步骤。

进一步的,所述将同一主题名称的多个章节列表页进行合并,得到合并 结果页的步骤之前,还包括步骤:

依据某一章节列表页与其他章节列表页之间的相似度,判断该章节列表 页是否为虚假章节列表页;

当判断得到所述章节列表页为虚假章节列表页,过滤该章节列表页。

具体的,所述依据某一章节列表页与其他章节列表页之间的相似度,判 断该章节列表页是否为虚假章节列表页的步骤中,还包括步骤:

获取每一个章节列表页的文字特征向量;

判断某一章节列表页与其他章节列表页之间具有相同文字特征向量的平 均数;

当所述平均数大于或等于预设的相似度阈值时,确定该章节列表页为有 效章节列表页;

当所述平均数小于预设的相似度阈值时,确定该章节列表页为虚假章节 列表页。

本发明还提供了一种网络小说新章节的获取装置,其包括有:

合并模块,用于将同一主题名称的多个章节列表页进行合并,得到合并 结果页;

正副本确定模块,用于判断每个章节列表页与合并结果页之间的相似度, 确定其中相似度最大的章节列表页为第一正本,其他的章节列表页则均为对 应的第一副本;

时间获取模块,用于获取所述第一正本更新的第一惯常时间、第一副本 更新的第二惯常时间,以及该第一惯常时间与第二惯常时间之间的惯常时间 差值;

反馈模块,用于响应于获取章节列表页的外部请求,利用所述第一惯常 时间、第二惯常时间及惯常时间差值所表征的时间规律数据,查询所述第一 正本及第一副本,以获取并反馈所述的章节列表页。

进一步的,所述获取装置还包括有聚类模块,

所述聚类模块,用于在合并模块将同一主题名称的多个章节列表页进行 合并之前,检测并获取章节列表页,确定每个章节列表页的主题名称,每个 章节列表页对应于一个站点;及

聚类有相同主题名称的章节列表页;及

建立所述主题名称与所述章节列表页所在的多个站点信息之间的关联 性。

进一步的,所述获取装置还包括有接收模块,

所述接收模块,用于接收获取章节列表页的外部请求。

具体的,所述反馈模块还包括有:

正本查询单元,用于响应于获取章节列表页的外部请求,依据所述第一 惯常时间,按照一定的时间间隔查询第一正本;

正本判断单元,用于判断所述第一正本所对应的章节列表页是否已更新;

副本调度单元,用于当所述第一正本已更新,则依据所述惯常时间差值 按照一定时间间隔查询第一副本;

副本反馈单元,用于获取并反馈已更新的第一副本所对应的站点信息。

具体的,所述正本判断单元,还用于通过分析所述第一正本所对应的章 节列表页中最新创立或修改的章节信息,以判断该第一正本是否已更新。

具体的,所述副本调度单元,还用于当所述第一正本没有更新,则调用 正本查询单元执行所述依据所述第一惯常时间,按照一定的时间间隔查询第 一正本的步骤。

具体的,所述反馈模块还包括有:

副本查询单元,用于依据所述第二惯常时间,按照一定的时间间隔查询 第一副本;

副本判断单元,用于判断所述第一副本所对应的章节列表页是否均已更 新;

正本调度单元,用于当所述第一副本均已更新,则依据所述惯常时间差 值按照一定时间间隔查询第一正本,以判断所述第一正本是否已更新。

具体的,所述副本判断单元通过分析所述第一副本所对应的所有章节列 表页中最新创立或修改的章节信息,以判断第一副本是否均已更新。

具体的,所述副本判断单元还用于当所述第一副本没有更新,则调用副 本查询单元执行所述依据第二惯常时间,按照一定的时间间隔查询第一副本 的步骤。

具体的,还包括有虚假判断模块和过滤模块,

所述虚假判断模块,用于在合并模块将同一主题名称的多个章节列表页 进行合并,得到合并结果页之前,依据某一章节列表页与其他章节列表页之 间的相似度,判断该章节列表页是否为虚假章节列表页;

过滤模块,用于当判断得到所述章节列表页为虚假章节列表页,过滤该 章节列表页。

进一步的,所述虚假判断模块还用于获取每一个章节列表页的文字特征 向量;

判断某一章节列表页与其他章节列表页之间具有相同文字特征向量的平 均数;

当所述平均数大于或等于预设的相似度阈值时,确定该章节列表页为有 效章节列表页;

当所述平均数小于预设的相似度阈值时,确定该章节列表页为虚假章节 列表页。

与现有技术相比,本发明具备如下优点:

1、本发明中提供的一种网络小说新章节的获取方法,将相同主题名称的 多个章节列表页进行合并而得到合并结果页,并依据每个章节列表页与合并 结果页之间的相似度,确定与合并结果页最相似的章节列表页为第一正本, 其余的章节列表页为对应的第一副本;再响应于获取章节列表页的外部请求, 利用第一正本与第一副本更新的惯常时间、惯常时间差值的规律数据,查询 所述第一正本及第一副本,以获取并反馈所述的章节列表页。该方法中能依 据惯常更新时间规律数据,定期查询第一正本或第一副本所对应的章节列表 页,获取更新的章节列表页;而不需要不断的抓取每个站点的章节列表页, 节约网络资源,并能反馈给用户已更新的章节列表页,提高用户体验度;

2、进一步的,本发明在对同一主题名称的多个章节列表页进行合并之前, 还需要判定每一章节列表页是否是虚假的章节列表页,当判断得到所述章节 列表页为虚假章节列表页,过滤该章节列表页;降低了反馈给用户的结果章 节列表页中包括虚假信息的可能性,进一步提高用户的体验度,保证方案实 施的有效性;

3、进一步的,本发明中在检测到第一正本对应的章节列表页更新后,依 据所述惯常时间差值按照一定时间间隔查询第一副本,向用户反馈已更新的 第一副本所对应的站点信息。即能向用户反馈与第一正本所对应的第一副本 站点信息,通常情况该第一副本站点中的对应新章节能直接查看,解决了用 户无法直接查看部分小说正本站点中的新章节的问题,进一步提高用户的体 验度。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的 描述中变得明显,或通过本发明的实践了解到。

【附图说明】

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述 中将变得明显和容易理解,其中:

图1是本发明中网络小说新章节的获取方法的一个实施例的程序流程 图;

图2是本发明中网络小说新章节的获取方法的一个实施例的程序流程 图;

图3是本发明中网络小说新章节的获取方法的一个实施例的程序流程 图;

图4是本发明中网络小说新章节的获取方法的一个实施例的程序流程 图;

图5是本发明中网络小说新章节的获取方法的一个实施例的程序流程 图;

图6是本发明中网络小说新章节的获取装置的一个实施例的结构示意 图;

图7是本发明中网络小说新章节的获取装置的一个实施例的结构示意 图;

图8是本发明中网络小说新章节的获取装置的一个实施例的结构示意 图;

图9是本发明中反馈模块的一个实施例的结构示意图;

图10是本发明中反馈模块的一个实施例的结构示意图。

【具体实施方式】

下面结合附图和示例性实施例对本发明作进一步地描述,所述实施例的 示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件 或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的, 仅用于解释本发明,而不能解释为对本发明的限制。此外,如果已知技术的 详细描述对于示出本发明的特征是不必要的,则将其省略。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解 的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步 骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、 整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被 “连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或 者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无 线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列 出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包 括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般 理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该 被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一 样被特定定义,否则不会用理想化或过于正式的含义来解释。

有必要先对本发明的应用场景及其原理进行如下的先导性说明。

互联网中,一般包括用户端(用户移动终端)、网络和服务器(如网站 的Web服务器等)。其中用户端可以是用户的互联网移动终端,如台式机 (PC)、膝上型计算机(Laptop),带有网页浏览功能的智能型设备,如个人 数字助理(PersonalDigitalAssisstant,PDA),以及移动互联网设备(Mobile InternetDevice,MID)和智能手机(Phone)等。这些移动终端都可以在互联 网环境中,典型的如英特网环境中,请求由另一进程(如服务器提供的进程) 提供某项服务。例如,在本发明中,以装载有网络小说搜索功能的APP的手 机为用户端,例如:Android手机等;在所述APP中带有用户搜索输入栏目, 用户可以输入某一网络小说的主题来搜索电子书,远端服务器会响应于该搜 索请求向用户反馈搜索得到的结果。

服务器通常是可通过互联网等通信媒介,典型的如英特网访问的远程计 算机系统。而且,服务器通常可以为来自互联网的多个用户端提供服务。提 供服务过程包括接收用户端发来的请求,收集用户端情报和反馈信息等。实 质上,服务器充当计算机网络的信息提供者这一角色。服务器通常位于提供 服务的一方,或由服务提供方配置以服务内容,这样的服务提供方可以如互 联网服务公司的网站等。

以下将详细说明为了运用上述的原理实现上述的场景而提出的本发明的 若干技术方案的具体实施方式。需要说明的是,本发明提供的一种网络小说 新章节的获取方法,是从服务器的视角来加以描述的,可以通过编程将网络 小说新章节获取方法实现为计算机程序在远端网络设备上实现,其包括但不 限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器 构成的云。

参见附图1,本发明的一种网络小说新章节获取方法的一个典型实施例, 具体包括以下步骤:

S11,将同一主题名称的多个章节列表页进行合并,得到合并结果页。

获取了同一主题名称的多个章节列表页后,采用一定的去重与合并算法, 将多个章节列表页合并为结果页,不难理解,该结果页中的章节列表较其他 的章节列表页完整,且包括有最新的章节列表页。需要说明的是,本发明所 述的网络小说新章节的获取方法中,能够通过网络蜘蛛抓取多个网站的数据, 可以通过自动的网页结构分析得出其是否是小说网站。

在本发明的一个实施例中,参见附图2,在步骤S11之前,还包括步骤:

S101,检测并获取章节列表页,确定每个章节列表页的主题名称,每个 章节列表页对应于一个站点;

S102,聚类有相同主题名称的章节列表页;

S103,建立所述主题名称与所述章节列表页所在的多个站点信息之间的 关联性。

具体的,服务器对小说网站域名下的网页进行结构分析,若网页中包括 有多个平行的章节列表标签,即可判定该网页为小说章节列表页;其中所述 多个平行的章节列表标签的指向链接href(HypertextReference,超文本引用) 存在高度类似关系,及其对应的章节列表目录相同但是具体的文件名不同。 例如,假定所述多个平行的章节列表标签的href属性包含的目录均为5_5288, 而href属性包含的文件名各不同,即由970871至970980。

进一步的,所述小说章节列表页包括的多个平行的章节列表标签包含有 章节文本特征向量,其包括有表征章节的关键字和/或章节数,搜索引擎可以 基于上述关键字和/或章节数去提取该章节列表页的主题名称,例如,可以采 用“书名+作者”作为该章节列表页的主题名称。然后,将具有相同主题名 称的章节列表页聚类为一个集合,并获取每个章节列表页所在的站点信息, 建立所述主题名称与所述多个站点信息之间的关联性。

进一步的,为了降低反馈给用户的结果章节列表页中包括虚假信息的可 能性,提高用户的体验度,保证方案实施的有效性。在本发明的一个实施例 中,请参见附图3,在步骤S11之前,还包括步骤:

S01,依据某一章节列表页与其他章节列表页之间的相似度,判断该章 节列表页是否为虚假章节列表页;

S02,当判断得到所述章节列表页为虚假章节列表页,过滤该章节列表 页。

具体的,在本发明的一个实施例中,通过获取每一个章节列表页的文字 特征向量;并判断某一个章节列表页与其他章节列表页之间具有相同文字特 征向量的平均数;当所述平均数大于或等于预设的相似度阈值时,确定该章 节列表页为有效章节列表页;当所述平均数小于预设的相似度阈值时,确定 该章节列表页为虚假章节列表页。

需要说明的是,其中所述文字特征向量可以是章节列表名称中的多个关 键字,基于一定相似度判断算法判断所述多个关键字之间的相似度;或者是 通过提取该同一主题的多个章节列表页名称所对应的页码中的数值特征向 量,其中所述数值特征向量可以是表征页码的数值;本实施例中,可以结合 文本特征向量及其对应的数值特征向量来共同计算任意两个章节列表页之间 的相似度,也可以单独采用其中一种特征向量来计算章节列表页之间的相似 度。当判断某一章节列表页为虚假章节列表页后,直接过滤掉该章节列表页。

进一步的,请参见附图1,本发明的所述方法中,还包括有步骤:

S12,判断每个章节列表页与合并结果页之间的相似度,确定其中相似 度最大的章节列表页为第一正本,其他的章节列表页则均为对应的第一副本。

具体的,由前述步骤S11中,得到了较完整且包括有最新章节列表项的 合并结果页。该步骤中,通过比较每个章节列表页与合并结果页之间的相似 度,确定其中相似度最大的章节列表页为第一正本,其他的章节列表页则均 为对应的第一副本。不难理解,所述的第一正本中极可能包含有最新章节列 表项,即可表征该章节列表页为最早更新的原创章节列表页,确定该章节列 表页为第一正本。

具体的,在本发明的一个实施例中,可以通过获取每一个章节列表页的 文字特征向量;并计算每个章节列表页与合并结果页具有相同文字特征向量 的总数。当该总数数值最大时,确定该章节列表页为第一正本,其他的章节 列表页为对应的第一副本。

进一步的,请参见附图1,在本发明的所述方法中,还包括有步骤:

S13,获取所述第一正本更新的第一惯常时间、第一副本更新的第二惯 常时间,以及该第一惯常时间与第二惯常时间之间的惯常时间差值。

具体的,本发明中,通过统计所述第一正本更新的多个时间,分析并得 到其对应的第一惯常时间;同理,通过统计所述第一副本所对应的每个章节 列表页更新的多个时间,分析并得到每个章节列表页所对应的第二惯常时间; 以及计算在第一正本更新后,延后一定时间,该主题名称所对应的某个第一 副本更新,该延后的时间即为对应于该第一副本的惯常时间差值;以及计算 在所有的第一副本更新完成后,所述第一正本延后多长时间再度更新,该延 后的时间即为第一正本相对于所有第一副本的惯常时间差值。服务器会关联 性存储所述时间值与对应的第一正本、第一副本所在的站点信息,当然所述 第一正本和对应的多个第一副本均预先关联于同一章节名称而存储。

进一步的,请参见附图1,本发明的所述方法中,还包括步骤:

S14,响应于获取章节列表页的外部请求,利用所述第一惯常时间、第 二惯常时间及惯常时间差值所表征的时间规律数据,查询所述第一正本及第 一副本,以获取并反馈所述的章节列表页。

不难理解,在本发明的一个实施例中,在步骤S14之前,还包括步骤: 接收获取章节列表页的外部请求。

具体的,在本发明的一个示例性实施例中,本发明以装载有网络小说搜 索功能的APP的手机为用户端,在所述APP中带有用户搜索输入栏目,用 户可以输入某一网络小说的主题名称来搜索该小说的最新章节列表,然后基 于获取的最新章节列表页,进入该列表页所链接的最新章节内容页。需要说 明的是,本发明仅仅是示例性的,并不能构成对本发明的限制。

具体的,在本发明的一个实施例中,请参见附图4,所述步骤S14中, 具体还包括以下步骤:

S141,响应于获取章节列表页的外部请求,依据所述第一惯常时间,按 照一定的时间间隔查询第一正本;

S142,判断所述第一正本所对应的章节列表页是否已更新;

S143,当所述第一正本已更新,则依据所述惯常时间差值按照一定时间 间隔查询第一副本;

S144,获取并反馈已更新的第一副本所对应的站点信息。

具体的,在服务器端接收到客户端发送的关于某一主题名称的获取章节 列表页的外部请求后,依据预先设定的对应于该主题名称的第一正本更新的 惯常时间,按照一定的时间间隔查询该第一正本,并判断所述第一正本所对 应的章节列表页是否已更新;当所述第一正本已更新,则依据预设的惯常时 间差值按照一定时间间隔查询该第一正本所对应的第一副本;当得到某一个 第一副本已更新时,则获取该第一副本所对应的站点信息,并向客户端反馈 该站点信息。反之,当所述第一正本没有更新,则重复执行所述依据第一惯 常时间,按照一定的时间间隔查询第一正本的步骤;直到判断得到所述第一 正本已更新。

具体的,在本发明的一个实施例中,通过分析所述第一正本所对应的章 节列表页中最新创立或修改的章节信息,来判断该第一正本是否已更新。例 如,在本发明的一个示例性实施例中,定期获取章节列表页中每个平行的章 节列表标签或该标签所超链接的章节文本内容的创立时间或修改时间,获取 并记录该创立时间或修改时间最晚的时间点,将新获取的时间点与上一次记 录的时间点对比,如果两个时间点不相同,则表征该章节列表页已更新;否 则若两个时间点相同,则表征该章节列表页没有更新。需要说明的是,上述 判断第一正本是否已更新的实施例只是示例性的,本领域内技术人员还可以 采用其他方式来实现,本实施例并不能构成对本发明的限制。

不难理解,通过上述实施例,能向用户反馈与第一正本所对应的第一副 本站点信息,通常情况该第一副本站点中的对应新章节能直接查看,解决了 用户无法直接查看部分小说正本站点中的新章节的问题,提高用户的体验度。

进一步的,请参见附图5,在本发明的另一个实施例中,所述步骤S14 中还包括有步骤:

S145,依据所述第二惯常时间,按照一定的时间间隔查询第一副本;

S146,判断所述第一副本所对应的章节列表页是否均已更新;

S147,当所述第一副本均已更新,则依据所述惯常时间差值按照一定时 间间隔查询第一正本,以判断所述第一正本是否已更新。

具体的,该实施例中当检测得到第一副本全部均已更新时,依据预设的 惯常时间差值,去检测其对应的第一正本是否又再度更新。但是当检测得到 第一副本没有全部更新时,则重复执行依据所述第二惯常时间,按照一定的 时间间隔查询第一副本的步骤,直到得到所有的第一副本均已更新。

进一步的,在本发明的一个示例性实施例中,通过分析所述第一副本对 应的所有章节列表页中最新创立或修改的章节信息,以判断第一副本是否均 已更新。例如,在本发明的一个示例性实施例中,定期获取章节列表页中每 个平行的章节列表标签或该标签所超链接的章节文本内容的创立时间或修改 时间,获取并记录该创立时间或修改时间最晚的时间点,将新获取的时间点 与上一次记录的时间点对比,如果两个时间点不相同,则表征该章节列表页 已更新;否则若两个时间点相同,则表征该章节列表页没有更新。需要说明 的是,上述判断第一副本是否已更新的实施例只是示例性的,本领域内技术 人员还可以采用其他方式来实现,本实施例并不能构成对本发明的限制。

终上所述,本发明中提供的一种网络小说新章节的获取方法,将相同主 题名称的多个章节列表页进行合并而得到合并结果页,并依据每个章节列表 页与合并结果页之间的相似度,确定与合并结果页最相似的章节列表页为第 一正本,其余的章节列表页为对应的第一副本;再响应于获取章节列表页的 外部请求,利用第一正本与第一副本更新的惯常时间、惯常时间差值的规律 数据,查询所述第一正本及第一副本,以获取并反馈所述的章节列表页。该 方法中能依据惯常更新时间规律数据,定期查询第一正本或第一副本所对应 的章节列表页,获取更新的章节列表页;而不需要不断的抓取每个站点的章 节列表页,节约网络资源,并能反馈给用户已更新的章节列表页,提高用户 体验度。

进一步,依据计算机软件的功能模块化思维,本发明还提供了一种网络 小说新章节的获取装置,请参阅图6。所述装置包括合并模块11、正副本确 定模块12、时间获取模块13和反馈模块14,利用上述各模块来搭建起整个 装置的原理框架,从而实现模块化实施方案。以下具体揭示各模块实现的具 体功能。

所述合并模块11,用于将同一主题名称的多个章节列表页进行合并,得 到合并结果页。

所述合并模块11获取了同一主题名称的多个章节列表页后,采用一定的 去重与合并算法,将多个章节列表页合并为结果页,不难理解,该结果页中 的章节列表较其他的章节列表页完整,且包括有最新的章节列表页。需要说 明的是,本发明所述的网络小说新章节的获取装置中,能够通过网络蜘蛛抓 取多个网站的数据,可以通过自动的网页结构分析得出其是否是小说网站。

在本发明的一个实施例中,参见附图7,所述获取装置还包括有聚类模 块10。

所述聚类模块10,用于在合并模块11将同一主题名称的多个章节列表 页进行合并之前,检测并获取章节列表页,确定每个章节列表页的主题名称, 每个章节列表页对应于一个站点;及

聚类有相同主题名称的章节列表页;及

建立所述主题名称与所述章节列表页所在的多个站点信息之间的关联 性。

具体的,所述聚类模块10对小说网站域名下的网页进行结构分析,若网 页中包括有多个平行的章节列表标签,即可判定该网页为小说章节列表页; 其中所述多个平行的章节列表标签的指向链接href(HypertextReference,超文 本引用)存在高度类似关系,及其对应的章节列表目录相同但是具体的文件名 不同。例如,假定所述多个平行的章节列表标签的href属性包含的目录均为 5_5288,而href属性包含的文件名各不同,即由970871至970980。

进一步的,所述小说章节列表页包括的多个平行的章节列表标签包含有 章节文本特征向量,其包括有表征章节的关键字和/或章节数,所述聚类模块 10可以基于上述关键字和/或章节数去提取该章节列表页的主题名称,例如, 可以采用“书名+作者”作为该章节列表页的主题名称。然后,所述聚类模 块10将具有相同主题名称的章节列表页聚类为一个集合,并获取每个章节列 表页所在的站点信息,建立所述主题名称与所述多个站点信息之间的关联性。

进一步的,为了降低反馈给用户的结果章节列表页中包括虚假信息的可 能性,提高用户的体验度,保证方案实施的有效性。在本发明的一个实施例 中,请参见附图8,所述获取装置还包括有虚假判断模块和过滤模块。

所述虚假判断模块01,用于依据某一章节列表页与其他章节列表页之间 的相似度,判断该章节列表页是否为虚假章节列表页;

所述过滤模块02,用于当判断得到所述章节列表页为虚假章节列表页, 过滤该章节列表页。

具体的,在本发明的一个实施例中,所述虚假判断模块01通过获取每一 个章节列表页的文字特征向量;并判断某一个章节列表页与其他章节列表页 之间具有相同文字特征向量的平均数;当所述平均数大于或等于预设的相似 度阈值时,所述虚假判断模块01确定该章节列表页为有效章节列表页;当所 述平均数小于预设的相似度阈值时,所述虚假判断模块01确定该章节列表页 为虚假章节列表页。

需要说明的是,其中所述文字特征向量可以是章节列表名称中的多个关 键字,基于一定相似度判断算法判断所述多个关键字之间的相似度;或者是 通过提取该同一主题的多个章节列表页名称所对应的页码中的数值特征向 量,其中所述数值特征向量可以是表征页码的数值;本实施例中,可以结合 文本特征向量及其对应的数值特征向量来共同计算任意两个章节列表页之间 的相似度,也可以单独采用其中一种特征向量来计算章节列表页之间的相似 度。当所述虚假判断模块01判断某一章节列表页为虚假章节列表页后,所述 过滤模块02直接过滤掉该章节列表页。

进一步的,请参见附图6,所述正副本确定模块12,用于判断每个章节 列表页与合并结果页之间的相似度,确定其中相似度最大的章节列表页为第 一正本,其他的章节列表页则均为对应的第一副本。

具体的,由前述合并模块11中,得到了较完整且包括有最新章节列表项 的合并结果页。该正副本确定模块12通过比较每个章节列表页与合并结果页 之间的相似度,确定其中相似度最大的章节列表页为第一正本,其他的章节 列表页则均为对应的第一副本。不难理解,所述的第一正本中极可能包含有 最新章节列表项,即可表征该章节列表页为最早更新的原创章节列表页,确 定该章节列表页为第一正本。

具体的,在本发明的一个实施例中,所述正副本确定模块12可以通过获 取每一个章节列表页的文字特征向量;并计算每个章节列表页与合并结果页 具有相同文字特征向量的总数。当该总数数值最大时,确定该章节列表页为 第一正本,其他的章节列表页为对应的第一副本。

进一步的,请参见附图6,所述时间获取模块13,用于获取所述第一正 本更新的第一惯常时间、第一副本更新的第二惯常时间,以及该第一惯常时 间与第二惯常时间之间的惯常时间差值。

具体的,本发明中,所述时间获取模块13通过统计所述第一正本更新的 多个时间,分析并得到其对应的第一惯常时间;同理,所述时间获取模块13 通过统计所述第一副本所对应的每个章节列表页更新的多个时间,分析并得 到每个章节列表页所对应的第二惯常时间;以及所述时间获取模块13计算在 第一正本更新后,延后一定时间,该主题名称所对应的某个第一副本更新, 该延后的时间即为对应于该第一副本的惯常时间差值;以及所述时间获取模 块13计算在所有的第一副本更新完成后,所述第一正本延后多长时间再度更 新,该延后的时间即为第一正本相对于所有第一副本的惯常时间差值。所述 时间获取模块13会关联性存储所述时间值与对应的第一正本、第一副本所在 的站点信息,当然所述第一正本和对应的多个第一副本均预先关联于同一章 节名称而存储。

进一步的,请参见附图6,所述反馈模块14,用于响应于获取章节列表 页的外部请求,利用所述第一惯常时间、第二惯常时间及惯常时间差值所表 征的时间规律数据,查询所述第一正本及第一副本,以获取并反馈所述的章 节列表页。

不难理解,在本发明的一个实施例中,所述获取装置还包括有接收模块, 所述接收模块,用于接收获取章节列表页的外部请求。

具体的,在本发明的一个示例性实施例中,本发明以装载有网络小说搜 索功能的APP的手机为用户端,在所述APP中带有用户搜索输入栏目,用 户可以输入某一网络小说的主题名称来搜索该小说的最新章节列表,然后所 述接收模块会接收到该外部请求。然后用户端基于获取的最新章节列表页, 进入该列表页所链接的最新章节内容页。需要说明的是,本发明仅仅是示例 性的,并不能构成对本发明的限制。

具体的,在本发明的一个实施例中,请参见附图9,所述反馈模块14还 包括有正本查询单元141、正本判断单元142、副本调度单元143和副本反馈 单元144。

所述正本查询单元141,用于响应于获取章节列表页的外部请求,依据 所述第一惯常时间,按照一定的时间间隔查询第一正本;

所述正本判断单元142,用于判断所述第一正本所对应的章节列表页是 否已更新;

所述副本调度单元143,用于当所述第一正本已更新,则依据所述惯常 时间差值按照一定时间间隔查询第一副本;

所述副本反馈单元144,用于获取并反馈已更新的第一副本所对应的站 点信息。

具体的,在接收模块接收到客户端发送的关于某一主题名称的获取章节 列表页的外部请求后,所述正本查询单元141依据预先设定的对应于该主题 名称的第一正本更新的惯常时间,按照一定的时间间隔查询该第一正本,所 述正本判断单元142判断所述第一正本所对应的章节列表页是否已更新;当 所述第一正本已更新,所述副本调度单元143则依据预设的惯常时间差值按 照一定时间间隔查询该第一正本所对应的第一副本;当得到某一个第一副本 已更新时,所述副本反馈单元144获取该第一副本所对应的站点信息,并向 客户端反馈该站点信息。反之,当所述第一正本没有更新,所述副本调度单 元143则重复执行所述依据第一惯常时间,按照一定的时间间隔查询第一正 本的步骤;直到判断得到所述第一正本已更新。

具体的,在本发明的一个实施例中,所述正本判断单元142通过分析所 述第一正本所对应的章节列表页中最新创立或修改的章节信息,来判断该第 一正本是否已更新。例如,在本发明的一个示例性实施例中,所述正本判断 单元142定期获取章节列表页中每个平行的章节列表标签或该标签所超链接 的章节文本内容的创立时间或修改时间,获取并记录该创立时间或修改时间 最晚的时间点,将新获取的时间点与上一次记录的时间点对比,如果两个时 间点不相同,则表征该章节列表页已更新;否则若两个时间点相同,则表征 该章节列表页没有更新。需要说明的是,上述所述正本判断单元142判断第 一正本是否已更新的实施例只是示例性的,本领域内技术人员还可以采用其 他方式来实现,本实施例并不能构成对本发明的限制。

不难理解,通过上述实施例,能向用户反馈与第一正本所对应的第一副 本站点信息,通常情况该第一副本站点中的对应新章节能直接查看,解决了 用户无法直接查看部分小说正本站点中的新章节的问题,提高用户的体验度。

进一步的,请参见附图10,在本发明的另一个实施例中,所述反馈模块 14还包括有副本查询单元145、副本判断单元146和正本调度单元147。

所述副本查询单元145,用于依据所述第二惯常时间,按照一定的时间 间隔查询第一副本;

所述副本判断单元146,用于判断所述第一副本所对应的章节列表页是 否均已更新;

所述正本调度单元147,用于当所述第一副本均已更新,则依据所述惯 常时间差值按照一定时间间隔查询第一正本,以判断所述第一正本是否已更 新。

具体的,该实施例中当所述副本判断单元146检测得到第一副本全部均 已更新时,所述正本调度单元147依据预设的惯常时间差值,去检测其对应 的第一正本是否又再度更新。但是当所述副本判断单元146检测得到第一副 本没有全部更新时,则调用副本查询单元145重复执行依据所述第二惯常时 间,按照一定的时间间隔查询第一副本的步骤,直到得到所有的第一副本均 已更新。

进一步的,在本发明的一个示例性实施例中,所述副本判断单元146通 过分析所述第一副本对应的所有章节列表页中最新创立或修改的章节信息, 以判断第一副本是否均已更新。例如,在本发明的一个示例性实施例中,所 述副本判断单元146定期获取章节列表页中每个平行的章节列表标签或该标 签所超链接的章节文本内容的创立时间或修改时间,获取并记录该创立时间 或修改时间最晚的时间点,将新获取的时间点与上一次记录的时间点对比, 如果两个时间点不相同,则表征该章节列表页已更新;否则若两个时间点相 同,则表征该章节列表页没有更新。需要说明的是,上述所述副本判断单元 146判断第一副本是否已更新的实施例只是示例性的,本领域内技术人员还 可以采用其他方式来实现,本实施例并不能构成对本发明的限制。

终上所述,本发明中提供的一种网络小说新章节的获取装置,合并模块 11将相同主题名称的多个章节列表页进行合并而得到合并结果页,所述正副 本确定模块12依据每个章节列表页与合并结果页之间的相似度,确定与合并 结果页最相似的章节列表页为第一正本,其余的章节列表页为对应的第一副 本;所述反馈模块14再响应于获取章节列表页的外部请求,利用所述时间获 取模块13获取的第一正本与第一副本更新的惯常时间、惯常时间差值的规律 数据,查询所述第一正本及第一副本,以获取并反馈所述的章节列表页。该 装置中能依据惯常更新时间规律数据,定期查询第一正本或第一副本所对应 的章节列表页,获取更新的章节列表页;而不需要不断的抓取每个站点的章 节列表页,节约网络资源,并能反馈给用户已更新的章节列表页,提高用户 体验度。

在此处所提供的说明书中,虽然说明了大量的具体细节。然而,能够理 解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实施例 中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

虽然上面已经示出了本发明的一些示例性实施例,但是本领域的技术人 员将理解,在不脱离本发明的原理或精神的情况下,可以对这些示例性实施 例做出改变,本发明的范围由权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号