公开/公告号CN103970755A
专利类型发明专利
公开/公告日2014-08-06
原文格式PDF
申请/专利权人 腾讯科技(深圳)有限公司;
申请/专利号CN201310031915.4
发明设计人 黄钰;
申请日2013-01-28
分类号G06F17/30;
代理机构深圳市深佳知识产权代理事务所(普通合伙);
代理人唐华明
地址 518031 广东省深圳市福田区振兴路赛格科技园2栋东403室
入库时间 2023-12-17 00:55:30
法律状态公告日
法律状态信息
法律状态
2018-12-11
授权
授权
2015-09-23
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130128
实质审查的生效
2014-08-06
公开
公开
技术领域
本发明涉及通信技术领域,具体涉及一种小说目录项的识别方法、装置和 系统。
背景技术
随着移动互联网技术以及移动终端的发展,人们越来越倾向于通过移动终 端来阅读互联网上的信息,其中,包括阅读互联网上各种各样的小说作品,但 是,目前互联网上的小说作品有很大一部分都是以万维网(www,world wide web)网页的形式存在,所谓万维网网页,一般指的是在基于个人计算机(PC, Personal Computer)的网页,其区别于无线应用协议(WAP,Wireless Application Protocol)网页,WAP网页,一般指的是基于移动终端的网页。
在对现有技术的研究和实践过程中,本发明的发明人发现,由于万维网网 页上的小说的结构和内容都比较复杂,在移动终端上显示存在局限性,所以往 往显示效果不佳,甚至会影响用户浏览质量。
发明内容
本发明实施例提供一种小说目录项的识别方法、装置和系统,可以对小说 目录项进行识别,从而便于后续在移动终端上进行显示,以提高显示效果,改 善用户的浏览质量。
一种小说目录项的识别方法,包括:
确定万维网网页是否存在小说目录项特征;
若是,则确定所述万维网网页为小说目录页;
若否,则对所述万维网网页进行视觉分块,得到分块后网页,根据分块后 网页建立第一文档对象模型(DOM,Document Object Model)树,根据所述 第一DOM树获取疑似目录块的特征,根据所述疑似目录块的特征确定存在小 说目录页时,确定所述分块后网页为小说目录页。
可选的,其中,所述确定万维网网页是否存在小说目录项特征可以包括:
根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存 在小说目录项特征;例如,具体可以如下:
根据万维网网页的链接确定所述万维网网页是否为首页或二级首页;
若是,则确定不存在小说目录项特征;
若否,则根据所述万维网网页建立第二DOM树,利用所述第二DOM树获 取所述万维网网页的标题和全文具有正文特征的文本链接,确定所述标题存在 预置的小说标题特性关键词,且确定所述全文具有正文特征的文本链接中存在 预置的小说正文特性关键词的文本链接的数量大于等于预置的第一阈值,且确 定全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值 时,确定存在小说目录项特征,否则,确定不存在小说目录项特征。
一种小说目录项的识别装置,包括:
第一确定单元,用于确定万维网网页是否存在小说目录项特征,若是,则 确定所述万维网网页为小说目录页;
分块单元,用于在第一确定单元确定万维网网页不存在小说目录项特征 时,对所述万维网网页进行视觉分块,得到分块后网页;
模型建立单元,用于根据分块后网页建立第一DOM树;
获取单元,用于根据所述第一DOM树获取疑似目录块的特征;
第二确定单元,用于根据所述疑似目录块的特征确定存在小说目录页时, 确定所述分块后网页为小说目录页。
可选的,所述第一确定单元,具体可以用于根据万维网网页的链接、标题 和全文具有正文特征的文本链接确定是否存在小说目录项特征。例如,具体可 以如下:
所述第一确定单元,具体用于根据万维网网页的链接确定所述万维网网页 是否为首页或二级首页;若是,则确定不存在小说目录项特征;若否,则根据 所述万维网网页建立第二DOM树,利用所述第二DOM树获取所述万维网网页 的标题和全文具有正文特征的文本链接,确定所述标题存在预置的小说标题特 性关键词,且确定所述全文具有正文特征的文本链接中存在预置的小说正文特 性关键词的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本 链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目 录项特征,否则,确定不存在小说目录项特征。
一种通信系统,包括本发明实施例提供的任一中小说目录项的识别装置。
本发明实施例通过确定万维网网页中是否存在小说目录项特征,来从万维 网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维网网 页,则进一步通过视觉分块以及建立第一DOM树,并利用第一DOM树获取疑 似目录块的特征,然后根据疑似目录块的特征来确定是否是小说目录页,从而 实现了对小说目录项的识别,从而便于后续在移动终端上进行显示,以提高显 示效果,改善用户的浏览质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还 可以根据这些附图获得其他的附图。
图1是本发明实施例提供的小说目录项的识别方法的流程示意图;
图2是本发明实施例提供的小说目录项的识别方法的另一流程示意图;
图3是本发明实施例提供的小说目录项的识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳 动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种小说目录项的识别方法、装置和系统。以下分别进 行详细说明。
实施例一、
本发明实施例将从小说目录项的识别装置的角度进行描述,该小说目录项 的识别装置具体可以集成在移动终端中,比如手机或平板电脑等。
一种小说目录项的识别方法,包括:确定万维网网页是否存在小说目录项 特征,若存在小说目录项特征,则确定该万维网网页为小说目录页;若不存在 小说目录项特征,则对该万维网网页进行视觉分块,得到分块后网页,根据分 块后网页建立第一DOM树,根据该第一DOM树获取疑似目录块的特征,根据 该疑似目录块的特征确定存在小说目录页时,确定该分块后网页为小说目录 页。
如图1所示,具体流程可以如下:
101、确定万维网网页是否存在小说目录项特征,若是,则执行步骤102, 若否,则执行步骤103;
例如,具体可以根据万维网网页的链接、标题和全文具有正文特征的文本 链接确定是否存在小说目录项特征;比如,具体可以包括:
根据万维网网页的链接确定该万维网网页是否为首页或二级首页;若为首 页或二级首页,则确定不存在小说目录项特征;若即不是首页也不是二级首页, 则根据该万维网网页建立DOM树,为了描述方便,将该DOM树称为第二DOM 树,利用该第二DOM树获取该万维网网页的标题和全文具有正文特征的文本 链接,确定该标题存在预置的小说标题特性关键词,且确定该全文具有正文特 征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于 预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例大于 等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小说目 录项特征。
其中,本发明实施例的相似文本链接,指的是指向同一正文页的不同的文 本链接,即具有相同正文页链接的不同的文本链接,比如同一“第”下的不同 “章”的链接,或者,同一“章”下的不同“节”的文本链接,或者,同一“节” 下的不同“回”的文本链接,等等。
其中,万维网网页的链接具体可以为统一资源定位符(URL,Universal Resource Locator),则具体可以检测万维网网页的URL的路径长度,以及检测 是否含有类似“index”+“.html/jsp/asp/php/shtml”或“default”+ “.html/jsp/asp/php/shtml”等关键词,从而判断该万维网网页是否属于首页或 者二级首页。
此外,小说标题特性关键词可以包括目录和/或标题等词语;小说正文特 性关键词包括:第、章、节、回和/或卷等词语,而第一阈值和第二阈值则可 以根据实际应用的需求进行设置,在此不再赘述。
102、确定万维网网页存在小说目录项特征时,确定该万维网网页为小说 目录页。
103、确定万维网网页不存在小说目录项特征时,对万维网网页进行视觉 分块,得到分块后网页。
104、根据分块后网页建立DOM树,为了描述方便,在本发明实施例中, 将该DOM树称为第一DOM树。
105、根据该第一DOM树获取疑似目录块的特征,根据该疑似目录块的特 征确定存在小说目录页时,确定该分块后网页为小说目录页。
其中,根据该第一DOM树获取疑似目录块的特征,具体可以包括:
根据该第一DOM树获取疑似目录块位置、疑似目录块链接和疑似目录块 中具有正文特征的文本链接;
则此时,步骤“根据该疑似目录块的特征确定存在小说目录页时,确定该 分块后网页为小说目录页”具体可以为:根据疑似目录块位置、疑似目录块链 接和疑似目录块中具有正文特征的文本链接确定存在小说目录页时,确定所述 分块后网页为小说目录页,具体可以如下:
根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文 本链接确定符合第一条件和第二条件时,确定存在小说目录页;
(一)第一条件包括:
疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键 词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接 占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值;
(二)第二条件包括:
在根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的 文本链接确定该分块后网页存在目录块的前提下,符合以下任意一种情况:
(1)代表目录块中具有正文特征的文本链接中存在预置的小说正文特性 关键词的文本链接的数量大于等于预置的第五阈值;
(2)代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且 代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等 于预置的第七阈值;
(3)分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于 预置的第八阈值,且该分块后网页中的所有疑似目录块中的相似文本链接占该 分块后网页中所有文本链接的比例大于等于预置的第九阈值。
其中,可以采用如下方法来得到代表目录块,如下:
统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目 录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链 接的数量;确定该链接特征的数量和小说正文特性关键词的文本链接的数量最 多的疑似目录块为代表目录块。
其中,步骤“根据疑似目录块链接和疑似目录块中具有正文特征的文本链 接确定该分块后网页存在目录块”具体可以包括:
确定疑似目录块位置满足预置条件(可以根据实际应用的需求进行设置), 且确定疑似目录块链接存在预置的小说正文页的链接特征,以及确定疑似目录 块具有正文特征的文本链接中存在预置的小说正文特性关键词时,确定该分块 后网页存在目录块。
其中,第三阈值、第四阈值、第五阈值、第六阈值、第七阈值、第八阈值 和第九阈值可以根据实际应用的需求进行设置。
需说明的是,在本发明实施例中,将符合预置条件的分块后网页中的块称 为疑似目录块,该预置条件可以根据实际应用的需求进行设置。
此外,若根据该疑似目录块的特征确定不存在小说目录页,则可以确定该 分块后网页不是小说目录页。
由上可知,本实施例通过确定万维网网页中是否存在小说目录项特征,来 从万维网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维 网网页,则进一步通过视觉分块以及建立第一DOM树,并利用第一DOM树获 取疑似目录块的特征,然后根据疑似目录块的特征来确定是否是小说目录页, 从而实现了对小说目录项的识别,从而便于后续在移动终端上进行显示,以提 高显示效果,改善用户的浏览质量。
实施例二、
根据实施例一所描述的方法,以下将举例作进一步详细说明。
在本发明实施例中,将以该小说目录项的识别装置具体集成在移动终端, 且万维网网页的链接具体为URL为例进行说明。
一种小说目录项的识别方法,如图2所示,具体流程可以如下:
201、移动终端获取万维网网页。
202、移动终端根据万维网网页的URL确定该万维网网页是否为首页或二 级首页,若为首页或二级首页,则可以直接确定不存在小说目录项特征,于是 执行步骤204;若即不是首页也不是二级首页,则执行步骤203。
例如,具体可以检测万维网网页的URL的路径长度,以及检测是否含有类 似“index”+“.html/jsp/asp/php/shtml”或“default”+“.html/jsp/asp/php/shtml” 等关键词,从而判断该万维网网页是否属于首页或者二级首页。
203、根据该万维网网页建立第二DOM树,利用该第二DOM树获取该万 维网网页的标题和全文具有正文特征的文本链接,并根据该万维网网页的链 接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征,具体 如下:
确定该标题中是否存在预置的小说标题特性关键词,以及确定该全文具有 正文特征的文本链接中是否存在预置的小说正文特性关键词,并统计这些存在 小说正文特性关键词的文本链接的数量,此外,还可以确定全文中相似文本链 接的占比,即全文中相似文本链接占全文所有文本链接的比例。
若确定该标题存在预置的小说标题特性关键词,且该全文具有正文特征的 文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置 的第一阈值,且全文中相似文本链接占全文所有文本链接的比例大于等于预置 的第二阈值时,则可以确定存在小说目录项特征,于是确定该万维网网页为小 说目录页,流程结束;
否则,若确定该标题不存在预置的小说标题特性关键词,或确定该全文具 有正文特征的文本链接中存在预置的小说正文特性关键词文本链接的数量小 于预置的第一阈值,或确定全文中相似文本链接占全文所有文本链接的比例小 于预置的第二阈值,则确定不存在小说目录项特征,于是执行步骤204。
其中,小说标题特性关键词可以包括目录和/或标题等词语;小说正文特 性关键词包括:第、章、节、回和/或卷等词语,而第一阈值和第二阈值则可 以根据实际应用的需求进行设置,例如,具体可以如下:
根据该万维网网页建立第二DOM树,利用该第二DOM树获取该万维网网 页<title>标签下的标题,确定该标题中是否存在“目录”和/或“标题”等关键 词;
遍历第二DOM树,确定全文具有正文特征的文本链接中是否含有“第”、 “章”、“节”、“回”和/或“卷”等目录相关关键词,若含有,则统计这些含 有“第”、“章”、“节”、“回”和/或“卷”等目录相关关键词的文本链接的数 量,此外,还可以计算全文中相似文本链接占全文所有文本链接的比例;
若标题中存在“目录”和/或“标题”等关键词,且这些含有“第”、“章”、 “节”、“回”和/或“卷”等目录相关关键词的文本链接的数量大于等于第一 阈值,且这些相似文本链接占全文所有文本链接的比例大于等于预置的第二阈 值,则可以确定该万维网网页存在小说目录项特征,于是确定该万维网网页为 小说目录页,流程结束。
若标题中不存在“目录”和/或“标题”等关键词,或这些含有“第”、“章”、 “节”、“回”和/或“卷”等目录相关关键词的文本链接的数量小于第一阈值, 或这些相似文本链接占全文所有文本链接的比例小于预置的第二阈值,则可以 确定该万维网网页不存在小说目录项特征,于是可以执行步骤204。
204、移动终端确定万维网网页不存在小说目录项特征时,对万维网网页 进行视觉分块,得到分块后网页。
205、移动终端根据分块后网页建立第一DOM树,并根据该第一DOM树 获取疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链 接。
其中,疑似目录块位置可以从块的位置坐标、宽度、高度等来体现,例如, 若以万维网网页的页面从左到右代表x轴,从上到下代表y轴的坐标系来看, 则可以用x代表块的x坐标,y代表块的y坐标,width代表分块的宽度,height 代表分块的高度,等等。
206、移动终端根据疑似目录块位置、疑似目录块链接和疑似目录块中具 有正文特征的文本链接确定是否存在小说目录页,若是,则确定该分块后网页 为小说目录页,若否,则可以确定该分块后网页不是小说目录页(即非小说目 录页)。
例如,移动终端具体可以根据疑似目录块位置、疑似目录块链接和疑似目 录块中具有正文特征的文本链接确定是否符合第一条件和第二条件,若可以同 时符合第一条件和第二条件,则确定该分块后网页存在小说目录页,否则,若 不能同时符合第一条件和第二条件,则确定该分块后网页不存在小说目录页。
其中,第一条件和第二条件具体可以如下:
(一)第一条件包括:
疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键 词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接 占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值。
例如,小说正文特性关键词具体可以为“第”、“章”、“节”、“回”和/或 “卷”等目录相关的关键词,而第三阈值具体可以设置为“15”,第四阈值具体 可以设置为“0.8”,则具体可以如下:
疑似目录块中具有正文特征的链接文本中含有“第”、“章”、“节”、“回” 和/或“卷”等目录相关的关键词,且这类链接文本数量大于等于15个,且该疑 似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于 0.8。
(二)第二条件包括:
在根据疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该 分块后网页存在目录块的前提下,符合以下任意一种情况:
(1)代表目录块中具有正文特征的文本链接中存在预置的小说正文特性 关键词的数量大于等于预置的第五阈值;
例如,小说正文特性关键词具体可以为“第”、“章”、“节”、“回”和/或 “卷”等目录相关的关键词,而第五阈值可以设置为“10”,则具体可以如下:
代表目录块中具有正文特征的链接文本中含有“第”、“章”、“节”、“回” 和/或“卷”等目录相关的关键词,且这类链接文本数量大于等于10个。
(2)代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且 代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等 于预置的第七阈值;
例如,第六阈值具体可以设置为“20”,第七阈值具体可以设置为“0.9”, 则具体可以如下:
代表目录块中的相似文本链接的数量大于等于20个,且代表目录块中的相 似文本链接占本疑似目录块中所有文本链接的比例大于等于0.9。
(3)分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于 预置的第八阈值,且该分块后网页中的所有疑似目录块中的相似文本链接占该 分块后网页中所有文本链接的比例大于等于预置的第九阈值。
例如,第八阈值具体可以设置为“100”,第九阈值具体可以设置为“0.8”, 则具体可以如下:
分块后网页中的所有疑似目录块的相似文本链接的数量大于等于100个, 且该分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所 有文本链接的比例大于等于0.8。
其中,可以采用如下方法来得到代表目录块,如下:
统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目 录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链 接的数量,确定该链接特征的数量和小说正文特性关键词的文本链接的数量最 多的疑似目录块为代表目录块。
其中,步骤“根据疑似目录块链接和疑似目录块中具有正文特征的文本链 接确定该分块后网页存在目录块”具体可以包括:
确定疑似目录块位置满足预置条件,比如,满足“y>=100;width>300; height>100”,且确定疑似目录块链接存在预置的小说正文页的链接特征,且确 定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时, 可以确定该分块后网页存在目录块。
需说明的是,以上各个阈值的值仅仅为范例,应当理解的是,以上各个阈 值,即第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值、第 七阈值、第八阈值和第九阈值的具体取值可以根据实际应用的需求进行设置。
由上可知,本实施例通过确定万维网网页中是否存在小说目录项特征,来 从万维网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维 网网页,则进一步通过视觉分块以及建立第一DOM树,并利用第一DOM树获 取疑似目录块的特征,比如获取疑似目录块位置、疑似目录块链接和疑似目录 块中具有正文特征的文本链接等,然后根据这些疑似目录块的特征来确定是否 是小说目录页,从而实现了对小说目录项的识别,在进行小说目录页的相关抽 取时将能更有针对性,取得更好的抽取效果,从而便于后续在移动终端上进行 显示,以提高显示效果,改善用户的浏览质量。
实施例三、
为了更好地实施以上方法,本发明实施例还提供一种小说目录项的识别装 置,如图3所示,该小说目录项的识别装置包括第一确定单元301、分块单元302、 模型建立单元303、获取单元304和第二确定单元305;
第一确定单元301,用于确定万维网网页是否存在小说目录项特征,若是, 则确定该万维网网页为小说目录页;
分块单元302,用于在第一确定单元301确定万维网网页不存在小说目录项 特征时,对该万维网网页进行视觉分块,得到分块后网页;
模型建立单元303,用于根据分块单元302得到的分块后网页建立第一 DOM树;
获取单元304,用于根据模型建立单元303建立的第一DOM树获取疑似目 录块的特征;
第二确定单元305,用于根据疑似目录块的特征确定存在小说目录页时, 确定所述分块后网页为小说目录页。
其中,第一确定单元301,具体可以用于根据万维网网页的链接、标题和 全文具有正文特征的文本链接确定是否存在小说目录项特征。例如,具体可以 如下:
第一确定单元301,具体可以用于根据万维网网页的链接确定该万维网网 页是否为首页或二级首页;若是,则确定不存在小说目录项特征;若否,则根 据该万维网网页建立第二DOM树,利用第二DOM树获取该万维网网页的标题 和全文具有正文特征的文本链接,确定该标题存在预置的小说标题特性关键 词,且确定该“全文具有正文特征的文本链接”中存在“预置的小说正文特性 关键词”的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本 链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目 录项特征,否则,确定不存在小说目录项特征。
其中,本发明实施例的相似文本链接,指的是指向同一正文页的不同的文 本链接,即具有相同正文页链接的不同的文本链接,比如同一“第”下的不同 “章”的链接,或者,同一“章”下的不同“节”的文本链接,或者,同一“节” 下的不同“回”的文本链接,等等。
其中,万维网网页的链接具体可以为URL,则具体可以检测万维网网页的 URL的路径长度,以及检测是否含有类似“index”+“.html/jsp/asp/php/shtml” 或“default”+“.html/jsp/asp/php/shtml”等关键词,从而判断该万维网网页是 否属于首页或者二级首页。
此外,小说标题特性关键词可以包括目录和/或标题等词语;小说正文特 性关键词包括:第、章、节、回和/或卷等词语,而第一阈值和第二阈值则可 以根据实际应用的需求进行设置,在此不再赘述。
其中,疑似目录块的特征可以包括疑似目录块位置、疑似目录块链接和疑 似目录块中具有正文特征的文本链接等,即:
获取单元304,具体可以用于根据第一DOM树获取疑似目录块位置、疑似 目录块链接和疑似目录块中具有正文特征的文本链接;
则此时,第二确定单元305,具体可以用于根据疑似目录块位置、疑似目 录块链接和疑似目录块中具有正文特征的文本链接确定存在小说目录页时,确 定该分块后网页为小说目录页。例如,具体可以如下:
第二确定单元305,具体可以用于根据疑似目录块位置、疑似目录块链接 和疑似目录块中具有正文特征的文本链接确定符合第一条件和第二条件时,确 定存在小说目录页;
其中,第一条件和第二条件具体可以如下:
(一)第一条件包括:
疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键 词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接 占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值。
例如,小说正文特性关键词具体可以为“第”、“章”、“节”、“回”和/或 “卷”等目录相关的关键词,而第三阈值具体可以设置为“15”,第四阈值具体 可以设置为“0.8”,则具体可以如下:
疑似目录块中具有正文特征的链接文本中含有“第”、“章”、“节”、“回” 和/或“卷”等目录相关的关键词,且这类链接文本数量大于等于15个,且该疑 似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于 0.8。
(二)第二条件包括:
在根据疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该 分块后网页存在目录块的前提下,符合以下任意一种情况:
(1)代表目录块中具有正文特征的文本链接中存在预置的小说正文特性 关键词的数量大于等于预置的第五阈值;
例如,小说正文特性关键词具体可以为“第”、“章”、“节”、“回”和/或 “卷”等目录相关的关键词,而第五阈值可以设置为“10”,则具体可以如下:
代表目录块中具有正文特征的链接文本中含有“第”、“章”、“节”、“回” 和/或“卷”等目录相关的关键词,且这类链接文本数量大于等于10个。
(2)代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且 代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等 于预置的第七阈值;
例如,第六阈值具体可以设置为“20”,第七阈值具体可以设置为“0.9”, 则具体可以如下:
代表目录块中的相似文本链接的数量大于等于20个,且代表目录块中的相 似文本链接占本疑似目录块中所有文本链接的比例大于等于0.9。
(3)分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于 预置的第八阈值,且该分块后网页中的所有疑似目录块中的相似文本链接占该 分块后网页中所有文本链接的比例大于等于预置的第九阈值。
例如,第八阈值具体可以设置为“100”,第九阈值具体可以设置为“0.8”, 则具体可以如下:
分块后网页中的所有疑似目录块的相似文本链接的数量大于等于100个, 且该分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所 有文本链接的比例大于等于0.8。
其中,可以采用如下方法来得到代表目录块,如下:
统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目 录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链 接的数量,确定该链接特征的数量和小说正文特性关键词的文本链接的数量最 多的疑似目录块为代表目录块。即:
第二确定单元305,具体可以用于统计疑似目录块中出现的小说正文页的 链接特征的数量,以及统计疑似目录块中具有正文特征的文本链接中存在预置 的小说正文特性关键词的文本链接的数量,确定该链接特征的数量和小说正文 特性关键词的文本链接的数量最多的疑似目录块为代表目录块。
此外,具体可以采用如下方法来确定分块后网页是否存在目录块,如下:
确定疑似目录块位置满足预置条件,比如,满足“y>=100;width>300; height>100”,且确定疑似目录块链接存在预置的小说正文页的链接特征,且确 定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时, 可以确定该分块后网页存在目录块,否则,确定该分块后网页存在目录块。即:
第二确定单元305,具体可以用于确定疑似目录块位置满足预置条件,且 确定疑似目录块链接存在预置的小说正文页的链接特征,以及确定疑似目录块 具有正文特征的文本链接中存在预置的小说正文特性关键词时,确定分块后网 页存在目录块。
需说明的是,以上各个阈值的值仅仅为范例,应当理解的是,以上各个阈 值,即第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值、第 七阈值、第八阈值和第九阈值的具体取值可以根据实际应用的需求进行设置。
此外,如果移动终端根据疑似目录块位置、疑似目录块链接和疑似目录块 中具有正文特征的文本链接确定该分块后网页不存在小说目录页,则第二确定 单元305可以确定该分块后网页不是小说目录页。
该小说目录项的识别装置具体可以集成在移动终端中,比如手机或平板电 脑等。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意 组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的 方法实施例,在此不再赘述。
由上可知,本实施例的小说目录项的识别装置可以通过第一确定单元301 确定万维网网页中是否存在小说目录项特征,来从万维网网页中初步识别出小 说目录页,而对于不存在小说目录项特征的万维网网页,则由分块单元302作 进一步视觉分块以及由模型建立单元303建立第一DOM树,并由获取单元304 利用第一DOM树获取疑似目录块的特征,然后再由第二确定单元305根据这些 疑似目录块的特征来确定是否是小说目录页,从而实现了对小说目录项的识 别,在进行小说目录页的相关抽取时将能更有针对性,取得更好的抽取效果, 从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
实施例四、
相应的,本发明实施例还提供一种通信系统,包括本发明实施例提供的任 一种小说目录项的识别装置。例如,具体可以如下:
小说目录项的识别装置,用于确定万维网网页是否存在小说目录项特征, 若存在小说目录项特征,则确定该万维网网页为小说目录页;若不存在小说目 录项特征,则对该万维网网页进行视觉分块,得到分块后网页,根据分块后网 页建立第一DOM树,根据该第一DOM树获取疑似目录块的特征,根据该疑似 目录块的特征确定存在小说目录页时,确定该分块后网页为小说目录页。
可选的,其中,小说目录项的识别装置,具体可以用于根据万维网网页的 链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征。
例如,小说目录项的识别装置,具体可以用于根据万维网网页的链接确定 该万维网网页是否为首页或二级首页;若为首页或二级首页,则确定不存在小 说目录项特征;若即不是首页也不是二级首页,则根据该万维网网页建立第二 DOM树,利用该第二DOM树获取该万维网网页的标题和全文具有正文特征的 文本链接,确定该标题存在预置的小说标题特性关键词,且确定该全文具有正 文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于 等于预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例 大于等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小 说目录项特征。
其中,相似文本链接,指的是指向同一正文页的不同的文本链接,即具有 相同正文页链接的不同的文本链接,比如同一“第”下的不同“章”的链接, 或者,同一“章”下的不同“节”的文本链接,或者,同一“节”下的不同“回” 的文本链接,等等。
其中,万维网网页的链接具体可以为URL,则具体可以检测万维网网页的 URL的路径长度,以及检测是否含有类似“index”+“.html/jsp/asp/php/shtml” 或“default”+“.html/jsp/asp/php/shtml”等关键词,从而判断该万维网网页是 否属于首页或者二级首页。
此外,小说标题特性关键词可以包括目录和/或标题等词语;小说正文特 性关键词包括:第、章、节、回和/或卷等词语,而第一阈值和第二阈值则可 以根据实际应用的需求进行设置,在此不再赘述。
其中,小说目录项的识别装置,具体可以用于根据该第一DOM树获取疑 似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接;然 后根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本 链接确定存在小说目录页时,确定该分块后网页为小说目录页,比如,具体可 以如下:
根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文 本链接确定符合第一条件和第二条件时,确定存在小说目录页;其中,第一条 件和第二条件具体可以如下:
(一)第一条件包括:
疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键 词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接 占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值;
(二)第二条件包括:
在根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的 文本链接确定该分块后网页存在目录块的前提下,符合以下任意一种情况:
(1)代表目录块中具有正文特征的文本链接中存在预置的小说正文特性 关键词的文本链接的数量大于等于预置的第五阈值;
(2)代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且 代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等 于预置的第七阈值;
(3)分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于 预置的第八阈值,且该分块后网页中的所有疑似目录块中的相似文本链接占该 分块后网页中所有文本链接的比例大于等于预置的第九阈值。
其中,可以采用如下方法来得到代表目录块,如下:
统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目 录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链 接的数量;确定该链接特征的数量和小说正文特性关键词的文本链接的数量最 多的疑似目录块为代表目录块。
其中,步骤“根据疑似目录块链接和疑似目录块中具有正文特征的文本链 接确定该分块后网页存在目录块”具体可以包括:
确定疑似目录块位置满足预置条件(可以根据实际应用的需求进行设置), 且确定疑似目录块链接存在预置的小说正文页的链接特征,以及确定疑似目录 块具有正文特征的文本链接中存在预置的小说正文特性关键词时,确定该分块 后网页存在目录块。
其中,第三阈值、第四阈值、第五阈值、第六阈值、第七阈值、第八阈值 和第九阈值可以根据实际应用的需求进行设置。
其中,该小说目录项的识别装置具体可以集成在移动终端中,比如手机或 平板电脑等。
此外,该通信系统还可以包括网络侧设备,用于提供万维网网页给该小说 目录项的识别装置。
该网络侧设备具体可以为服务器等设备,在此不再赘述。
由上可知,本实施例的通信系统中的小说目录项的识别装置可以通过确定 万维网网页中是否存在小说目录项特征,来从万维网网页中初步识别出小说目 录页,而对于不存在小说目录项特征的万维网网页,则进一步通过视觉分块以 及建立第一DOM树,并利用第一DOM树获取疑似目录块的特征,然后根据这 些疑似目录块的特征来确定是否是小说目录页,从而实现了对小说目录项的识 别,在进行小说目录页的相关抽取时将能更有针对性,取得更好的抽取效果, 从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步 骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读 存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、 随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种小说目录项的识别方法、装置和系统进 行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐 述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时, 对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均 会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
机译: 一种存储新内容项的方法,一种用于提供内容项的用户设备以及一种用于传输内容项的系统
机译: 在一种资源上可通过另一种资源制作内容项,驻留项或可访问项的系统和方法
机译: 在一种资源上可通过另一种资源制作内容项,驻留项或可访问项的系统和方法