法律状态公告日
法律状态信息
法律状态
2018-10-09
授权
授权
2016-03-09
实质审查的生效 IPC(主分类):G06F17/30 申请日:20141022
实质审查的生效
2016-02-10
公开
公开
技术领域
本发明涉及数字出版物检索技术领域,尤其涉及到一种内容检索和标注信息主动服务的交互式检索方法。
背景技术
现在的文档服务模式大多以主动搜索式为主,面对网络中大量的电子文档可以通过键入关键字的搜索方式获取一个文档集,但对于一个已有的电子文档主动提供关键内容标注的技术和应用甚少。
一方面,对于电子文档来说,为了顺应数字化的发展需要一种被动检索和主动信息服务的双向交互模式;另一方面,对于使用者来说,本模块提出的交互方式是未来网上阅读、无纸办公提高信息获取速度的一个重要方式。
发明内容
本发明所要解决的技术问题是正对上述存在的技术不足,提供一种用户可以按照关键字搜索内容,系统也可以主动为用户提供标注内容要素。不再是简单的信息检索模式,还提供提炼信息要素查看模式的内容检索和标注信息主动服务的交互式检索方法。
本发明解决其技术问题所采用的技术方案是:
内容检索和标注信息主动服务的交互式检索方法,其特征在于,包括如下步骤:
数据准备:在计算机系统中,利用工具对文档集进行预处理、建立索引、并添加标注,储存在数据库中,提供内容检索和标注信息主动服务两种模式下的数据需求。
信息检索:为文本被动搜索过程,是一种信息被动输出过程,对文本信息的搜索,输入关键字后,计算机系统从数据库中检索文档集索引,然后反馈回结果,选出文档集。
标注信息主动服务:为文本主动标注过程,是一种信息主动输出过程,计算机首先将添加标注后的文本的内部信息进行关联,选取一篇文档之后,计算机主动调用与之相关联的标注信息,然后反馈回结果,将标注信息主动显示在文档中。
其中内容检索和标注信息主动服务两种模式交互使用,并可同时进行使用。
在上述方案中,所述的数据准备为:
文本预处理:对原始文本进行预处理,抽取处里面的文本信息。
建立索引:通过Lucene或其他索引工具,并配合如ansj等分词器对抽取出来的文本建立合理带关键字的倒排索引,创建的索引域粒度越细,那么在文本被搜索的过程中获取的文本集信息就接近需求,但对文本主动标注展示没有影响。
添加标注:对抽取出来的文本信息进行关键字提取、计算权值,并将关键字位置信息和权值保存到存储系统中,标注信息的建立对信息检索没有影响,不同的关键字算法抽取出来的关键字会不一样,不同的权值计算方法,得到的关键字权值也会有多差异。
在上述方案中,所述的信息检索为:
输入关键字:用户在系统界面输入检索关键字或关键字串,并把输入信息传入系统内部。
检索文档集索引:接到检索关键字,调用Lucene检索接口检索存储系统中建立好的文档集索引数据,并返回带高亮显示的文本结果集。
返回检索结果集:显示结果集列表,点击可浏览带检索关键字的高亮显示的文档。
在上述方案中,所述的标注信息主动服务为:
选择预览文档:在文档列表中选取预览文档,返回关联标注的预览文档。
查看标注信息:在返回的预览文档中点击查看标注信息可以查看到每段的标注信息。
本发明的原理是用户输入关键字点击搜索,可搜索出存储系统中含有该关键字的文档集;同时用户选定系统各种已经处理pdf文档点击查看,系统返回段落的标注信息;两种模式交互使用。
本发明的有益效果是:
本发明方法使用户可以按照关键字搜索内容,系统也可以主动为用户提供标注内容要素;不再是简单的信息检索模式,还可以提供提炼信息要素查看的模式。
附图说明
图1是本发明实施例的总体流程图;
图2是本发明实施例的信息检索流程图;
图3是本发明实施例的标注信息主动服务流程图。
具体实施方式
下面结合具体实施方式,对本发明作进一步的说明:
如图1至图3所示的内容检索和标注信息主动服务的交互式检索方法,包括如下步骤:
数据准备:利用工具对文档集进行预处理、建立索引、并添加标注,储存在数据库中,提供内容检索和标注信息主动服务两种模式下的数据需求。
信息检索:为文本被动搜索过程,是一种信息被动输出过程,对文本信息的搜索,输入关键字后,计算机系统从数据库中检索文档集索引,然后反馈回结果,选出文档集。
标注信息主动服务:为文本主动标注过程,是一种信息主动输出过程,计算机首先将添加标注后的文本的内部信息进行关联,选取一篇文档之后,计算机主动调用与之相关联的标注信息,然后反馈回结果,将标注信息主动显示在文档中。
其中内容检索和标注信息主动服务两种模式交互使用,并可同时进行使用。
在本实施例中,所述的数据准备为:
文本预处理:对原始文本进行预处理,抽取处里面的文本信息。
建立索引:通过Lucene或其他索引工具,并配合如ansj等分词器对抽取出来的文本建立合理带关键字的倒排索引,创建的索引域粒度越细,那么在文本被搜索的过程中获取的文本集信息就接近需求,但对文本主动标注展示没有影响。
添加标注:对抽取出来的文本信息进行关键字提取、计算权值,并将关键字位置信息和权值保存到存储系统中,标注信息的建立对信息检索没有影响,不同的关键字算法抽取出来的关键字会不一样,不同的权值计算方法,得到的关键字权值也会有多差异。
在本实施例中,所述的信息检索为:
输入关键字:用户在系统界面输入检索关键字或关键字串,并把输入信息传入系统内部。
检索文档集索引:接到检索关键字,调用Lucene检索接口检索存储系统中建立好的文档集索引数据,并返回带高亮显示的文本结果集。
返回检索结果集:显示结果集列表,点击可浏览带检索关键字的高亮显示的文档。
在本实施例中,所述的标注信息主动服务为:
选择预览文档:在文档列表中选取预览文档,返回关联标注的预览文档。
查看标注信息:在返回的预览文档中点击查看标注信息可以查看到每段的标注信息。
本发明的保护范围并不限于上述的实施例,显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围内,则本发明的意图也包含这些改动和变形在内。
机译: 内容检索系统,内容检索服务器,内容检索设备,内容检索方法和程序
机译: 内容检索系统,内容检索服务器,终端设备,内容检索方法和内容检索程序
机译: 具有内容输出设备的检索功能,内容检索设备,内容检索系统,用于服务器设备的内容检索系统以及计算机程序和内容检索方法