法律状态公告日
法律状态信息
法律状态
2016-07-06
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20160617 变更前: 变更后: 申请日:20130814
专利申请权、专利权的转移
2016-04-20
授权
授权
2014-01-15
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130814
实质审查的生效
2013-12-11
公开
公开
技术领域
本发明涉及多媒体搜索领域,尤其涉及的是一种支持跨类型语义搜索的多媒体存 储与搜索方法。
背景技术
多媒体搜索是搜索引擎的关键技术。目前的多媒体面临两大重要需求:
1、语义多媒体搜索。以图像为例,实际上,用人类的智能在图像中来识别一个目 标,并非仅仅建立在目标的低层视觉特征,如颜色、形状和纹理上,而是充分考虑了目 标所描述的对象、事件,甚至情感等语义。例如,同一个明星的真实头像照片和其卡通 头像照片,以人类的智能来判断,比较容易判断其相似之处,甚至可以很容易地确定为 同一个人;但是,使用计算机基于低层视觉特征进行分析,却难以判断两个头像的相似 之处。
因此,如何能让用户在搜索的时候,结合计算机无法识别的人类认知信息,是一 个重要的问题。
2、跨类型多媒体搜索。我们经常需要通过一种多媒体类型搜索其他类型的多媒体 文件。比如,当我们听到一首歌,很好听,但是不知道唱的人长什么样,能够在搜索引 擎里面上传这首歌,就可以返回歌手的头像呢?音频、图像、视频的存储格式不同,完 全无法用传统的特征提取方法来进行比对。因此,跨类型搜索是一个重要的需求,但也 是目前面临的重要研究问题。
针对以上问题,现有技术进行了折中,主要有如下几种:
1、用输入文本的方法进行搜索。该方法已经在商用搜索引擎中广泛应用,用户输 入关键字,搜索引擎返回相应多媒体,其原理是搜索该多媒体所在的网页里面是否有相 应的文本和关键字相匹配。例如,在传统的搜索引擎中,在文本框中输入“刘德华”, 能够搜索相应的图片,当然也可以搜索视频。其原理实际上是因为在该图片或视频的周 围,存在“刘德华”这样的文字。
该方法存在如下几个问题:
(1)如果多媒体所在的网页没有相关文字,该图片不会显示。实际上,目前大量 的搜索都存在这样的问题。比如,商标搜索、纯多媒体库搜索等等,多媒体周围是没有 文字的。输入关键字(“如刘德华”),由于该多媒体文件并不在网页中,并没有配相 应的文字信息,因此无法被搜索出来。
(2)网页中的文字各种各样,比如含有“刘德华”图片的一个网页,里面可能含 有各种各样的无关信息,因此,搜索速度较慢,可能造成噪音。
(3)如果多媒体文件被拷贝到别的地方,离开含有该文字的网页,这个多媒体文 件不会被搜索出来。
2、用输入多媒体数据的方法进行搜索。该方法也已经在商用搜索引擎中广泛应用, 比如用户上传一个图片,搜索引擎返回相应图片,其原理是先提取图片的视觉特征,和 数据库中的图片的视觉特征相比对。比如上传葛优照片,获得葛优的其他照片。
该方法存在如下几个问题:
(1)忽略了用户的个人理解。人类认为类似的多媒体(如图片),用纯粹的视觉 特征匹配,却无法判断为类似。
(2)无法支持跨类型搜索。音频、图像、视频的存储格式不同,完全无法用传统 的特征提取方法来进行比对。
3、基于语义的搜索。语义搜索引擎的核心是“语义标注”,也就是在多媒体周围 提供关键字的标注。在查询时,输入关键字,然后查询相应的标注,标注和多媒体数据 分别存储。目前,语义标注的成果已经成熟。已经广泛地使用在语义搜索引擎中。但是, 该类方法存在如下问题:
目前的语义描述策略,基本上是将多媒体的语义标注用相应方法(如对象本体方 法)进行描述,存储在服务器的知识库中,当匹配需求到达时,在知识库中进行查找、 匹配和检索;但是,一幅多媒体在其生命周期中,可能会不断经过复制、移动等操作, 由于多媒体本身的数据和其语义标注信息分开保存,在这种情况下,如果多媒体离开知 识库,在识别时就无法利用其语义标注信息;对于离开知识库的多媒体,必须重建其语 义才能充分利用人类视觉认知机理的优势。
站在这个角度,在多媒体语义特征描述和存储上,我们考虑到目前的主要方法是 将语义特征存放在知识库中,与多媒体本身数据存储割裂开来,这类方法在某种程度上 忽略了多媒体语义特征的特殊性。从识别的角度讲,语义特征和颜色、形状、纹理等低 层视觉特征是平等的,其最终目的是为了在多媒体复制、移动等任何操作情况下都能够 进行识别;因此,如果只是将语义标注信息存放在知识库中,和多媒体数据本身分割, 语义多媒体的检索就必须依赖知识库。对于融合人类视觉认知的目标特征提取和描述方 法,不仅需要规范语义的特征表达,更重要的问题是让语义标注信息实现方便的存储, 让用户在使用时更加通用。
发明内容
为解决以上问题,本发明提出了一种支持跨类型语义搜索的多媒体存储与搜索方 法。
本发明的技术方案如下:
一种支持跨类型语义搜索的多媒体存储与搜索方法,包括以下步骤:
(1)用户语义标注步骤,每一个需要保存到数据库中的多媒体文件都必须被用户 标注;标注以文本的形式进行,标注内容依据用户对该多媒体的理解;
(2)本体表达步骤:对标注进行分类,并划分层级,进行本体表达;将标注转换 为本体;
(3)数据合并步骤:将语义信息和本体内容保存在一起,形成新的多媒体数据格 式;新的数据形成之后,多媒体文件将会被保存到多媒体数据库中;
(4)多媒体检索步骤:搜索引擎从该多媒体文件中提取语义信息,和多媒体数据 库中的多媒体数据进行比对,如果找到互相匹配的,则返回这些多媒体文件;系统还会 让用户对自己选定的结果进行进一步标注,来丰富多媒体的语义信息,使得以后的查询 越来越准确。
所述的方法,所述用户语义标注步骤中:用户向多媒体文件提供标注,所有的标注 用文本形式表示;定义m为多媒体文件,C为多媒体文件集合,满足C={m1,m2,...,mN}, N为多媒体文件个数;对于任意mi∈C,mi保存在服务器硬盘上,mi的路径被保存在 数据库中,链接到其真实的文件;语义信息由用户提供,以关键词标注的形式提供给mi;
令Anmi为mi的标注集合,满足Anmi={a1,a2,...,an},n为mi的标注个数,对于任意 的mi∈C,用户将会提供很多标注;对于任意的mi∈C,定义标注矩阵Ami:
其中,ai为第i个标注,wi为其相应的权重,wi初始值为。
所述的方法,所述用户语义标注步骤中,还包括以下步骤:
(1)去除较少使用的标注:
定期去除那些很少在搜索中使用的标注;在每一次检索过后,设计一个权重调整准 则:
ki满足:
该调整准则在后台运行;
调整准则执行之后,每天进行一次标注清理;对于任意mi∈C,标注清理过程如下:
第1步:检查Ami,当满足时,移除其中的第i行。其中ε为阈值,满足 0≤ε≤1;
第2步:重新合并mi和Ami;
(2)用户反馈
搜索之后,将会返回多个多媒体文件;用户给该多媒体文件增加标注,来丰富其语 义。对于此类标注,初始的权重值为。
所述的方法,所述数据合并步骤中,采用一种优化的方法,直接将多媒体语义信息 保存在多媒体数据文件的头部。
该方法不仅支持跨类型多媒体搜索,而且能够用反映用户的语义需求。具有如下特 点:(1)支持跨类型搜索。用户可以任意上传一种类型,找到各种各样语义匹配的多媒 体。(2)操作方便。与传统搜索引擎的操作方式完全相同:上传文件,点击搜索。(3) 保持语义信息。语义信息在多媒体文档的复制、移动或者离开知识库的情况下,无需重 建,直接可以进行支持语义的多媒体检索。
附图说明
图1:本发明的方法的流程图;
图2显示了一个图像的注释结构;
图3为本发明使用组合模式来表达本体数据结构;
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
如图1所示,是本发明的方法的流程图。本发明包括4个步骤,分别是:语义标注、 语义表达、数据合并、多媒体检索。
具体描述如下:
(1)用户语义标注步骤,每一个需要保存到数据库中的多媒体文件,如图像、视 频、音频等,都必须被用户标注。标注以文本的形式进行,标注内容依据用户对该多媒 体的理解。
(2)本体表达步骤:对标注进行分类,并划分层级,进行本体表达。在本步骤中, 将标注转换为本体,包括图像文件本体、视频文件本体和音频文件本体等。
(3)数据合并步骤。将语义信息和本体内容保存在一起,形成新的多媒体数据格 式。新的数据形成之后,多媒体文件将会被保存到多媒体数据库中。
(4)多媒体检索步骤。用户上传一个多媒体文件,该多媒体文件事先已经被标注。 搜索引擎从该多媒体文件中提取语义信息,和多媒体数据库中的多媒体数据进行比对, 如果找到互相匹配的,则返回这些多媒体文件。此外,系统还会让用户对自己选定的结 果进行进一步标注,来丰富多媒体的语义信息,使得以后的查询越来越准确。
以下是详细的技术方案:
1、语义标注
本发明中,用户通过软件,向多媒体文件提供标注,所有的标注用文本形式表示。 定义m为多媒体文件,C为多媒体文件集合,满足C={m1,m2,...,mN}(N为多媒体文件 个数)。对于任意mi∈C,mi保存在服务器硬盘上.mi的路径被保存在数据库中,链接 到其真实的文件。语义信息由用户提供,以关键词标注的形式提供给mi。
令Anmi为mi的标注集合,满足Anmi={a1,a2,...,an}(n为mi的标注个数)。对于任意 的mi∈C,用户将会提供很多标注。但是,不是每一个标注对表达多媒体语义的权重相 同。因此,对于任意的mi∈C,定义标注矩阵Ami:
其中,ai为第i个标注,wi为其相应的权重,wi初始值为。
(1)去除较少使用的标注。
标注由用户提供,不一定准确。为了节省空间,我们要定期去除那些很少在搜索 中使用的标注。在每一次检索过后,我们设计一个权重调整准则:
ki满足:
该调整准则在后台运行。
调整准则执行之后,每天进行一次标注清理。对于任意mi∈C,标注清理过程如下:
第1步:检查Ami,当满足时,移除其中的第i行。其中ε为阈值,满足 0≤ε≤1。
第2步:重新合并mi和Ami。
(2)用户反馈
搜索之后,将会返回多个多媒体文件。用户可以给该多媒体文件增加标注,来丰富 其语义。对于此类标注,初始的权重值为。
2、本体表达
本发明使用本体技术描述的多媒体语义信息。在本体表示中,每个节点描述语义概 念,本体表示满足一个递归和分层结构。图2显示了一个图像的注释结构。
该本体在第一级的节点被用来代表最明显的特征。二级和其他级别的语义标注,将 基于之前更高级的本体来提供。
本发明使用组合模式来表达本体数据结构。组合模式将对象组成一个树形结构,来 表示的部分与整体的层次。客户端可以使用同样的方法来处理复杂的元素和简单的元 素。结构如图3所示。在本结构中,OntologyCompoment是组合中的对象声明接口,在 适当的情况下,实现所有本体共有接口的默认行为;OntologyLeaf在组合中表示叶子 节点对象,叶子节点没有子节点;OntologyComposite定义有枝节点行为,用来存储 子部件,在OntologyCompoment接口中实现与子部件有关操作。因此,对象本体的内 容在存储上进行了优化处理,组合模式使得用户对单个对象和使用具有一致性。
3、数据合并
本发明中,本体语义信息通过两种方式与多媒体文件合并:
(1)在线。语义标注直接通过软件提交,多媒体文件和语义标注一起保存。
(2)离线。语义信息保存在一个二进制文件内,其扩展名是“.s”,用户可以选择 多媒体文件,和该“.s”文件合并。
我们使用一种优化的数据合并方法:直接将多媒体语义信息保存在多媒体数据文件 的头部。由于本搜索方法支持用户反馈,可能导致语义内容的修改,因此,在本发明中, 不使用一些流行和安全的方法,如神经网络和小波技术,直接将多媒体的语义信息保存 在多媒体数据文件头部。
在每一次检索过程中,我们不能直接读写硬盘中的多媒体文件,因为这将花费大量 的计算时间。本发明为了解决这个问题,采用了基于缓存的方法。当搜索引擎初始化时, 语义信息被提取到关系数据库中进行快速检索,并和多媒体文件数据保持同步。这项工 作将在后台线程中执行。客户端的检索首先将是进行数据库检索,多媒体服务器然后找 到真正的文件。
4:搜索效果
由于跨类型的多媒体检索需要图像、视频和音频文件,所以我们构建了一个包含各 种多媒体类型,包括图像,视频和音频的多媒体数据库。在搜索中,使用的多媒体数据 库包含30000多媒体文件,包括20,000个图片,10,000个视频和10,000个音频文件。 所有的标注都为用户所提供,或从该文件下载的网页中的文字中提取。
(1)准确率。
我们针对图像、视频和音频,各自选取了10个文件(标注为01-10)作为上传对象, 查全率、查准率显示如下:
表1查全率和查准率(%)
传统的基于内容的检索,如Gabor特征只能得到不超过40%的查全率和查准率。因 此,本发明可以取得较好的检索的查全率和查准率。
(2)搜索时间。
我们特别记录了12个检索过程的时间成本。对每一种文件类型(图片,视频和音 频),进行了4个不同的检索(样本数形式01-04)。表2中列出的详细时间。
表2检索时间(毫秒)
该表显示,语义信息提取只花了很短的时间,这是因为我们只需要直接从多媒体文 件中提取语义段。提取后,检索过程是相似的基于文本的检索,这个过程可以在可接受 的时间内执行。
(3)后台处理时间。
后台运行的时间如表3所示:
表3后台运行时间(秒)
在服务器中,将被执行的后台进程,每24小时执行一次后台操作,线程,所以花 费的时间是可以接受的。
(4)空间花费。
表4显示了信息合并之前和之后的存储空间花费。
表4空间花费
从该表可以看出,合并后的文件大小几乎没有增加(图像为0.26%,视频为0.04 %,音频为0.12%)。这是因为,语义信息皆以文本表示,占据空间很小。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换, 而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
机译: 对象语义数据建模系统;一种用于创建相对于数据库存储数据的数据库模式的方法,一种在D中解释公式的方法,以及一种对象语义类型的数据模型的有效期的数据模型,该对象语义类型的数据模型包括多个对象语义。和系统来创建数据库架构
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: 在数据存储设备上存储的类似语义内容的电子文档的搜索方法