首页> 中国专利> 基于节目关系的视频节目的搜索方法和装置

基于节目关系的视频节目的搜索方法和装置

摘要

本发明提供了一种基于节目关系的视频节目的搜索方法和装置。该方法主要包括:建立多个视频节目之间的关系网络,对用户输入的搜索关键词进行结构化处理得到搜索向量;从搜索向量中提取出视频节目的相关信息,利用相关信息通过设定的关系值计算公式分别计算出搜索向量与各个视频节目之间的关系值;将和搜索向量之间的关系值大于设定的关系判断阈值的各个视频节目作为搜索关键词对应的初始视频搜索结果,利用关系网络对初始视频搜索结果进行扩展,得到最终的视频搜索结果。本发明实现了搜索关键词对应的搜索向量和初始视频搜索结果都可以通过节目关系网络进行扩展,从而丰富了搜索结果,也使得一维的搜索结果立体化得到多维的视频搜索结果。

著录项

  • 公开/公告号CN104657376A

    专利类型发明专利

  • 公开/公告日2015-05-27

    原文格式PDF

  • 申请/专利权人 航天信息股份有限公司;

    申请/专利号CN201310589928.3

  • 申请日2013-11-20

  • 分类号

  • 代理机构北京工信联合知识产权代理事务所(普通合伙);

  • 代理人黄晓军

  • 地址 100195 北京市海淀区杏石口路甲18号航天信息园

  • 入库时间 2023-12-18 08:54:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-09-18

    授权

    授权

  • 2015-06-24

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131120

    实质审查的生效

  • 2015-05-27

    公开

    公开

说明书

技术领域

本发明涉及视频搜索技术领域,尤其涉及一种基于节目关系的视频节目 的搜索方法和装置。

背景技术

当前的视频或视频管理网站都有视频节目的一维搜索功能,该一维搜索功 能的实现原理示意图如图1所示,一般通过关键词匹配视频的名称,简介等 语义信息实现。上述一维搜索的搜索结果集合中的单个数据对象与搜索条件 之间的关系呈现直接相关性,搜索结果按照其时间排序或标题字典排序构成 节目序列。

上述一维搜索的缺点为:该一维搜索得到的搜索结果中所有单个数据与检 索条件存在直接相关性,而数据之间的相关性则被忽略,给用户提供的视频 节目的搜索结果也是一维的,不全面的。

发明内容

本发明的实施例提供了一种基于节目关系的视频节目的搜索方法和装 置,以实现给用户提供更为丰富的视频节目的搜索结果。

本发明提供了如下方案:

一种基于节目关系的视频节目的搜索方法,计算出两两视频节目之间的 关系,建立多个视频节目之间的关系网络,包括:

对用户输入的搜索关键词进行结构化处理得到搜索向量;

从所述搜索向量中提取出视频节目的相关信息,利用所述相关信息通过 设定的关系值计算公式分别计算出所述搜索向量与各个视频节目之间的关系 值;

将和所述搜索向量之间的关系值大于设定的关系判断阈值的各个视频节 目作为所述搜索关键词对应的初始视频搜索结果,利用所述关系网络对所述 初始视频搜索结果进行扩展,得到最终的视频搜索结果。

所述的计算出两两视频节目之间的关系,建立多个视频节目之间的关系 网络,包括:

从视频节目中提取出节目的相关信息,对所述相关信息进行结构化处理 得到视频节目的结构化信息,所述结构化处理包括清除停用词,去除非法字 符,分词中的至少一项,根据所述视频节目的结构化信息通过词频-反词频技 术建立视频节目的属性空间;

根据各个视频节目的属性空间,计算出两个视频节目之间的相同属性之 间的相关性值,将多个所述相关性值进行加权求和,将加权求和的结果进行 归一化处理,得到两个视频节目之间的关系值;

基于计算出的两两视频节目之间的关系,建立多个视频节目之间的关系 网络,将所述关系网络和各个视频节目的属性空间存储在视频数据库中。

所述的根据各个视频节目的属性空间,计算出两个视频节目之间的相同 属性之间的相关性值,将多个所述相关性值进行加权求和,将加权求和的结 果进行归一化处理,得到两个视频节目之间的关系值,包括:

所述视频节目的属性空间中包括导演,演员,编剧,国家,拍摄年份, 剧情中的至少一项,设两个视频节目为pi和pj

所述视频节目pi、pj之间的导演相关性值的计算方法为:将节目pi的导 演集mi记作m(pi,mi),节目pj的导演集mj记作m(pj,mj),存在mi∩mj≠Φ,则 视频节目pi、pj之间的导演相关性值为m(pi,pj),所述m 表示包括所有导演的导演集,|mi|表示导演集mi的模值,|mj|表示导演集mj的 模值;

所述视频节目pi、pj之间的演员相关性值的计算方法为:将节目pi的演 员集合ai记作a(pi,ai),节目pj的演员集合aj记作a(pj,aj),存在ai∩aj≠Φ,则 视频节目pi、pj之间的演员相关性值为a(pi,pj),所述a表 示包括所有演员的演员集,|ai|表示演员集ai的模值,|aj|表示演员集aj的模 值;

所述视频节目pi、pj之间的编剧相关性值的计算方法为:将节目pi的编 剧集合ei记作e(pi,ei),节目pj的编剧集合ej记作e(pj,ej),存在ei∩ej≠Φ,则 视频节目pi、pj之间的编剧相关性值为e(pi,pj),所述e表示 包括所有编剧的编剧集,|ei|表示编剧集ei的模值,|ej|表示编剧集ej的模值;

所述视频节目pi、pj之间的拍摄年份相关性值的计算方法为:将节目pi的拍摄年份yi记作y(pi,yi),将节目pj的拍摄年份yj记作y(pj,yj),则视频节目 pi、pj之间的拍摄年份相关性值为y(pi,pi),y(pi,pj)=1,yi=yj0,yiyj;

所述视频节目pi、pj之间的国家相关性值的计算方法为:将节目pi的发 行国家ci记作c(pi,ci),将节目pj的发行国家cj记作c(pj,cj),存在ci=cj,则视 频节目pi、pj之间的国家相关性值为c(pi,pj),c(pi,pj)=1,ci=cj0,cicj;

所述视频节目pi、pj之间的剧情相关值的计算方法为:将节目pi的标签 集ti记作t(pi,ti),将节目pj的标签集tj记作t(pj,tj),存在标签的语义相似性, 记作ti≈tj,那么pi和pj存在标签相关性,则视频节目pi、pj之间的标签相关 性值为t(pi,pj),其中f(tk)是通过指定搜索引擎利用关键词tk检 索网页得到的记录总数,f(tk,tl)是通过指定搜索引擎利用关键词tk,tl共同检索 网页得到的记录总数,G是上述指定搜索引擎对应的网页总数;

对所述视频节目pi、pj之间的导演相关性值、演员相关性值、编剧相关 性值、拍摄年份相关性值、国家相关性值、标签相关性值进行加权求和,得 到视频节目pi和pj的关系大小rel(pi,pj),

rel(pi,pj)=αm(pi,pj)+βa(pi,pj)+χe(pi,pj)+δy(pi,pj)+εc(pi,pj)+γt(pi,pj)

其中,α,β,χ,δ,ε,γ为设定的权重值,α+β+χ+δ+ε+γ=1

对所述rel(pi,pj)进行量化,得到两个节目pi和pj之间的关系值。

所述的从所述搜索向量中提取出视频节目的相关信息,利用所述相关信 息通过设定的关系值计算公式分别计算出所述搜索向量与各个视频节目之间 的关系值,包括:

从搜索向量中提取出节目的相关信息,对所述相关信息进行结构化处理 得到搜索向量的结构化信息,所述结构化处理包括清除停用词,去除非法字 符,分词中的至少一项,根据所述搜索向量的结构化信息通过词频-反词频技 术建立搜索向量的属性空间;

根据搜索向量的属性空间和所述视频数据库中存储的各个视频节目的属 性空间,计算出所述搜索向量和所述视频数据库中存储的各个视频节目之间 的相同属性之间的相关性值,将多个所述相关性值进行加权求和,将加权求 和的结果进行归一化处理,得到所述搜索向量和所述视频数据库中存储的各 个视频节目之间的关系值。

所述的利用所述关系网络对所述初始视频搜索结果进行扩展,得到最终 的视频搜索结果,包括:

选取所述初始视频搜索结果中的某个视频节目,通过所述关系网络获取 和所述某个视频节目之间的关系值大于设定数值的二级视频节目,将该二级 视频节目作为上述搜索关键词对应的二级视频搜索结果;或者,从视频数据 库中获取所述某个视频节目的属性空间信息,针对所述某个视频节目的特定 属性信息对所述初始视频搜索结果进行扩展,根据所述关系网络获取和所述 某个视频节目之间特定属性信息对应的相关性值大于设定数值的二级视频节 目,将该二级视频节目作为所述搜索关键词对应的二级视频搜索结果;

将所述初始视频搜索结果、二级视频搜索结果进行综合,得到所述搜索 关键词对应的最终的多维的视频搜索结果。

一种基于节目关系的视频节目的搜索装置,包括:

关系网络建立模块,用于计算出两两视频节目之间的关系,建立多个视 频节目之间的关系网络;

搜索向量处理模块,用于对用户输入的搜索关键词进行结构化处理得到 搜索向量,从所述搜索向量中提取出视频节目的相关信息,利用所述相关信 息通过设定的关系值计算公式分别计算出所述搜索向量与各个视频节目之间 的关系值;

初始搜索处理模块,用于将和所述搜索向量之间的关系值大于设定的关 系判断阈值的各个视频节目作为所述搜索关键词对应的初始视频搜索结果;

综合搜索处理模块,用于利用所述关系网络对所述初始视频搜索结果进 行扩展,得到最终的视频搜索结果。

所述的关系网络建立模块,具体用于从视频节目中提取出节目的相关信 息,对所述相关信息进行结构化处理得到视频节目的结构化信息,所述结构 化处理包括清除停用词,去除非法字符,分词中的至少一项,根据所述视频 节目的结构化信息通过词频-反词频技术建立视频节目的属性空间;

根据各个视频节目的属性空间,计算出两个视频节目之间的相同属性之 间的相关性值,将多个所述相关性值进行加权求和,将加权求和的结果进行 归一化处理,得到两个视频节目之间的关系值;

基于计算出的两两视频节目之间的关系,建立多个视频节目之间的关系 网络,将所述关系网络和各个视频节目的属性空间存储在视频数据库中。

所述的关系网络建立模块,具体用于设所述视频节目的属性空间中包括 导演,演员,编剧,国家,拍摄年份,剧情中的至少一项,设两个视频节目 为pi和pj

所述视频节目pi、pj之间的导演相关性值的计算方法为:将节目pi的导 演集mi记作m(pi,mi),节目pj的导演集mj记作m(pj,mj),存在mi∩mj≠Φ,则 视频节目pi、pj之间的导演相关性值为m(pi,pj),所述m 表示包括所有导演的导演集,|mi|表示导演集mi的模值,|mj|表示导演集mj的 模值;

所述视频节目pi、pj之间的演员相关性值的计算方法为:将节目pi的演 员集合ai记作a(pi,ai),节目pj的演员集合aj记作a(pj,aj),存在ai∩aj≠Φ,则 视频节目pi、pj之间的演员相关性值为a(pi,pj),所述a表 示包括所有演员的演员集,|ai|表示演员集ai的模值,|aj|表示演员集aj的模 值;

所述视频节目pi、pj之间的编剧相关性值的计算方法为:将节目pi的编 剧集合ei记作e(pi,ei),节目pj的编剧集合ej记作e(pj,ej),存在ei∩ej≠Φ,则 视频节目pi、pj之间的编剧相关性值为e(pi,pj),所述e表示 包括所有编剧的编剧集,|ei|表示编剧集ei的模值,|ej|表示编剧集ej的模值;

所述视频节目pi、pj之间的拍摄年份相关性值的计算方法为:将节目pi的拍摄年份yi记作y(pi,yi),将节目pj的拍摄年份yj记作y(pj,yj),则视频节目 pi、pj之间的拍摄年份相关性值为y(pi,pi),y(pi,pj)=1,yi=yj0,yiyj;

所述视频节目pi、pj之间的国家相关性值的计算方法为:将节目pi的发 行国家ci记作c(pi,ci),将节目pj的发行国家cj记作c(pj,cj),存在ci=cj,则视 频节目pi、pj之间的国家相关性值为c(pi,pj),c(pi,pj)=1,ci=cj0,cicj;

所述视频节目pi、pj之间的剧情相关值的计算方法为:将节目pi的标签 集ti记作t(pi,ti),将节目pj的标签集tj记作t(pj,tj),存在标签的语义相似性, 记作ti≈tj,那么pi和pj存在标签相关性,则视频节目pi、pj之间的标签相关 性值为t(pi,pj),其中f(tk)是通过指定搜索引擎利用关键词tk检 索网页得到的记录总数,f(tk,tl)是通过指定搜索引擎利用关键词tk,tl共同检索 网页得到的记录总数,G是上述指定搜索引擎对应的网页总数;

对所述视频节目pi、pj之间的导演相关性值、演员相关性值、编剧相关 性值、拍摄年份相关性值、国家相关性值、标签相关性值进行加权求和,得 到视频节目pi和pj的关系大小rel(pi,pj),

rel(pi,pj)=αm(pi,pj)+βa(pi,pj)+χe(pi,pj)+δy(pi,pj)+εc(pi,pj)+γt(pi,pj)

其中,α,β,χ,δ,ε,γ为设定的权重值,α+β+χ+δ+ε+γ=1

对所述rel(pi,pj)进行量化,得到两个节目pi和pj之间的关系值。

所述的搜索向量处理模块,具体用于从搜索向量中提取出节目的相关信 息,对所述相关信息进行结构化处理得到搜索向量的结构化信息,所述结构 化处理包括清除停用词,去除非法字符,分词中的至少一项,根据所述搜索 向量的结构化信息通过词频-反词频技术建立搜索向量的属性空间;

根据搜索向量的属性空间和所述视频数据库中存储的各个视频节目的属 性空间,计算出所述搜索向量和所述视频数据库中存储的各个视频节目之间 的相同属性之间的相关性值,将多个所述相关性值进行加权求和,将加权求 和的结果进行归一化处理,得到所述搜索向量和所述视频数据库中存储的各 个视频节目之间的关系值。

所述的综合搜索处理模块,具体用于选取所述初始视频搜索结果中的某 个视频节目,通过所述关系网络获取和所述某个视频节目之间的关系值大于 设定数值的二级视频节目,将该二级视频节目作为上述搜索关键词对应的二 级视频搜索结果;或者,从视频数据库中获取所述某个视频节目的属性空间 信息,针对所述某个视频节目的特定属性信息对所述初始视频搜索结果进行 扩展,根据所述关系网络获取和所述某个视频节目之间特定属性信息对应的 相关性值大于设定数值的二级视频节目,将该二级视频节目作为所述搜索关 键词对应的二级视频搜索结果;

将所述初始视频搜索结果、二级视频搜索结果进行综合,得到所述搜索 关键词对应的最终的多维的视频搜索结果。

由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过基 于视频节目的属性信息建立视频节目之间的关系和多个视频节目的关系网 络,使得在搜索过程中,搜索关键词对应的搜索向量和初始视频搜索结果都 可以通过节目关系网络进行扩展,从而丰富了搜索结果,也使得一维的搜索 结果立体化得到多维的视频搜索结果,使得用户可以获得更全面的节目信 息,提供给用户更为丰富的搜索结果。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的 前提下,还可以根据这些附图获得其他的附图。

图1为现有技术中的一维搜索功能的实现原理示意图;

图2为本发明实施例一提供的一种基于节目关系的视频节目的搜索方法的 实现原理示意图;

图3为本发明实施例一提供的一种建立多个视频节目之间的关系网络的方 法的处理流程图;

图4为本发明实施例一提供的一种基于节目关系的视频节目的搜索方法的 处理流程图;

图5为本发明实施例一提供的一种利用多个视频之间的关系网络对初始视 频搜索结果进行扩展的示意图;

图6为本发明实施例二提供的一种基于节目关系的视频节目的搜索装置的 结构示意图,图中,关系网络建立模块61,搜索向量处理模块62,初始搜索 处理模块63和综合搜索处理模块64。

具体实施方式

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例 做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

实施例一

在实际应用中,视频对象的语义信息结构性强,通常包括视频名称,简 介,年份,导演,主演,编剧等,由于属性自身特性,视频之间存在着复杂 的相关性,如同一个导演的节目,同年份的节目等等。因此,在视频之间建 立关系即节目关系搜索可以丰富搜索结果,同时节目关系搜索是一种新的搜 索方式。

本发明实施例提供的一种基于节目关系的视频节目的搜索方法是一种新 的搜索方式,该方法的实现原理示意图如图2所示,首先建立节目间的关 系,建立属性关系模型和关系计算模型,建立多个视频节目之间的关系网 络。其次,以节目的关系网络为基础,计算搜索关键词与节目属性间的相关 性,获得初始的节目搜索结果。最后,通过节目的关系网络对初始的节目搜 索结果进行动态扩展,形成丰富的节目搜索结果。

该实施例提供的一种建立多个视频节目之间的关系网络的方法的处理流 程如图3所示,包括如下的处理步骤:

步骤S310、从得到的视频节目中提取节目的相关信息,该相关信息包括 视频导演,演员,编剧,所属国家,拍摄年份,剧情等信息;

步骤S320、对上述节目的相关信息进行结构化处理得到视频节目的结构 化信息,上述结构化处理主要包括清除停用词,分词等。根据上述视频节目 的结构化信息,通过词频-反词频技术(tf-pdf)获取视频节目的属性信息, 视频节目的属性信息分两种:确定属性和模糊属性,确定属性是指一个节目 所固有的信息,如导演,演员,所属国家,拍摄年份,编剧等;模糊属性是 指不确定性的描述节目的信息,如节目所属的类型,即标签。

步骤S330、根据上述视频节目的属性信息计算任意两个视频节目之间的 关系值。

针对两个视频节目,分别计算两个视频节目之间的相同属性之间的关系 值,具体计算过程如下:

导演相关:假设两个视频节目pi和pj,将节目pi的导演集mi记作 m(pi,mi),节目pj的导演集mj记作m(pj,mj)。存在mi∩mj≠Φ,那么pi和pj存 在导演相关性,相关性大小为m(pi,pj),其中上述公式中的m表示包括所有导演的导演集,|mi|表示导演 集mi的模值,|mj|表示导演集mj的模值。

演员相关:两个节目pi和pj,将节目pi的演员集合ai记作a(pi,ai),节目 pj的演员集合aj记作a(pj,aj)。存在ai∩aj≠Φ,那么pi和pj存在演员相关性, 相关性大小为a(pi,pj),其中a(pi,ai)=|ai||a|,a(pj,aj)=|aj||a|,a(pi,pj)=|aiaj||a|,上 述公式中的a表示包括所有演员的演员集,|ai|表示演员集ai的模值,|aj|表示 演员集aj的模值。

编剧相关:两个节目pi和pj,将节目pi的编剧集合ei记作e(pi,ei),节目 pj的编剧集合ej记作e(pj,ej)。存在ei∩ej≠Φ,那么pi和pj存在编剧相关性, 相关性大小为e(pi,pj),其中e(pi,ei)=|ei||e|,e(pj,ej)=|ej||e|,e(pi,pj)=|eiej||e|,上述 公式中的e表示包括所有编剧的编剧集,|ei|表示编剧集ei的模值,|ej|表示编 剧集ej的模值。

拍摄年份相关:两个节目pi和pj,将节目pi的拍摄年份yi记作y(pi,yi), 将节目pj的拍摄年份yj记作y(pj,yj)。存在yi=yj,那么pi和pj存在拍摄年份 相关性,相关性大小为y(pi,pi),其中y(pi,yi=),1y(pj,yj)=1, y(pi,pj)=1,yi=yj0,yiyj.

国家相关:两个节目pi和pj,将节目pi的发行国家ci记作c(pi,ci),将节 目pj的发行国家cj记作c(pj,cj),存在ci=cj,那么pi和pj存在国家相关性,相 关性大小为c(pi,pj),其中c(pi,yi)=1,c(pj,yj)=1,c(pi,pj)=1,ci=cj0,cicj.

剧情相关:两个节目pi和pj,将节目pi的标签集ti记作t(pi,ti),将节目pj的标签集tj记作t(pj,tj)。存在标签的语义相似性,记作ti≈tj,那么pi和pj存 在标签相关性,相关性大小为t(pi,pj),其中f(tk)是通过指定搜索引擎利用关键词tk检 索网页得到的记录总数,f(tk,tl)是通过指定搜索引擎利用关键词tk,tl共同检索 网页得到的记录总数,G是上述指定搜索引擎对应的网页总数,NGD(tk,tl)通 过词在搜索引擎中的检索网页数量计算了任意词对之间的相似度,如果两个 单个词和词对检索出网页的数量相近,那么这两个词之间的相似度大,如果 数量相差较远那么词的相似度较小,这种方法很好的利用了数量计算而屏蔽 了网页相似内容的比较。

视频节目之间的关系由以上六类相关性值组成,因此对以上六类相关性 值进行加权求和,得到两个节目pi和pj的关系大小rel(pi,pj),并对rel(pi,pj) 进行量化,得到两个节目pi和pj之间的关系值。

rel(pi,pj)=αm(pi,pj)+βa(pi,pj)+χe(pi,pj)+δy(pi,pj)+εc(pi,pj)+γt(pi,pj)

其中,α,β,χ,δ,ε,γ为设定的权重值,α+β+χ+δ+ε+γ=1

按照上述处理过程,计算出任意两个视频节目之间的关系值,于是,两 两节目之间建立了联系。

步骤S340、在任意两个视频节目之间的关系都建立后,构建多个视频节 目之间的关系网络。

基于两两节目之间的关系,多个节目之间则建立了节目的关系网络。在 视频数据库中存储上述关系网络,以及所有视频节目,各个视频节目可以按 照热度、评分、上映时间等进行排序。在视频数据库中还需要存储各个视频 节目的导演,演员,编剧,所属国家,拍摄年份,剧情等属性信息。

该实施例提供的一种基于节目关系的视频节目的搜索方法的处理流程如 图4所示,包括如下的处理步骤:

步骤S410、用户输入搜索关键词keyword,该搜索关键词keyword可以 为爱情、科幻、史泰龙,以及美国+动作,美国+动作+施瓦辛格等;

步骤S420、对搜索关键词进行结构化处理,该搜索关键词包括分词,去 除语义信息的非法字符,如标点符号等,根据最新发布的停用词去除搜索关 键词中的停用词等处理。

然后,通过词频-反词频技术(TF_PDF)得到搜索向量和搜索向量的基 本属性。本专利适用搜索词复杂的情况,如果输入的搜索内容很长,例如是 一段文本,中间存在很多停用词,通过TF-PDF技术可以过滤掉无用词或影响 搜索结果的词。计算词频的数据集为搜索内容,反词频的数据集则为所有搜 索内容和所有节目文本内容的集合,TF-PDF值越大说明该词的特征性越强, 越有可能成为搜索关键词,设定阈值(可以为搜索词个数)选择部分搜索关 键词形成搜索向量。

搜索向量的基本属性分两种:确定属性和模糊属性,确定属性是指一个 节目所固有的信息,如导演,演员,所属国家,拍摄年份,编剧等;模糊属 性是指不确定性的描述节目的信息,如节目所属的类型,即标签。

步骤S430、基于上述搜索向量的基本属性和视频数据库中的各个视频节 目的基本属性,利用上述图3所示处理流程中的视频节目之间的关系值的计 算公式,分别计算出搜索向量与视频数据库中的各个视频节目之间的关系 值。从上述搜索向量中提取出的视频节目的相关信息可能不全面,比如,可 能只包括演员信息,则只计算搜索向量与各个节目之间的演员相关性;又比 如,可能只包括剧情信息,则只计算搜索向量与各个节目之间的标签相关 性;又比如,可能只包括剧情和国家信息,则只计算搜索向量与各个节目之 间的标签相关性,国家相关性。

然后,将计算出的搜索向量和各个视频节目之间的各种相关性进行加权 求和,并对加权求和的结果进行量化,得到搜索向量和各个视频节目之间的 关系值。

步骤S440、预先设定关系判断阈值,将和搜索向量之间的关系值大于上 述设定数值1的各个视频节目作为上述搜索关键词对应的初始视频搜索结 果,该初始视频搜索结果为一维的。上述设定数值1可以和上述关系判断阈 值相等或者不相等。

步骤S450、利用上述多个视频节目之间的关系网络,用户可以对初始视 频搜索结果进行自定义的扩展,形成全面的多维的视频搜索结果。

在搜索过程中,上述初始视频搜索结果、搜索关键词对应的搜索向量与 任意节目之间的关系都可以通过节目关系网络进行扩展,从而丰富了搜索结 果,也使得一维的搜索结果立体化。

该实施例提供的一种利用多个视频之间的关系网络对初始视频搜索结果 进行扩展的示意图如图5所示。用户可以选取上述初始视频搜索结果中的某 个视频节目,通过上述关系网络获取和上述某个视频节目之间的关系值大于 上述关系判断阈值的二级视频节目,将该二级视频节目作为上述搜索关键词 对应的二级视频搜索结果。基于上述某个视频节目,将该二级视频节目以列 表的形式进行展示。

用户还可以选取上述初始视频搜索结果中的某个视频节目,从视频数据 库中获取该某个视频节目的导演,演员,编剧,所属国家,拍摄年份,剧情 等属性信息,或者,下载该某个视频节目的描述(profile)信息,从该描述 信息中提取出该某个视频节目的属性信息。然后,用户可以针对上述某个视 频节目的特定属性信息(比如为演员)对初始视频搜索结果进行扩展,根据 上述关系网络获取和上述某个视频节目之间特定属性信息对应的相关性值大 于设定数值2的二级视频节目,将该二级视频节目作为上述搜索关键词对应 的二级视频搜索结果。该设定数值2可以和上述设定数值1、关系判断阈值相 等或者不相等。

比如,上述某个视频节目为泰坦尼克,上述特定相关信息为演员,则通 过关系网络获取和上述泰坦尼克视频节目之间演员相关性值大于指定数值的 二级视频节目,将该二级视频节目作为上述搜索关键词对应的二级视频搜索 结果。

依此类推,按照上述处理过程,可以获取上述搜索关键词对应的三级、 四级等多级视频搜索结果。

然后,将上述初始视频搜索结果、二级、三级等多级视频搜索结果进行 综合,得到上述搜索关键词对应的的最终的多维的视频搜索结果。

实施例二

该实施例提供了一种基于节目关系的视频节目的搜索装置,其具体实现 结构如图6所示,具体可以包括如下的模块:

关系网络建立模块61,用于计算出两两视频节目之间的关系,建立多个 视频节目之间的关系网络;

搜索向量处理模块62,用于对用户输入的搜索关键词进行结构化处理得 到搜索向量,从所述搜索向量中提取出视频节目的相关信息,利用所述相关 信息通过设定的关系值计算公式分别计算出所述搜索向量与各个视频节目之 间的关系值;

初始搜索处理模块63,用于将和所述搜索向量之间的关系值大于设定的 关系判断阈值的各个视频节目作为所述搜索关键词对应的初始视频搜索结 果;

综合搜索处理模块64,用于利用所述关系网络对所述初始视频搜索结果 进行扩展,得到最终的视频搜索结果。

进一步地,所述的关系网络建立模块61,具体用于从视频节目中提取出 节目的相关信息,对所述相关信息进行结构化处理得到视频节目的结构化信 息,所述结构化处理包括清除停用词,去除非法字符,分词中的至少一项, 根据所述视频节目的结构化信息通过词频-反词频技术建立视频节目的属性空 间;

根据各个视频节目的属性空间,计算出两个视频节目之间的相同属性之 间的相关性值,将多个所述相关性值进行加权求和,将加权求和的结果进行 归一化处理,得到两个视频节目之间的关系值;

基于计算出的两两视频节目之间的关系,建立多个视频节目之间的关系 网络,将所述关系网络和各个视频节目的属性空间存储在视频数据库中。

进一步地,所述的关系网络建立模块61,具体用于设所述视频节目的属 性空间中包括导演,演员,编剧,国家,拍摄年份,剧情中的至少一项,设 两个视频节目为pi和pj

所述视频节目pi、pj之间的导演相关性值的计算方法为:将节目pi的导 演集mi记作m(pi,mi),节目pj的导演集mj记作m(pj,mj),存在mi∩mj≠Φ,则 视频节目pi、pj之间的导演相关性值为m(pi,pj),所述m 表示包括所有导演的导演集,|mi|表示导演集mi的模值,|mj|表示导演集mj的 模值;

所述视频节目pi、pj之间的演员相关性值的计算方法为:将节目pi的演 员集合ai记作a(pi,ai),节目pj的演员集合aj记作a(pj,aj),存在ai∩aj≠Φ,则 视频节目pi、pj之间的演员相关性值为a(pi,pj),所述a表 示包括所有演员的演员集,|ai|表示演员集ai的模值,|aj|表示演员集aj的模 值;

所述视频节目pi、pj之间的编剧相关性值的计算方法为:将节目pi的编 剧集合ei记作e(pi,ei),节目pj的编剧集合ej记作e(pj,ej),存在ei∩ej≠Φ,则 视频节目pi、pj之间的编剧相关性值为e(pi,pj),所述e表示 包括所有编剧的编剧集,|ei|表示编剧集ei的模值,|ej|表示编剧集ej的模值;

所述视频节目pi、pj之间的拍摄年份相关性值的计算方法为:将节目pi的拍摄年份yi记作y(pi,yi),将节目pj的拍摄年份yj记作y(pj,yj),则视频节目 pi、pj之间的拍摄年份相关性值为y(pi,pi),y(pi,pj)=1,yi=yj0,yiyj;

所述视频节目pi、pj之间的国家相关性值的计算方法为:将节目pi的发 行国家ci记作c(pi,ci),将节目pj的发行国家cj记作c(pj,cj),存在ci=cj,则视 频节目pi、pj之间的国家相关性值为c(pi,pj),c(pi,pj)=1,ci=cj0,cicj;

所述视频节目pi、pj之间的剧情相关值的计算方法为:将节目pi的标签 集ti记作t(pi,ti),将节目pj的标签集tj记作t(pj,tj),存在标签的语义相似性, 记作ti≈tj,那么pi和pj存在标签相关性,则视频节目pi、pj之间的标签相关 性值为t(pi,pj),其中f(tk)是通过指定搜索引擎利用关键词tk检 索网页得到的记录总数,f(tk,tl)是通过指定搜索引擎利用关键词tk,tl共同检索 网页得到的记录总数,G是上述指定搜索引擎对应的网页总数;

对所述视频节目pi、pj之间的导演相关性值、演员相关性值、编剧相关 性值、拍摄年份相关性值、国家相关性值、标签相关性值进行加权求和,得 到视频节目pi和pj的关系大小rel(pi,pj),

rel(pi,pj)=αm(pi,pj)+βa(pi,pj)+χe(pi,pj)+δy(pi,pj)+εc(pi,pj)+γt(pi,pj)

其中,α,β,χ,δ,ε,γ为设定的权重值,α+β+χ+δ+ε+γ=1

对所述rel(pi,pj)进行量化,得到两个节目pi和pj之间的关系值。

进一步地,所述的搜索向量处理模块62,具体用于从搜索向量中提取出 节目的相关信息,对所述相关信息进行结构化处理得到搜索向量的结构化信 息,所述结构化处理包括清除停用词,去除非法字符,分词中的至少一项, 根据所述搜索向量的结构化信息通过词频-反词频技术建立搜索向量的属性空 间;

根据搜索向量的属性空间和所述视频数据库中存储的各个视频节目的属 性空间,计算出所述搜索向量和所述视频数据库中存储的各个视频节目之间 的相同属性之间的相关性值,将多个所述相关性值进行加权求和,将加权求 和的结果进行归一化处理,得到所述搜索向量和所述视频数据库中存储的各 个视频节目之间的关系值。

进一步地,所述的综合搜索处理模块64,具体用于选取所述初始视频搜 索结果中的某个视频节目,通过所述关系网络获取和所述某个视频节目之间 的关系值大于设定数值的二级视频节目,将该二级视频节目作为上述搜索关 键词对应的二级视频搜索结果;或者,从视频数据库中获取所述某个视频节 目的属性空间信息,针对所述某个视频节目的特定属性信息对所述初始视频 搜索结果进行扩展,根据所述关系网络获取和所述某个视频节目之间特定属 性信息对应的相关性值大于设定数值的二级视频节目,将该二级视频节目作 为所述搜索关键词对应的二级视频搜索结果;

将所述初始视频搜索结果、二级视频搜索结果进行综合,得到所述搜索 关键词对应的最终的多维的视频搜索结果。

用本发明实施例的装置进行基于节目关系的视频节目的搜索的具体过程 与前述方法实施例类似,此处不再赘述。

综上所述,本发明实施例通过基于视频节目的属性信息建立视频节目之 间的关系和多个视频节目的关系网络,使得在搜索过程中,搜索关键词对应 的搜索向量和初始视频搜索结果都可以通过节目关系网络进行扩展,从而丰 富了搜索结果,也使得一维的搜索结果立体化得到多维的视频搜索结果,使 得用户可以获得更全面的节目信息,提供给用户更为丰富的搜索结果。

本发明实施例可以通过调节视频节目之间的相关性的参数改变搜索策 略,实现搜索方式更全面,更系统,从而提供一种更加全面、多维的视频搜 索方式。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中 的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到 本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解, 本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品 的形式体现出来,该计算机软件产品可以存储在存储介质中,如 ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以 是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施 例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同 相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同 之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例, 所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描 述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元 可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可 以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案 的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并 实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可 轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明 的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号