首页> 中国专利> 复合新闻报导的合成

复合新闻报导的合成

摘要

一种将单个新闻报导特征化(220)并基于该特征从多个报导中识别(230)共同的新闻报导的方法和系统。优选使用基于不同版本报导的共同结构的一种结构,为该共同的新闻报导创建(240-280)复合报导。从不同版本的报导中选择视频片段(110)以包含在该复合报导中,其中根据该视频片段(110)的视频和音频内容的已确定的排名(260,270)来选择视频片断(110)。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-05-21

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20120425 终止日期:20130329 申请日:20060329

    专利权的终止

  • 2012-04-25

    授权

    授权

  • 2008-05-28

    实质审查的生效

    实质审查的生效

  • 2008-03-26

    公开

    公开

说明书

技术领域

本发明涉及视频图像处理领域,特别涉及用于分析来自各种来源的视频新闻报导以识别共同报导,并创建来自各种来源的复合视频报导的系统和方法。

背景技术

不同的新闻来源通常从不同视角呈现相同的新闻报导。这些不同的视角可能基于不同的政治观点或其他因素。例如,相同的事件可以由一个来源以赞成的方式呈现,而由另一个来源以不赞成的方式呈现,这取决于事件的结果对于特定的政治团体是有利的还是不利的。类似地,所呈现的事件的特定方面可以在基于学术的新闻来源和基于大众兴趣的新闻来源之间有所区别。以类似的方式,来自相同来源的相同报导可能以不同的方式呈现,这例如取决于该报导是在新闻节目的“娱乐新闻”时段期间播放还是在“财经新闻”时段播放。

有一些方法和系统可用于区别各个新闻报道,识别并将这些报道分类,并且基于用户的偏好过滤这些报道以呈现给用户。然而,报导的每次呈现通常都是对具有其自己特定视角的已经记录的报导的回放,如同它被接收到时一样。

寻找同一报导的多种呈现可能是一个非常耗时的过程。如果用户使用常规的系统来访问多个来源以基于用户的一般偏好来找到报导,结果通常是来自所有来源的混合报导的“洪水”。当用户找到特定兴趣所在的报导时,用户识别与该报导相关的关键词或短语,然后使用所关注报导的该关键词或短语提交对于来自各种来源的新闻报导的另一个搜索。由于这一来自所有来源的报导的混合,用户也许难以过滤所有选择,从而将所关注的报导从不关注的报导中区分开来,尤其是不清楚可获得的选择中哪些仅仅是来自不同来源的相同报导(不关注的)的选择。此外,根据用户的技巧和/或搜索引擎的质量,基于用户定义的关键词和短语的搜索可能导致对可获得报导的过度过滤或过滤不足,以使得可能无法为用户呈现他所期望的某些视角,或者为用户呈现了仅仅与所选关键词或短语相匹配的不同报导。

发明内容

本发明的目的是提供一种从各种报导来源中有效地识别共同报导的方法和系统。本发明的另一目的是根据不同版本的相同报导合成一种复合新闻报导。本发明的另一目的是有效地构造复合新闻报导以易于理解。

这些和其他目的是通过这样的方法和系统实现的,即,将单独的新闻报导特征化并基于该特征化从各种报导中识别共同的新闻报导。优选地使用基于不同版本报导的共同结构的结构,为这种共同新闻报导创建复合报导。从不同版本的报导中选择用于包含在该复合报导中的片段,该选择是基于该片段的视频和音频内容的已确定的等级进行的。

附图说明

参考附图,进一步详细地并通过示例的方式来解释本发明,其中:

图1示出了根据本发明的报导合成系统的示例框图。

图2示出了根据本发明的报导合成系统的示例流程图。

在通篇附图中,相同的附图标记表示相同的元件,或执行基本相同功能的元件。所包含的附图仅用于说明,而并非意图限制本发明的范围。

具体实施方式

图1示出了根据本发明的报导合成系统的框图。通过读取器120访问多个视频片段110。在本发明的典型实施例中,视频片段110对应于所记录的新闻剪辑。可选的是,这些片段110可以位于包含连续视频记录的磁盘驱动上,该视频记录诸如“TiVo”记录,使用本领域中常见的技术可以从中区分单独的视频片段110。视频片段110也可以存储在跨越多个设备延伸的分布式存储器系统或数据库中。例如,一些或所有片段110可以位于因特网站点上,而读取器120包括访问因特网的能力。通常,视频片段110包括图像和声音,为了便于引用将图像和声音称为视频内容和音频内容,然而,根据内容,某些视频片段110可以仅包含图像或仅包含声音。本文中使用的术语视频片段110一般意义上包括图像或声音或两者都包括。

将特征化器130配置用于分析视频片段110,以便将每个片段特征化,并且可选的是将每个片段内的子片段特征化。该特征化包括为报导片段创建呈现项目,包括如下的这些项:日期、新闻来源、主题、姓名、地点、组织、关键字、演讲者的姓名/头衔等等。此外,该特征化可以包括视觉内容的特征化表示,诸如颜色的柱状图、形状的位置、情景的类型等等,和/或音频内容的特征化表示,诸如音频是否包括语音、沉默、音乐、噪声等等。

将比较器140配置用于基于每个片段110的特征化表示,来识别与相同报导的不同版本相对应的片段110。例如,包含共同情景、和/或引用共同地点名称、和/或包括共同关键词或短语等等的来自不同新闻来源的片段110很可能是涉及共同报导的片段110,并且将被识别为一组报导片段。因为片段110可能与多个报导相关联,所以在涉及一个报导的组中包含片段110并不排除将它包含在涉及另一报导的组中。

将编写器150配置用于组织涉及每个报导的片段的组,以形成反映各种片段的报导的呈现。编写器150的这些性能和特征将取决于本发明的特定实施例。

在本发明直接的实施例中,编写器150采用例如从该组中的一个或多个片段导出的标题以及有助于访问该组中的片段的索引,来创建报导的标识符。优选地,使用连接到片段110的链接来形成这种索引,以便用户可以容易地“点击并查看”每个片段。

在本发明更综合的实施例中,将编写器150配置用于由该组的片段110来创建复合视频,如下详细所述。典型地,从报导的引言到更详细情景的呈现,进而到报导的结束语,来自各种来源的新闻报导的片段对于片段110中的材料呈现而言不仅展现出共同的内容,还展现出共同的结构。单纯的连接来自各种来源的片段110将会导致来自每个来源的每个“引言:报导的情景:结束语”序列的重复,这种结构重复可能是脱节的,并且可能缺乏聚合性。在本发明该方面的优选实施例中,将编写器150配置用于选择和组织来自组的片段110,以便形成符合源材料的通用结构的复合视频。这就是说,使用上述示例的结构,复合视频将包含引言,接着是详细的情景,随后是结束语。这三个结构性部分(引言、情景、结束语)中的每一个将基于该组中的各种部分110的相应子部分,如下进一步详述。

本领域普通技术人员将认识到,可以将编写器150配置用于创建位于上述讨论的示例性直接和综合实施例中的特征范围之间或特征范围之外的呈现,以及这种特征的任选组合。例如,也可以将创建聚合性复合报导的编写器150的实施例配置用于独立地或者在呈现该复合报导的同时借助交互式提供对单个片段的索引化的访问。以类似方式,其中编写器150仅提供对于片段的索引化访问的这种系统的实施例可以包括与介质播放器的链接,该介质播放器配置用于顺序地呈现来自给定片段列表的视频。

将呈现器150配置用于接收来自编写器150的呈现,并将其呈现给用户。呈现器150可以是常规的介质回放设备,或者可以将它与该系统集成以有助于访问各种特征以及系统的选项,特别是由编写器150提供的交互式选项。

图1的系统优选还包括通常用于视频处理和选择系统的其他部件和性能,但为了易于理解本发明的显著方面而并未示出。例如,可以将该系统配置用于管理为该系统提供片段110的来源的选择,和/或可以将该系统配置用于管理呈现给用户的报导选择的呈现。以类似方式,该系统优选地包括配置用于基于用户的偏好、基于片段的特征化和/或每个报导的复合特征化来过滤片段或报导的一个或多个过滤器。

图2示出了根据本发明的报导合成系统的示例流程图。如上所述,本发明包括多个方面,并且可以使用各种特征和性能来体现。图2以及下面的描述并非想要意味着要求包括,也不表示将其他排除在外,并且并非想要限制本发明的精神或范围。

在210,使用各种技术中的任意技术来识别与报导相关联的视频片段110。于2002年3月26日颁发给Nevenka Dimotrova的美国专利6,363,380“MULTIMEDIA COMPUTER SYSTEM WITH STORYSEGMENTATION CAPABILITY AND OPERATING PROGRAMTHEREFOR INCLUDING FINITE VIDEO PARSER”(在本文中引入作为参考)教导了一种用于将连续视频分段的技术,该技术将视频分割成为“视频镜头”,这些“视频镜头”由视频中断或者不连续性进行区分,然后基于镜头中的视觉和音频内容将有关的镜头分组。基于这些镜头的确定序列,诸如“开始:主持人:嘉宾:主持人:结束”,将有关镜头的集合进行分组以形成报导片段。

在220,使用可用于识别视频片段中的区分特征的各种技术中的任意技术,通常基于视觉内容(颜色、独特形状、面貌数目、特定情景等等)、音频内容(声音的类型、语音等等)以及其他信息,诸如字幕文本、与每个片段相关联的元数据等等,将片段特征化。该特征的特征化或标识可以与210中的报导片段的识别相组合或一体化。例如,Radu S、Jasinschi和Nevenka Dimitrova于2002年1月9日提交的序列号为10/042,891的美国公开专利申请2003/0131362“A METHODAND APPARATUS FOR MULTIMODAL STORY SEGMENTATIONFOR LINKING MULTIMEDIA CONTENT”(在本文中引入作为参考)教导了一种系统,其基于片段内容的共同特性或特征将新闻节目划分为主题上接近的片段。

在225,任选地将片段过滤,主要是为了去除一些不值得进一步考虑的,可能是当前用户不感兴趣的片段。该过滤可以与上述报导分段210和特征化220的过程相结合。序列号为10/932,460的美国公开专利申请“PERSONALIZED NEWS RETRIEVAL SYSTEM”,作为Jan H.Elenbaas等人于1998年12月23日提交的09/220,277的分案申请(在本文中引入作为参考)教导了一种分段、特征化和过滤系统,其基于用户表示的和暗示的偏好,识别并呈现用户可能感兴趣的新闻报导。

在230,将特征化的且任选过滤了的片段彼此相比较,以确定哪些片段可能与相同的报导有关。优选地,该匹配是基于在220中确定的片段的特征中的一些或全部;然而,尤其值得注意的是,在确定两个片段是否与共同的报导有关的过程中,这些特征中每一个的重要性似乎不同于在确定哪些视频镜头或序列在如上所述的过程210和220中形成了片段的过程中每个特征的重要性。

在本发明的优选实施例中,如果下面的匹配参数M超过给定阈值的话,则确定两个片段A、B对应于相同的报导:

<mrow><mi>M</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mi>i</mi><mi>N</mi></munderover><msub><mi>W</mi><mi>i</mi></msub><mo>*</mo><msub><mi>F</mi><mi>i</mi></msub><mrow><mo>(</mo><msup><msub><mi>V</mi><mi>i</mi></msub><mi>A</mi></msup><mo>,</mo><msup><msub><mi>V</mi><mi>i</mi></msub><mi>B</mi></msup><mo>)</mo></mrow><mo>,</mo></mrow>

其中VA是片段A的特征向量,VB是片段B的特征向量,Wi是赋予向量中每个特征i的权重。由于用于区分报导的名称的强度,因此例如赋予用于标识共同报导的名称特征的权重W通常显著大于赋予主题特征的权重。比较器函数Fi取决于特定特征,并且通常返回一个在0到1之间变化的相似度测度。例如,用于比较名字的函数F可以在名字匹配时返回“1”,反之则返回“0”;或者如果姓和名匹配则返回1.0,如果头衔和姓匹配则返回0.9,如果仅姓匹配则返回0.75,以此类推。在另一个示例中,用于比较颜色柱状图的函数F可以返回一个用数学方法确定的测度,诸如柱状图向量的归一化的点积。

确定对应于共同报导的每组片段是基于成对片段之间的匹配参数M的组合。在简单的实施例中,具有至少一个共同匹配的所有片段被定义为对应于共同报导的一组片段。例如,如果A和B匹配,且B和C匹配,则{A,B,C}被定义为一组共同报导的片段,而不考虑A是否和C匹配。在严格性的实施例中,可以将一组定义为仅仅是其中每个片段与每个所有其他的片段相匹配的那些片段。即,{A,B,C}定义了当且仅当A和B匹配、B和C匹配且C和A匹配时的一组。其他实施例可以使用不同的组定义规则。例如,如果A和B匹配且B和C匹配,如果A和C之间的匹配参数至少超过某些第二、较低的阈值,则C可以被定义为包括在该组中。以类似的方式,可以使用动态阈值规则,其中最初时组设定规则并不严格,但如果所产生的组过大,则可以将组定义规则或匹配阈值水平或这两者的参数制定为更严格。基于双向比较的用于形成组的这些和其他技术在本领域中是常见的。

可选的是,可以使用其他技术来找到具有共同特征的片段,包括但不限于集群技术和其他技术,以及可训练的系统,诸如神经网络等等。

如上所述,在定义对应于共同报导的每组片段时,可以提供报导的标识和片段的索引作为本发明的输出。然而优选地,本发明的系统还包括复合视频的合成,如图2的过程240-290所示。

在240,将对应于单一报导的片段进行划分或者再次划分为子片段以用于进一步处理。子片段包括音频子片段242和视频子片段246.这些子片段优选本身是完整的,使得通过这种子片段的组合形成的合成复合视频不会显示出较大的不连续性,诸如半句、不完全的镜头等等。通常,视频子片段之间的中断将会与原始视频源中的中断相重合,并且音频子片段之间的中断将会与自然语言中断相重合。在优选实施例中,确定片段的音频部分是否直接对应于视频图像,或者该音频部分是否为非关联的声音,诸如“结束语”。如果音频和视频直接相关,则为音频242和视频246子片段定义共同的中断点。

在250,分析原始片段的结构以确定用于呈现复合报导的优选结构。该确定最初是基于可以由视频子部分246推导出的结构,然而音频子部分242的结构也可能也影响该决定。如上所述,美国专利6,363,380解决了典型的呈现结构的建模问题,诸如“开始:主持人:嘉宾:主持人:结束”。新闻报导的常见结构包括“锚:记者:情景:记者:锚”,其中第一锚子片段对应于引子或标题,最后的锚子片段对应于结束或解说词。类似地,财经新闻的常见结构包括“锚:图表:评论员:情景:锚”。

在本发明的典型实施例中,结构性分析250和片段划分240将作为一个整体的过程或反复的过程来执行,这是因为基于原始视频划分,在结构性分析250中整体结构的确定可以对用于基于该整体结构创建复合视频的每个片段的最终视频和音频划分有影响。

在280,选择子部分设置用于形成对应于报导的复合视频。这些子部分的选择优选地基于视频246和音频242子部分的排名,或这种排名的组合,或基于视频和音频子部分的组合的排名。

各种技术中的任何技术都可用于在270、260中对音频242和视频246子部分进行排名。在本发明的优选实施例中,每个的排名采取以下形式:

<mrow><msub><mi>R</mi><mi>i</mi></msub><mo>=</mo><mi>I</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>*</mo><munder><mi>&Sigma;</mi><mi>j</mi></munder><mrow><msub><mi>W</mi><mi>j</mi></msub><mo>*</mo><msub><mi>R</mi><mi>ij</mi></msub><mo>/</mo><munder><mi>&Sigma;</mi><mi>j</mi></munder><msub><mi>W</mi><mi>j</mi></msub></mrow></mrow>

其中I(i)是子部分i的音频或视频内容的内在重要性,例如基于视频中的文字、图形、面貌和其他项,以及音频中的名称、地点和其他项的出现。“j”排名项目Rij中的每一个基于用于排名子部分的不同音频或视频测度。例如,在排名视频子部分的过程中,其中一个排名可以基于出现在该视频子部分中的对象,而另一个排名可以基于视觉相似度,诸如视频子部分中帧的一般色彩方案。类似地,在排名音频子部分的过程中,其中一个排名可以基于出现在该音频子部分中的词,而另一个排名可以基于音频相似度,诸如由同一人讲出的句子。其他排名方案对于本领域技术人员而言,在考虑本公开的情况下都是显而易见的。Wj项对应于赋予每个排名方案的权重。

为了有助于每个子部分的排名,使用例如k平均数集群算法将片段进行集群。在每个集群中的是多个片段;一个集群中的片段总数提供了对该集群重要性的指示。随后,子部分的排名基于在其中出现子部分的片段的该集群的重要性。

如上所述,基于复合视频的确定的优选结构,选择和组织子部分以用于呈现。通常,仅有对应于报导引言的子片段之一将被选中以包含在内,该选择优选地基于与原始部分中的引言相对应的子部分的音频内容的排名。之后,该结构的“详细”部分通常基于子片段的视频内容的排名,尽管高评分的音频子片段也可能也影响该选择过程。如果将音频和视频子部分识别为直接相关,如上所讨论的,则一个的选择优选地影响其他的选择,以至于相关地呈现该子部分。

来自280的复合视频在290处被呈现给用户。该呈现可以包括交互式性能,以及提高或指导交互的特征。例如,如果报导中的一个特定方面或事件基于它来自各种来源的覆盖率而被确定为尤其重要的,则可以呈现该重要性的指示,同时为相应的子部分提供对与该重要方面或事件有关的其他音频或视频子片段的交互式访问。

前面仅仅描述了本发明的原理。应当理解的是,尽管本文中没有明确地描述或示出,但是本领域技术人员能够设计出体现本发明原理并且由此包含在其精神和范围内的各种方案。例如,本发明体现在观看不同版本的相同新闻报导的环境中。本领域普通技术人员将认识到,这一与新闻有关的应用可以结合或提供访问到其他与信息访问有关的应用中。例如,除了能够访问其他与当前报导有关的片段110以外,还可以将呈现器290配置用于访问与当前报导有关的其他信息源,诸如可以基于报导的特征化特征提供背景信息的因特网站点等等。这些和其他系统配置和最优化特征对于本领域普通技术人员而言,在考虑本公开的情况下是显而易见的,并且包含在下述权利要求的范围之内。

在解释这些权利要求时,应当理解:

a)词语“包括”不排除存在有其他元件,或不仅仅是给出的权利要求中所列出的那些操作;

b)在元件之前的词语“一”或“一个”不排除存在多个这种元件;

c)权利要求中的任何附图标记并不限制它们的范围;

d)若干个“装置”可以通过相同的项或硬件或软件实现的结构或功能来表示;

e)每个所披露的元件可以包括硬件部分(例如包括分立的和集成的电子电路)、软件部分(例如计算机程序)及其任意组合;

f)硬件部分可以包括模拟和数字部分中的一个或两者;

g)所披露的装置或其部分中的任意可以与另外的部分组合在一起或被分离为另外的部分,除非另有特别描述;

h)不意图要求任何特定顺序的操作,除非特别指出;以及

i)术语“多个”元件包括两个或更多的所要求保护的元件,并且不意味着任何特定范围数量的元件;即,多个元件可以少至两个元件。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号