法律状态公告日
法律状态信息
法律状态
2016-08-31
授权
授权
2014-03-12
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130910
实质审查的生效
2014-02-05
公开
公开
技术领域
本发明涉及多媒体检索,尤其涉及一种基于选择单元的主题建模方法。
背景技术
目前,随着互联网架构、存储科技及其他有关技术的发展,各种各样模态的多媒体数据,如新闻,图片,以及声音和视频等越来越多。飞速增长的多媒体数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样本以外,也带来了如何对大规模数据进行自动文档聚类的挑战。为了应对这一挑战,许多多媒体检索及整合应用在其核心算法中使用了非监督层次化贝叶斯模型(或称主题模型),如LDA(隐狄利克雷分配,一种广泛的传统主题模型)及其扩展等。从2003年被提出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘要、跨数据集建模和文档主题演化追踪等多种问题和挑战,并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加了一个隐含的主题层,并认为文档是包含有一个或多个主题,而每个主题又是不同比例词的组合。新增加的主题这一隐含层能使用户更好地理解一篇文档所涵盖的内容(相当于为文档加上了诸如“体育”、“社会”等一个或多个类别标签,而不是提供词的频数统计),而且在应用处理海量数据时起到了降维的效果。主题模型最初被用于处理文本数据,新闻报道和科学论文等;由于图像数据和文本数据具有某种程度上的同质性,因此在将图像中的特征点处理为视觉单词后,也可以使用主题建模方法对图像数据进行归纳整合,主题模型及以其作为核心算法的各类应用也因此具有处理多种模态数据的能力。
LDA等经典主题模型的一个核心假设是对文档的BoW表达(词袋表达)。这种表达方式假设每篇文档中词与词之间没有关联,并且相互之间的位置可互换。BoW假设在数学上易于推导,为主题模型带来了计算上的方便和处理数据时的快捷。然而,这样的假设实际上是过于简单的,因为文档中的一些单词(或图片中的视觉单词)受其外部的片段结构(如文本中的句子或段落,以及图片中的区域等)限制,是不能与所属片段结构之外的单词相互交换的。作为对传统主题建模方法的改进,一些应用转而采用较新提出的模型,如LDCC及Spatial-LTM等,开始在对文本、图像等离散型数据的归纳整合中将文档与词之间的片段结构(如前文所述的语句或图像区域等)作为对词分配主题时的结构限制而纳入建模过程。然而,这些模型一般对(视觉)单词施加过强的结构限制,认为其必须服从于所属片段结构的主题,而不考虑该单词表达其他主题或是噪声的可能性。因此,根据(视觉)单词本身的特征对其 选择性地施加结构限制,从而使整体算法以及采用算法的应用能够更加适应现实中的多媒体数据是主题建模领域研究的新方向。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于选择单元的主题建模方法。
基于选择单元的主题建模方法包括如下步骤:
1.根据用户的查询请求以及是要查询文本数据或图像数据提取多媒体数据库中的搜索结果;
2.如果查询请求是针对文本数据的,提取搜索到的文本数据中的单词、片段结构和单词特征,如果查询请求是针对图像数据的,提取搜索到的图像数据中的视觉单词、片段结构和视觉单词特征;
3.根据系统自动设定或用户指定的参数,确定建模采用的主题数T;
4.对于数据集包含的每个片段结构,随机地分配T个主题中的一个作为片段结构的主题;
5.对于数据集包含的每个单词,随机地分配T个主题中的一个作为单词主题;
6.对于数据集包含的每个单词,随机地分配一个0-1二元选择子,选择子用于指定每个单词被分配到其所属的片段结构的主题或是其自身的主题上;
7.通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子;
8.根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息;
9.根据选择子最终分配结果向用户反馈具有各种特征的单词表达它们所在片段结构的主题的能力。
所述的提取文本数据中单词、片段结构和单词特征的步骤如下:
1.采用自然语言处理工具对文档进行分句,以得到的语句作为文本数据的片段结构;
2.采用自然语言处理工具标注每个词的词性,以得到的词性标注结构作为各单词的特征;
3.去除其中无用的高频词以及频数过低的生僻词;
4.统计处理后文本中所有出现过的词,组成词汇表。
所述的提取图片数据中视觉单词、片段结构和视觉单词特征的步骤如下:
1.使用OpenSIFT提取所有图片的SIFT特征,构成一个128维特征点的集合;
2.将特征点集合用K-means聚类得到一组视觉词典,并将所有SIFT点按聚类结果替换为词典中的视觉单词;
3.采用图像分割和人工标注手段提取图片中的物体边界、颜色直方图等属性,并以物体边界作为图像中的片段结构;
4.对物体进行聚类得到各视觉单词所属的类别标签,并以该类别标签作为视觉单词的特征。
所述的通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子的步骤如下:
1.由系统自动设定,或者由用户指定Dirihlet分布的参数α与β,以及Beta分布参数γ,并且设定好迭代次数、收敛条件等参数;
2.对于每个文档d,统计各个主题k上的单词主题数ndk与片段结构主题数ldk;
3.对于每个主题k,统计所有单词中实际分配到其上的频数nkv;
4.对于带有特征t的单词,统计其对应的二元选择子为0或为1的频数ct0和ct1;
5.对于每个文档d中的每个片段结构l,统计其中各相同单词v的集合中对应二元选择子的值为1的词的数量Rdlv,以及它们之和Rdl;
6.令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个单词主题zdli,其所有可能值的概率如下:
7.采样文档d的片段结构l中第i个选择子πdli,其值为0和1的概率分别如下:
8.采样文档d中片段结构l的主题sdl,其所有可能值的概率如下:
9.完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1;
10.算法满足收敛条件后,输出所有的单词主题z、片段结构主题s和二元选择子π。
所述的根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息的步骤如下:
1.设各个主题在文档d中的比例为多项分布θd,词汇表中的各个单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数的分量θdk和φkv的公式如下:
2.对于每个主题k,根据值由高至低对各个文档d排序,并根据的大小由高至低对各个单词v排序;
3.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的文档或图片和最有代表性的单词,并整理成可视化图表;
4.将整理好的图表反馈给用户。
所述的根据选择子最终分配结果向用户反馈具有各种特征的单词表达其所在片段结构的主题的能力的步骤如下:
1.设值为0和1的二元选择子对应具有特征t的单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数的分量λt0和λt1的公式如下:
2.将各个特征t的参数估计值作为具备其特征的单词反映所属片段结构蕴含的主题的能力,并整理成可视化图表;
3.将处理好的图表反馈给用户。
本发明与现有技术相比具有的有益的效果:
1.本发明使用了一种基于LDA的主题建模算法,对比采用传统算法的主题挖掘、整合类型的应用,本发明能够同时在文本、图像及其他模态的多媒体数据上进行主题建模,并且充分利用了数据中可能存在的结构信息和特征信息(如文本数据中的语句、段落、单词词性以及图像数据中的区域轮廓、物体标签等),消除了LDA等传统方法中BoW假设的缺陷。
2.本发明在文档中单词的主题分配上结合了语句、图像区域等片段结构性限制,并且引入了指明单词主题是否服从所属片段结构的选择子和用于以不同概率产生选择子的单词特征,消除了结构性限制过强可能产生的不利因素,并且更加符合现实中单词主题与所属片段结构主题之间的联系,在实验中较传统主题模型有更好的聚类效果。
3.相比于已有的主题建模应用,本发明能够提供文档中单词特征与片段结构限制之间的关联度等信息,为用户在理解数据及已建模数据的后续处理提供帮助。
4.本发明具有良好的可扩展性,以本发明的核心算法为基础,配合回归、时域主题等方法或思想,可以开发多媒体数据分类、文档主题演化与跟踪等多种应用。
附图说明
图1是本发明所使用的核心主题建模算法的概率图模型表达,方框从外到内分别代表各个文档、文档中的各个片段结构和片段结构中的各个单词。灰色圆圈代表观测量(文档中的单词和各单词自身的特征),无色圆圈代表隐含的中间变量,黑点代表需要设置的超参数。
图2是本发明用于图像数据建模的效果实例及与传统方法的对比,图像上的标记代表其是否被聚集到了正确的类上。
图3是本发明中检测不同特征单词对所属片段结构主题的反映能力的实例。
具体实施方式
基于选择单元的主题建模方法包括如下步骤:
1.根据用户的查询请求以及是要查询文本数据或图像数据提取多媒体数据库中的搜索结果;
2.如果查询请求是针对文本数据的,提取搜索到的文本数据中的单词、片段结构和单词特征,如果查询请求是针对图像数据的,提取搜索到的图像数据中的视觉单词、片段结构和视觉单词特征;
3.根据系统自动设定或用户指定的参数,确定建模采用的主题数T;
4.对于数据集包含的每个片段结构,随机地分配T个主题中的一个作为片段结构的主题;
5.对于数据集包含的每个单词,随机地分配T个主题中的一个作为单词主题;
6.对于数据集包含的每个单词,随机地分配一个0-1二元选择子,选择子用于指定每个单词被分配到其所属的片段结构的主题或是其自身的主题上;
7.通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子;
8.根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息;
9.根据选择子最终分配结果向用户反馈具有各种特征的单词表达它们所在片段结构的主题的能力。
所述的提取文本数据中单词、片段结构和单词特征的步骤如下:
1.采用自然语言处理工具对文档进行分句,以得到的语句作为文本数据的片段结构;
2.采用自然语言处理工具标注每个词的词性,以得到的词性标注结构作为各单词的特征;
3.去除其中无用的高频词以及频数过低的生僻词;
4.统计处理后文本中所有出现过的词,组成词汇表。
所述的提取图片数据中视觉单词、片段结构和视觉单词特征的步骤如下:
1.使用OpenSIFT提取所有图片的SIFT特征,构成一个128维特征点的集合;
2.将特征点集合用K-means聚类得到一组视觉词典,并将所有SIFT点按聚类结果替换为词典中的视觉单词;
3.采用图像分割和人工标注手段提取图片中的物体边界、颜色直方图等属性,并以物体边界作为图像中的片段结构;
4.对物体进行聚类得到各视觉单词所属的类别标签,并以该类别标签作为视觉单词的特征。
所述的通过Gibbs采样过程迭代地确定所有片段结构主题、单词主题以及选择子的步骤如下:
1.由系统自动设定,或者由用户指定Dirihlet分布的参数α与β,以及Beta分布参数γ,并且设定好迭代次数、收敛条件等参数;
2.对于每个文档d,统计各个主题k上的单词主题数ndk与片段结构主题数ldk;
3.对于每个主题k,统计所有单词中实际分配到其上的频数nkv;
4.对于带有特征t的单词,统计其对应的二元选择子为0或为1的频数ct0和ct1;
5.对于每个文档d中的每个片段结构l,统计其中各相同单词v的集合中对应二元选择子的值为1的词的数量Rdlv,以及它们之和Rdl;
6.令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个单词主题zdli,其所有可能值的概率如下:
7.采样文档d的片段结构l中第i个选择子πdli,其值为0和1的概率分别如下:
8.采样文档d中片段结构l的主题sdl,其所有可能值的概率如下:
9.完成上述更新过程后检查算法是否满足收敛条件,未满足则返回步骤1;
10.算法满足收敛条件后,输出所有的单词主题z、片段结构主题s和二元选择子π。
所述的根据片段结构主题和单词主题最终分配结果向用户反馈各个主题最显著的文档或图片以及最有代表性的单词信息的步骤如下:
1.设各个主题在文档d中的比例为多项分布θd,词汇表中的各个单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数的分量θdk和φkv的公式如下:
2.对于每个主题k,根据值由高至低对各个文档d排序,并根据的大小由高至低对各个单词v排序;
3.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的文档或图片和最有代表性的单词,并整理成可视化图表;
4.将整理好的图表反馈给用户。
所述的根据选择子最终分配结果向用户反馈具有各种特征的单词表达其所在片段结构的主题的能力的步骤如下:
1.设值为0和1的二元选择子对应具有特征t的单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数的分量λt0和λt1的公式如下:
2.将各个特征t的参数估计值作为具备其特征的单词反映所属片段结构蕴含的主题的能力,并整理成可视化图表;
3.将处理好的图表反馈给用户。
实施例1
以用户提交文本类型查询“NYT+CNN”为例,本发明在数据库中处理该查询的步骤如下:
1.在多媒体数据库中搜索到发布媒体为NYT和CNN的全部新闻,提取搜索结果中的文字;
2.采用自然语言处理工具对文档进行分句,以得到的语句作为数据的片段结构;
3.采用自然语言处理工具标注每个词的词性,以得到的词性标注结构作为各单词的特征;
4.去除其中无用的高频词以及频数过低的生僻词;
5.统计处理后文本中所有出现过的词,组成词汇表。
6.根据数据涵盖的数据集,确定主题数为20;
7.对于数据集包含的每个语句,随机地分配20个主题中的一个作为语句的主题;
8.对于数据集包含的每个单词,随机地分配20个主题中的一个作为单词主题;
9.对于数据集包含的每个单词,随机地分配一个0-1二元选择子,该选择子用于指定1该单词被分配到其所属语句的主题或是其自身的主题上;
10.对于每个文档d,统计各个主题k上的单词主题数ndk与语句主题数ldk;
11.对于每个主题k,统计所有单词中实际分配到其上的频数nkv;
12.对于带有特征t的单词,统计其对应的二元选择子为0或为1的频数ct0和ct1;
13.对于每个文档d中的每个语句l,统计各单词v中对应二元选择子的值为1的数量Rdlv,以及它们之和Rdl;
14.令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个单词主题zdli,其所有可能值的概率如下:
15.采样文档d的片段结构l中第i个选择子πdli,其值为0和1的概率分别如下:
16.采样文档d中片段结构l的主题sdl,其所有可能值的概率如下:
17.完成上述更新过程后检查算法是否满足收敛条件或是否完成1000次迭代,未满足则返回步骤10;
18.输出所有的单词主题z、片段结构主题s和二元选择子π;
19.设各个主题在文档d中的比例为多项分布θd,词汇表中的各个单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数θdk和φkv的公式如下:
20.对于每个主题k,根据值由高至低对各个文档d排序,并根据的大小由高至低对各个单词v排序;
21.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的文档和最有代表性的单词,并整理成可视化的图表;
22.设值为0和1的二元选择子对应具有特征t的单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数λt0和λt1的公式如下:
23.将各个特征t的参数估计值作为具备其特征的单词反映所属片段结构蕴含的主题的能力,并整理成可视化图表;
24.将所有整理好的图表反馈给用户。
本发明用于文本数据建模的实际效果及与传统方法的对比如下表所示。各个主题的代表单词是按其在主题内的比例由高至低排列的(具体比例列在单词右侧)。可以看到本发明较传统算法提供了对主题更完善的描述。
实施例2
以用户提交图像类型查询“LabelMe+MSRC”为例,本发明在数据库中处理该查询的步骤如下:
1.在多媒体数据库中搜索到LabelMe和MSRC v2两个图像数据集,提取搜索结果中的图片;
2.使用OpenSIFT提取所有图片的SIFT特征,构成一个128维特征点的集合;
3.将特征点集合用K-means聚类得到一组视觉词典,并将所有SIFT点按聚类结果替换为词典中的视觉单词;
4.利用已有标注提取图片中的物体边界、颜色直方图等属性,并以物体边界作为图像中的片段结构;
5.对物体进行聚类得到各视觉单词所属的类别标签,并以该类别标签作为视觉单词的特征。
6.根据数据涵盖的数据集,确定LabelMe建模主题数为15,MSRC v2为20;
7.对于数据集包含的每个区域,随机地分配所有主题中的一个作为区域的主题;
8.对于数据集包含的每个视觉单词,随机地分配所有主题中的一个作为视觉单词主题;
9.对于数据集包含的每个视觉单词,随机地分配一个0-1二元选择子,该选择子用于指定该视觉单词被分配到其所属区域的主题或是其自身的主题上;
10.对于每张图片d,统计各个主题k上的视觉单词主题数ndk与区域主题数ldk;
11.对于每个主题k,统计所有视觉单词中实际分配到其上的频数nkv;
12.对于带有特征t的视觉单词,统计其对应的二元选择子为0或为1的频数ct0和ct1;
13.对于每个文档d中的每个语句l,统计各视觉单词v中对应二元选择子的值为1的数量Rdlv,以及它们之和Rdl;
14.令所有单词构成向量w,所有单词主题构成向量z,所有片段结构主题构成向量s,所有二元选择子构成向量π,所有单词特征构成向量t,记上述向量合并为Φ,记α、β和γ合并为ψ,并设αk、βv、γb分别为α、β和γ的第k、v、b个分量,采样文档d的片段结构l中第i个视觉单词主题zdli,其所有可能值的概率如下:
15.采样图片d的区域l中第i个选择子πdli,其值为0和1的概率分别如下:
16.对于采样图片d中区域l的主题sdl,其所有可能值的概率如下:
17.完成上述更新过程后检查算法是否满足收敛条件或是否完成1000次迭代,未满足则返回步骤10;
18.输出所有的视觉单词主题z、区域主题s和二元选择子π;
19.设各个主题在图片d中的比例为多项分布θd,各个视觉单词在主题k中的比例为多项分布φk,根据所有主题分配结果估计各多项分布参数θdk和φkv的公式如下:
20.对于每个主题k,根据值由高至低对各个文档d排序,并根据的大小由高至低对各个单词v排序;
21.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题最显著的图片和最有代表性的视觉单词,并整理成可视化的图表;
22.设值为0和1的二元选择子对应具有特征t的视觉单词时所占的比例为二项分布λt,根据所有选择子分配结果估计各二项分布参数λt0和λt1的公式如下:
23.将各个特征t的参数估计值作为具备其特征的视觉单词反映所属区域蕴含的主题的能力,并整理成可视化图表;
24.将所有整理好的图表反馈给用户。
图2是上述图片查询、建模的实际运行结果,以及它们同传统主题建模方法LDA的效果对比。
可以看到本发明的实际建模和聚类效果要好于传统方法。图3是在上述实例处理完成后得到的不同特征单词对所属片段结构主题的反映能力比较图。可以看到文本中的名词、动词反映语句整体主题的能力较高,图像中不同的物体反映其区域主题的能力也大相径庭。
机译: 一种显示文学中基于关键词的主题的各种主题的方法及主题或关键词的选择方法
机译: 基于类别的数据分析系统,用于处理存储的数据单元并以示例性的精度计算其与主题领域的相关性,以及一种计算机实现的方法,用于从广泛的数据源中识别执行社交影响者功能的社交实体
机译: 一种用于服务器的显示建模方法,包括基于迹线像素形成图像,并通过发送单元将符合修改数据集合的图像和编码信息传输至编码器