首页> 中国专利> 基于强化学习和对比学习的图像语义理解及文本生成

基于强化学习和对比学习的图像语义理解及文本生成

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了基于强化学习和对比学习的图像语义理解及文本生成。该任务的挑战在于如何用表达简练而内容丰富的文本准确的描述图像内容。目前的大多数方法是以图像标题来描述图像，而图像标题过于简单的特点导致了存在描述不全面的情况。而目前以诗歌描述图像的新任务又缺乏带标注的数据集。本发明通过诗歌来描述图像内容，利用诗歌表达简练、语义丰富并具有艺术性的特点，结合强化学习和对比学习设计了一种无监督创作多样化诗歌的方法。提出的方法以生成式对抗网络为基本框架，生成器基于图像创作诗歌，判别器预测诗歌的真实性。通过设计的古典概念词奖励机制和跨模态特征对齐机制来强化诗歌与图像的一致性。并设计多样性奖励机制来引导模型创作多样化的诗歌。实验结果证明提出的方法在相互独立的图像和诗歌数据集上训练后，模型能够创作多样化的诗歌来描述图像。

著录项

公开/公告号CN114972907A

专利类型发明专利
公开/公告日2022-08-30

原文格式PDF
申请/专利权人中国石油大学（华东）;
展开▼

申请/专利号CN202210502569.2
发明设计人吴春雷;王江楠;王雷全;胡飞;张欢;郝宇钦;
展开▼

申请日2022-05-10
分类号G06V10/774(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构
代理人
地址 266580 山东省青岛市黄岛区长江西路66号
入库时间 2023-06-19 16:36:32

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-16

实质审查的生效 IPC(主分类):G06V10/774 专利申请号:2022105025692 申请日:20220510

实质审查的生效

说明书

技术领域

本发明属于图像描述技术领域，涉及计算机视觉和自然语言处理的方法。

背景技术

图像语义理解及文本生成是运用计算机视觉相关技术理解图像语义内容，并运用自然语言处理相关技术生成文本描述。传统的图像语义理解及文本生成是指为图像生成标题，标题是一种陈述性的简单句子，描述图像中的对象和对象之间的关系。近年来，在图像标题的研究基础上提出了一些新的图像语义理解及文本生成任务，包括视觉问答和看图写诗。诗歌是一种具有艺术性的文学体裁，看图写诗是一项更具挑战性的任务，不仅要准确的理解图像内容，还要以简练和优美的语言去描述图像。近年来，随着深度学习中循环神经网络、生成式对抗网络、卷积神经网络的出现，促进了自然语言和计算机视觉相融合。在图像描述研究领域，卷积神经网络结合循环神经网络是最常被采用的方法，以此为基础提出了许多模型，改进方向大多是优化视觉或文本特征，以及设计注意力机制来关注重要信息。

通过对现有方法的不足之处进行分析和总结，得出以下两个需要解决的问题：用诗歌描述图像的相关工作主要分为监督和无监督学习。第一个问题是在监督学习中，目前只有公开的英文多模态诗歌数据集，数据集规模是八千多个对图像诗歌对。然而，小规模的多模态数据集会限制深度学习模型的表现，并且目前没有公开的多模态中文诗歌数据集，而制作多模态数据集需要很多人力，增加模型的训练成本。目前有些方法通过图像和诗歌中的概念词，自动匹配构造伪成对数据集。但是自动匹配的数据集中存在许多噪音，原因是诗歌还具有情感和风格特征，只通过概念词匹配会忽略这些重要特征，导致图像和诗歌之间语义不一致，从而影响到数据集的质量。第二个问题是在无监督学习中，目前的方法都是基于关键词，并通过模块化组合方式完成看图写诗任务。然而关键词的质量很难保证，存在的问题是用现代关键词来生成古典诗歌，这导致诗歌流畅性和连贯性比较差，与图像之间的一致性低。并且在限制诗歌的超参数(长度，格律，押韵)条件下，由关键词生成的诗歌存在多样性不足，也就是基于同一张图像生成的多首诗歌之间相似度高。

发明内容

本发明为了解决上述问题，提出了一个基于强化学习和对比学习的图像语义理解及文本生成方法。本发明的具体步骤如下：

S1.以生成式对抗网络作为从图像生成诗歌的基本框架，生成器负责理解图像内容并生成诗歌，判别器负责判断诗歌的真实性。

S2.基于强化学习方法设计古典概念词奖励机制，该奖励会促进生成器创作出符合图像中视觉对象的诗歌。

S3.基于强化学习方法设计跨模态特征对齐机制，直接跨模态对齐以减小跨模态特征重构误差为目标，间接跨模态对齐以优化生成器创作诗歌质量为目标。

S4.基于对比学习方法设计对比奖励机制，通过采样的潜在代码控制生成器创作诗歌的多样性。

S5.基于强化学习和对比学习的模型训练。

本发明的技术方案特征和改进为：

对于步骤S1，本发明以生成式对抗网络作为基本框架。总体上，数据集包括一组图像原特征X＝{x

对于生成器，它主要组成部分是图像特征提取器、诗歌编码器和诗歌解码器。由卷积神经网络CNN提取图像的特征x，再经过图像特征转换器

公式(1)中f

为了达到生成器创作多样化的诗歌，使用潜在代码和图像特征的拼接作为诗歌解码器的初始输入。具体上，诗歌的第一句创作时解码器基于图像特征和潜在代码预测字符，图像特征和潜在代码经过拼接后由跨模态转换器

公式(4)中

诗歌解码器由LSTM预测字符。首先解码器LSTM的初始输入是跨模态特征

在得到解码器的输入的所有隐藏状态后，由线性层将隐藏状态映射到词汇表，再经过归一化函数计算出词汇表中字符的概率分布，采样函数接下来从概率分布中采样得到字符并最终组成一个完整的句子。相关计算如公式(9)和(10)所示：

公式(9)中linear表示线性层，softmax表示归一化函数，

对于判别器，由LSTM编码生成的诗歌或来自诗歌数据集的真实诗歌。判别器需要对输入的诗歌进行判断并预测出真实性概率。计算方法是LSTM编码句子并输出每一步的隐藏状态，隐藏状态经过线性层映射为数值，再由激活函数对数值进行归一化得到预测的真实性概率。基于强化学习，将生成诗歌的真实性概率值的对数形式作为生成器的对抗奖励。判别器的对抗损失由真实诗歌和生成诗歌的真实性概率得到。相关计算的公式如下所示：

公式(11)和公式(12)中

对于步骤S2，本发明为了强化生成诗歌和图像之间的一致性，通过设计古典概念词奖励机制优化生成器。具体上，图像由预训练的目标检测器检测出一组视觉对象和置信分数。视觉对象是英文的现代关键词，需要被转换为中文的古典关键词。基于目标检测器的对象字典，制作一个现代-古典概念字典，用于将图像检测出的视觉概念转换为对应的古典概念。古典概念词奖励以生成诗歌中是否具有与图像相同的概念词作为奖励依据，并将视觉对象的置信分数作为奖励值。相关计算如以下公式所示：

公式(15)中O

对于步骤S3，本发明设计跨模态对齐机制，目的是让生成器从诗歌数据集中学习以提高生成诗歌的质量。因为生成器中的解码器是基于跨模态特征来创作诗歌，为了使得生成器可以学习真实诗歌，需要建立真实诗歌和跨模态特征之间的映射关系。具体上，直接跨模态对齐的目标是使得生成器的跨模态特征和判别器重构的跨模态特征之间进行特征对齐。判别器将生成器创作出的诗歌先进行编码，再经过跨模态特征转换器

公式(18)中

对于步骤S4，本发明设计的对比学习方法，目的是让生成器可以个根据潜在代码实现生成诗歌多样化。生成器的解码器的初始跨模态特征是由图像特征和潜在代码拼接而成，也就是解码器创作诗歌主要依赖于图像特征，并受到潜在代码的影响。因为潜在代码是从高斯分布中随机采样得到，那么由十分接近的潜在代码创作出的诗歌应该是相似的，由差异化的潜在代码创作出的诗歌应该是有区别的。为了指导生成器依据潜在代码实现多样化创作，通过高斯分布中的小超球面进行正负采样，也就是随机采样的潜在代码作为球心，正采样来自球面内部，负采样来自球面外部。生成器基于图像特征和三个潜在代码，分别创作出三首诗歌，并由判别器映射的重构跨模态来度量诗歌之间的差异性。多样化损失目标是减少标准和正采样得到的重构跨模态特征之间差异，并增加标准和负采样得到的重构跨模态特征之间差异。相关的计算公式如下：

公式(21)中

对于步骤S5，强化学习针对生成器进行策略梯度计算，其中生成器的奖励包括对抗性奖励、古典概念词奖励、跨模态特征对齐奖励和多样化奖励。除此之外，跨模态间接对齐，也就是交叉熵损失也为生成器提供梯度。判别器的损失包括对抗性损失和跨模态特征对齐损失。相关计算公式如下所示：

公式(22)中

因为诗歌和图像数据集是相互独立的，所以模型从头进行训练具有挑战性，为了使得模型能够以更好的参数开始训练，设计预训练方法对模型参数进行初始化。具体上，生成器的预训练分为两步。第一步制作自动匹配的图像诗歌对数据集，首先，基于现代-古典概念字典统计图像和诗歌中相同的概念，如果图像和诗歌至少具有三个相同概念则认为它们是匹配的。其次，利用现成的同义词扩展工具扩展诗歌的概念词，通过计算图像和诗歌之间在概念上的Jaccard系数，如果系数值不小于0.5，则认为两者是匹配的。第二步，基于自动匹配的图像诗歌对数据集，采样交叉熵损失训练生成器。判别器预训练也分为两步，第一步按照间接跨模态特征对齐方法，将真实诗歌输入到判别器得到跨模态特征，再由生成器创作诗歌，采用交叉熵损失训练判别器。第二步，从高斯分布中随机采样伪图像特征，以对抗性目标训练判别器。

与现有的技术相比，本发明的有益效果是：

1.本发明的方法基于强化学习设计的古典概念词奖励机制在和跨模态特征对齐方法有效的消除了对图像诗歌对数据集的依赖，模型以无监督的端到端方式训练。

2.本发明的方法基于对比学习设计的多样化奖励机制提高了模型在表达多样性方面的表现，可以从图像中创作出多首不同的诗歌。

3.本发明的方法能够应用于对话系统中，用特定领域下图像和文本的数据集训练模型。在实际对话场景中，模型根据用户给定的图像，创作符合图像内容的诗歌，满足用户需求。

附图说明

图1为本发明中基于生成式对抗网络的图像语义理解及文本生成框架图。

图2为本发明中图像和文本跨模态对齐机制的结构图。

图3为本发明中文本多样化奖励机制的结构图。

图4为本发明中的图像语义理解及文本生成模型，在图像和文本一致性方面的可视化结果图。

图5为本发明中的图像语义理解及文本生成模型，在文本多样性方面的可视化结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

以下结合附图和及具体实施方式对本发明做进一步的阐述。

图1为基于生成式对抗网络的图像语义理解及文本生成框架图。如图1所示，图像原特征由Faster-RCNN提取并经过图像转换器映射到图像空间得到图像特征。诗歌编码器是双向LSTM，对字符进行编码并输出隐藏状态，这组隐藏状态被句子转换器映射到句子空间得到句子特征，此外还被解码器的注意力机制所使用以获得上下文向量。诗歌的第一个跨模态特征由从高斯分布中采样的潜在代码和图像特征拼接而成，接下来的跨模态特征由上一个句子的特征和图像特征拼接而成。跨模态特征将作为解码器的初始输入，并结合注意力机制，由LSTM解码出一组隐藏状态并经过线性层映射到词汇表，再通过采样函数生成下一个句子。生成的句子被输入到判别器，由LSTM编码后输出隐藏状态，再经过线性层和激活函数得到预测的真实性概率。重构的跨模态特征由判别器LSTM的最后一个隐藏状态经过线性层映射得到。

图2为图像和文本跨模态对齐机制的结构图。如图2所示，跨模态空间中的特征对齐方法有两种：跨模态特征的直接对齐和跨模态特征的间接对齐。均方误差衡量跨模态特征和重建的跨模态特征，交叉熵损失衡量真实诗歌和生成诗歌。

图3为文本多样化奖励机制的结构图。如图3所示，先从高斯分布中采样一个标准潜在代码，接着以小超球的半径为分界采样一个正潜在代码、一个负潜在代码，并根据这组潜码和图像生成诗歌。判别器重构了诗歌的跨模态特征，由生成器的对比奖励来控制特征在跨模态空间中的距离，以强化通过潜在代码来控制诗歌的多样性。

图4为本发明中的图像语义理解及文本生成模型，在图像和文本一致性方面的可视化结果图。如图4所示，这些例子说明本发明中的图像语义理解及文本生成模型是可以生成准确描述图像语义内容的诗歌，诗歌在语言流畅性和连贯性方面具有良好的表现。消融模型中对设计的图像和文本跨模态对齐机制或文本多样化奖励机制进行去除，导致图像和诗歌在语义一致性方面出现退化。对比模型中的九歌和乐府生成的诗歌，其优点是诗歌在流畅性和意义方面表现好，缺点是与图像语义一致性较弱。

图5为本发明中的图像语义理解及文本生成模型，在文本多样性方面的可视化结果图。如图5所示，在相同的诗歌超参数(长度、格律和押韵)的限制下，模型创作的多首诗歌都准确的描述了图像的内容，并且在语言表达方面灵活多变。图中每张图像的顶部显示了诗歌的格律，其中“P”和“Z”分别表示平声和仄声。诗歌中的押韵字符以斜体显示。

最后，本发明的上述示例的细节仅为解释说明本发明所做的举例，对于本领域技术人员，对上述实施例的任何修改、改进和替换等，均应包含在本发明权利要求的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于细粒度视觉信息控制网络的图像语义理解及文本生成 [P] . 中国专利： CN114972848A . 2022-08-30
2. 短文本语义理解模板生成方法、语义理解处理方法及装置 [P] . 中国专利： CN112395885A . 2021-02-23
3. Text generation method based on semantic expression, text generating apparatus based on semantic representation, electronic apparatus, non-temporary computer readable storage medium, and computer program [P] . 日本专利： JP2021117985A . 2021-08-10

机译：基于语义表达的文本生成方法，基于语义表示，电子设备，非临时计算机可读存储介质和计算机程序的文本生成装置
4. Generating game environments from unstructured textual corpus for reinforcement learning [P] . 美国专利： US11275899B2 . 2022-03-15

机译：基于非结构化文本语料库的强化学习游戏环境生成
5. (54) Title: A CONTENT BASED APPROACH TO EXTENDING THE FORM AND FUNCTION OF A BUSINESS INTELLI¬GENCE SYSTEM (57) Abstract: A business intelligence (BI) system includes the ability to extend its functionality outside of the project life cycle by means of specific content. Complex multidimensional queries are interpreted as trees of atomic sub-expressions that are com¬bined in a parse-tree-like structure to form the overall query. Each sub tree is valid in isolation when provided with the proper context. Any sub tree can be an expression template, stored as application content, which at generation time uses simple text sub¬stitution with instance specific parameters to produce multidimensional expression syntax. The system includes a sophisticated type system and semantic layer that hides the user from the complexities inherent in working with OLAP databases. A business in¬telligence expert can provide type and semantic cues for each expression template, held as content. [P] . IN2012CN02100A . 2012-11-02

机译：（54）标题：一种扩展商务智能系统的形式和功能的基于内容的方法（57）摘要：商务智能（BI）系统具有通过以下方式将其功能扩展到项目生命周期之外的能力：具体内容。复杂的多维查询被解释为原子子表达式的树，这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板，该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层，使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。