首页> 中国专利> 一种智能数字报自动摘要与语音交互聊新闻方法及系统

一种智能数字报自动摘要与语音交互聊新闻方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开的智能数字报自动摘要与语音交互聊新闻方法及系统，采用自注意力层组建神经网络用于文本智能摘要生成方法，系统包含：算法、调度、唤醒、搜索、语音识别、合成、聊天新闻技术，尤其是关于智能摘要、聊天新闻，实现对海量新闻智能高效提炼总结文本的主旨，简练易读，个性化新闻推荐，话题识别与跟踪。实时拾音、超声滤除，注意力神经网络解决传统文本的高维度，数据稀疏及缺乏语义方法，在语音输出中，赋予“精选、能听、会说、懂你、会答”式的智能人机交互体验。

著录项

公开/公告号CN112562669A

专利类型发明专利
公开/公告日2021-03-26

原文格式PDF
申请/专利权人浙江方正印务有限公司;
展开▼

申请/专利号CN202011389092.9
发明设计人庄跃辉;程雨夏;
展开▼

申请日2020-12-01
分类号G10L15/22(20060101);G10L15/26(20060101);G10L15/18(20130101);G10L15/16(20060101);G10L15/06(20130101);G10L25/54(20130101);G10L25/30(20130101);G10L13/04(20130101);G10L13/047(20130101);G10L13/08(20130101);G06F16/332(20190101);G06F16/34(20190101);G06F40/289(20200101);G06F40/30(20200101);G06F40/211(20200101);G06F40/216(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N5/04(20060101);
代理机构11616 北京盛凡智荣知识产权代理有限公司;
代理人孙娜
地址 321000 浙江省金华市婺城区八一北街118号汇金国际商务中心2502室
入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明属于智能新闻处理摘要自动生成技术、自然语言处理技术及语音交互聊新闻领域，尤其涉及一种基于语义相关性的智能新闻摘要自动生成方法、语音交互的处理方法及系统。

背景技术

报纸是传播领域中最古老的手段之一，千百年来，报纸为人类文明的进步做出了杰出的贡献。新闻信息作为新闻读者获取社会信息资源的重要渠道，大数据时代人们获取社会有效信息的重要手段，如何从这巨大的信息海洋中获得快速获取我们所需要的信息变得至关重要。智能新闻摘要是指从源数字报文本中经过提炼总结得到的一个或一段语句，充分反映出文本的主旨，并且简练易读。智能新闻摘要是指使用计算机来自动生成文本摘要的技术，使用计算机科学技术和自然语言处理技术从原始数字报文本中提取，再将数字报摘要按照用户需求的形式重新呈现给读者。

智能新闻摘要以新闻文本词向量为输入，通过注意力神经网络对新闻文本特征进行自动学习和提取，从而避免传统新闻文本分类方法人工参与特征提取的费时费力及误差累积的缺点，该方法有效的提高新闻文本分类的效率，促进新闻领域实现更加有效的信息组织和管理。

现有的语音交互采用在知识库中预设问题及相应的答案，系统获取到读者的语音信息后，通过相应的算法转写为文本，将文本信息送入后台系统，到知识库中寻找对应的答案返回给读者；在实际使用中，由于采用关键词、正则表达式、深度学习模型等单一算法，计算出来的结果，答案不够精准，导致回答错误，效果不佳；由于预设定的答案一般为单一结果，对于读者多问题多意图等信息的解答效果不佳，由于预设的问题及对应的答案单一，设计的流程没有轮询上下文及历史数据关联机制，导致与读者交流过程中机械痕迹明显，交互不流畅，体验不佳，不同的资讯内容或者同一类资讯不同阶段，采取同一种语音合成交互技术，无法做到个性化应对，导致实际使用效果打折。

在新媒体环境下，数字报刊阅读上，又有新的要求能否赋予数字报刊“能听、会说、懂你、会答”式的智能人机交互体验，用语音识别技术，人工智能理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

第一代数字报刊系统提供的是整个报纸的全貌，除了不能有纸张的触摸感，阅读的过程体验和传统报纸高度契合，对于数字报纸，提供原汁原味的报纸阅读效果。对拥有内容优势的报纸媒体而言，应当及时看到智能语音交互能给信息传播带来的革命性影响。从针对语音交互硬件的内容分发到技术赋能内容生产，智能语音交互技术与媒体天然存在多层级的合作可能，技术应用前景广阔。

发明内容

本发明的目的在于克服现有技术的不足，提出了的一种报业“能听、会说、懂你、会答”，将所述文本扫描釆集文本特征，多语义原始文本转换成为一个由多个词向量组成的词向量序列，Attention自注意力的神经网络架构，设置标题、开头、结尾的句子规则权重，预训练加微调度、并行计算、语义的文本摘要方法生成训练集；

深度学习方法，语音交互，学习得到新闻文本的稠密的文档量化处理doc2vec词向量表示，从而解决传统文本表示的高维度，数据稀疏及缺乏语义，断句等问题，以新闻文本词向量为输入，通过注意力神经网络对新闻文本特征进行自动学习和提取，从而避免传统新闻文本分类方法人工参与特征提取的费时费力及误差累积的缺点。能实时拾音，使得在语音输出的过程中，准确获得外部的有效语音，是语音交互过程更加智能化，智能人机交互体验。

本发明是通过以下技术方案达到上述目的：

一种智能数字报自动摘要与语音交互聊新闻方法及系统，包括如下步骤：所述步骤S1包括：

S11根据设定规则，新闻的标题对新闻正文具有极强的概括作用，某些重大新闻的标题就直接反映了新闻文本的中心思想，进行句子权重计算结合标题的相似性会产生更好的效果，让权重值参考标题和句子相似度进行加权；

在计算句子权重首先是标题，随后侧重段落首句和首段落，但是在新闻报道中首句有可能会是“某某记者报道”、“XX网X月X日讯”、“XX社北京X月X日电”等不对新闻内容有影响的新闻文体首句，所以在处理时首先将这一类新闻文体首句过滤。在进行智能新闻摘要是不会考虑纳入疑问句、感叹句之类句式。计算句子相似度并过滤多余句子；

在汉语表达的文本中，句子的特征：词特征、语义特征、句法特征。在语句相似度计算时，综合考虑以上的这三类特征，让它们进行有机的加权组合和互相补充；

汉语文本的句子可分为核心部分和修饰部分，核心部分为是那些能够句子的语义起至关重要的作用，主谓宾结构，而修饰部分则表现为次要，通常表现为定状补结构。由于主谓宾结构中的主语和宾语往往为名词或代词，谓语则多为副词或形容词，而因此在进行句子相似度计算时，应当对句子中出现的各类词语进行词性标注，然后保留关键词，过滤掉非关键词；

S12分词策略引擎内置有对分词处理的序列标注模型与深度学习算法；所述知识模型算法解析基于字符串匹配进行打分；所述深度学习模型算法解析，基于深度学习算法K-means、LDA算法、迭代决策树、TextCNN、TextRNN注意力模型进行打分；所述相似度辅助模型算法解析，基于词距离计算、协方差运算、词向量运算、稳定计算进行打分；所述分数包含所述知识模型、所述深度学习模型、所述相似度辅助模型中，任一个或多个模型的打分分数；

S13对于多问题，多意图等复杂回答的处理，调度将在文本再送至问题计算模型前，进行初步预处理，通过多意图拆分计算模型，将具有多种意图的问题分解为多份，实现多种算法整合调度，然后再送至问题计算模型得到多个答案后，生成的文摘就表达了原文要表达的核心意义，将答案结果整合后反馈给读者；

计算模型doc2vec的过程,有两步：训练模型，在已知的训练数据中得到词向量,softmax的参数和,以及段落向量/句向量；

推断过程(inference stage)，对于新的段落，得到其向量表达。具体地，在矩阵中添加更多的列，在固定的情况下，利用上述方法进行训练，使用梯度下降的方法得到新的D,从而得到新段落的向量表达；

计算模型实现多种算法整合调度，从三个方面来解决传统算法在短文本分类问题上的不足。首先是改进单层神经网络的结构，对比现有的LSTM(Long-Short-Term-Memory)。GRU(Gated Recurrent Unit)等循环神经网络结构单元我们找到了适合短文本分类任务的结构单元，改进循环神经网络结构的输出。传统方法仅仅将最后一层的输出作为短文本的语义表示，本发明采用注意力神经网络中的思想对循环神经网络的前向和后向输出进行融合，从而得到更好的短文本表示；其次，优化神经网络的输入和中间参数，结合词向量和自动编码机，分别对输入变量和网络结构做预训练，对比试验表明该预训练过程更有利于神经网络中的参数收敛，从而得到更好的分类效果；最后，本发明引入一种改进的多层神经网络融合方法用于短文本分类，传统的深度神经网络只是简单地将单层神经网络的输出作为输入，一层一层叠加起来，借助LSTM中门限的思想，改进多层循环神经网络中层与层之间的联系，进一步优化短文本的语义表示，实验结果表明，改进后的多层神经网络分类效果要优于单层神经网络的分类效果，极大地方便人们对信息的管理和存储，文本经语言合成、自然语言理解、实现多种算法整合调度，生成摘要训练集；

S3所述智能语音交互唤醒模式(唤醒词“小新”)：所述智能语音交互包括：语音获取，所述语音获取用于实时获取声音信息，语音预处理，所述语音预处理与所述语音获取连接，所述语音预处理用于获取所述声音信息，并对所述声音信息进行超声滤除，得到“能听、会说、懂你、会答”式的智能语音；

所述智能语音交互聊新闻，具有唤醒模式和非唤醒模式两种状态；该智能语音交互聊新闻包括：

语音获取，所述语音获取，用于实时获取声音信息；

语音预处理，所述语音预处理与所述语音获取连接，所述语音预处理，用于获取所述声音的信息，并对所述声音信息进行超声滤除，得到目标语音；并在非唤醒模式下判断所述目标语音是否为设定的唤醒词，如果是，进入唤醒模式，如果否，保持非唤醒模式；

语音识别，所述语音识别，用于在唤醒模式下识别所有目标语音，获得目标内容；

搜索，所述搜索分别与所述语音识别、预存储有应答语句的存储连接，所述搜索用于在唤醒模式下，根据所述目标内容，从所述存储中，或根据所述目标内容；

输出，所述输出与所述搜索连接，所述输出用于在唤醒模式下获取所述应答内容，并将所述应答内容输出；

所述智能语音交互聊新闻，在设定时间内无内容输出，且无声音信息被获取时，进入非唤醒模式。

如上所述的基于深度学习的智能语音交互聊新闻，其中，可选的是，还包括模式控制，所述模式控制分别与所述语音预处理、所述语音识别、所述语音预处理和所述输出电连接；

所述模式控制用于获取模式信息，并将当前模式信息分别发送给所述语音预处理、所述语音识别、所述搜索和所述输出；

在非唤醒模式下，所述模式控制根据所述语音预处理，对于所述目标语音是否为设定的唤醒词的判断结果，并在所述目标语音是为设定唤醒词的情况下，生成唤醒状态标识，并将该唤醒状态标识分别输出给所述语音预处理、所述语音识别、所述搜索和所述输出；

在唤醒模式下，所述模式控制获取所述应答内容输出完毕的时间节点，并实时监控所述语音预处理是否取得目标内容；如在设定时间内，为获取目标内容，则生成非唤醒状态标识，并将该非唤醒状态标识分别输出给所述语音预处理、所述语音识别、所述搜索和所述输出；

该方法S3具体如下：

S31在唤醒模式下实时拾音，能够使得在语音输出过程中，能准确获得外部有效语音；

S32多意图判断处理、多模型算法解析、数据策略引擎、整合处理；多模型算法解析模块、数据策略引擎模块、整合处理模块。即短文本的多意图识别是口语理解(SLU)中的难题，因短文本的特征稀疏、字数少但包含信息量大，在分类问题中难以提取其有效特征。为解决该问题,将句法特征和自注意力神经网络(CNN)进行结合，提出一种多意图识别模型。首先，将句子进行依存句法分析以确定是否包含多意图；然后，利用词频-逆文档频率(TF-IDF)和训练好的词向量计算距离矩阵，以确定意图的个数；其次，把该距离矩阵作为CNN模型的输入，进行意图分类；

进一步地，所述S32是结合语义扩展和CNN的方法，对新闻数据集进行分类，首先提取标题中的信息，然后利用CNN进行语义扩展；

进一步地，所述S32多意图判断处理模块、所述多模型算法解析模块、所述数据策略引擎模块、所述整合处理模块分别与所述语言处理模块连接进行数据传输；

多意图判断处理用于分析读者的对话文本是否有多意图，所述多意图判断处理连接有分词策略引擎，所述多意图判断处理用于接收所述文本，并通过所述分词策略引擎进行初过滤，进行读者的多意图判断，并反馈至所述调度；所述调度获取所述多意图判断处理反馈的数据后，根据所述文本中的问题数据进行选择，调用所述多模型算法解析的方式，获取所述多模型算法解析生成的分数，所述调度获取所述分数后，调用所述整合处理，根据所述分数进行权重筛选，得出计算结果数据并传输至所述数据策略引擎，所述数据策略引擎处理所述计算结果生成所述解析，所述多模型算法解析内置有知识模型算法解释、深度学习模型算法解释、相似度辅助模型算法解析。

智能语音交互聊新闻，在设定时间内无内容输出，进入非唤醒模式；

一种智能数字报自动摘要与语音交互聊新闻方法及系统，所述系统包括：

Doc2Vec或者叫做paragraph2vec,sentence embeddings，是一种非监督式算法，可以获得sentences/paragraphs/documents的向量表达，是word2vec的拓展。向量通过计算距离来找sentences/paragraphs/documents之间的相似性，用于文本聚类，对于有标签的数据，还可以用监督学习的方法进行文本分类；

自动语音识别模块：(ASR)为Automatic Speech Recognition，用于语音自动语音识别；

口语理解模块：(SLU)为Spoken Language Understanding，用于语音自动语音识别；

对话管理模块：(DM)为Dialogue Management，用于语音自动语音识别；

语言处理模块：(NLP)为Natural control dispatching device，用于语音自动语音识别；

语音合成模块：(TTS)为Text To Speech，从文本到语音；

多意图判断处理模块：为(MIM)为Multi-intention judgment processingmodule，用于语音自动语音识别；

多模型算法解析模块：为(MAM)Multi-model algorithm analysis module；

数据策略引擎模块：(DSM)为Data strategy engine module；

分词策略引擎：(SSE)为Segmentation strategy engine；

整合处理模块：(DI)为Data intergration；

进一步地，所述一种智能数字报自动摘要与语音交互聊新闻方法及系统采用Attention注意力的神经网络架构，设置标题、开头、结尾的句子规则权重，预训练加微调度、并行计算、语义的文本摘要方法生成训练集；学习模块ASR是将读者说出的话转化为文本，SLU是理解读者的意图并抽取文本中的关键信息，DM是对机器和读者的对话进行管理，TTS是将机器生成的文本用语音返回给读者，机器对于语义理解的准确率依赖于ASR准确率，但最重要的还是依赖于SLU的准确率；

综上，本发明的一种智能数字报自动摘要与语音交互聊新闻方法及系统，采用Attention最初生成每个词的初始表征或嵌入，由空心圆表示。使用自注意力机制从其他单词处聚合信息，根据设置标题、开头、结尾的句子规则权重，上下文的每一个单词生成新的表征，由实心圆表示。之后，这一步并行重复多次，连续生成所有单词的新表征。预处理、策略流程、语音合成、语音识别、语言处理、调度组合的体系，实现多种算法整合调度，根据设定规则，调度多种算法模型计算并综合计算结果得出最优解，以解决单一算法模型的盲点计算的局限性，达到互补的效果；还有通过将语音获取实时获取声音信息，使得交互无论在唤醒模式还是非唤醒模式，均能够识别相应的有效语音信息。而在唤醒模式下，在交互聊新闻的过程中，不需要读者在每句话前都增加特定的唤醒词，从而能够使交互聊新闻过程更加的自由和随意，从而提高了交互聊新闻的智能化。另外，由于语音获取实时获取声音信息，即便是交互聊新闻正在语音输出过程中，也能够准确识别有效语音信息，从而允许交互聊新闻在输出语音的过程中，可以被打断，使得交流更加的高效和顺畅。

本发明在原有智能语音交互领域技术水平的基础上，做了进一步架构设计优化以及内容精细化的延伸，通过将语音获取模块实时获取声音信息，使得交互语音无论在“唤醒模式”还是“非唤醒模式”，均能够识别相应的有效语音信息。而在唤醒模式下，在交互过程中，不需要读者在每句话前都增加特定的唤醒词，从而能够使交互过程中更加的自由和随意，从而提高了交互语音的智能化。另外，由于语音获取模块实时获取声音的信息，即便是交互语音正在语音输出的过程中，也能够准确识别有效语音信息，从而允许交互语音在输出语音的过程中，可以被打断，使得交流更加的高效和畅通，并使得特定场景可定制化处理，更好的解决了多意图的复杂场景，并结合历史、当前数据、通过多样化的方式。在注意力模块主要包含两部分，第一部分为通道注意力向量矩阵M

F'＝M

F"＝M

在自注意力神经网络中，通道信息一般代表着文档量化处理doc2vec词向量不同的特征信息，通过对通道进行选择使网络更能注意到doc2vec词向量中对任务有用的信息。为实现对通道的选择，计算特征doc2vec词向量的全局平均池化及全局最大池化信息，通过全连接层后相加来得到通道注意力参数，其中两者共用相同的全连接网络。

通过分别对各通道的特征识别的文字序列的每个坐标进行全局最大及平均池化特征向量矩阵，然后对特征向量矩阵进行自注意力得到空间注意向量矩阵。

解决了对数字电子报自动摘录、多语义的自动摘要处理、语音识别与交互、语音聊新闻。

本申请的智能数字报自动摘要与语音交互聊新闻方法及系统，采用自注意力层组建神经网络用于文本智能摘要生成方法，系统包含：算法、调度、唤醒、搜索、语音识别、合成、聊天新闻技术，尤其是关于智能摘要、聊天新闻，实现对海量新闻智能高效提炼总结文本的主旨，简练易读，个性化新闻推荐，话题识别与跟踪。实时拾音、超声滤除，注意力神经网络解决传统文本的高维度，数据稀疏及缺乏语义方法，在语音输出中，赋予“精选、能听、会说、懂你、会答”式的智能人机交互体验。

附图说明

图1是本发明的一种智能数字报自动摘要与语音交互聊新闻方法及系统的流程示意图；

图2为本发明S1结构图；

图3为本发明S2流程图；

图4为本发明S3实施流程图；

图5编码器-解码器结构:(a)传统结构(b)加入注意力机制的模型的结构；

图6为本发明语言识别系统基本原理流程示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本实施例的实际应用中，以下对至少一个示例性的描述实际上仅仅是说明性的，决不作为对本发明及其应用或者使用的任何限制。

对于相关领域普通技术人员已知的技术，方法和设备可能不做详细讨论，但在适用情况下，所述技术、方法应当被视为说明书的一部分。

在这里示出和讨论的所有方法中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，方法实施例的其他例子可以具有不同的值。

应注意到：相似的符号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后附图中不需要对其进行进一步讨论。如图1至图6所示，通过以下参照附图对本发明的详细描述，本发明的其他特征及其优点将会变得清楚。被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其他说明一起用于解释本发明的原理。

S1获取数字报文本；将所述文本扫描釆集文本特征，多语义原始文本转换成为一个由多个词向量组成的词向量序列，Attention自注意力的神经网络架构，设置标题、开头、结尾的句子规则权重，预训练加微调度、并行计算、语义的文本摘要方法生成训练集；

S2通过所述获取数字报文本标题、开头、结尾的句子规则权重，集中所要识别的文字序列、文本词减少背景信息带来的影响，使识别能力不易受其他干扰的影响，通过Attention自注意力神经网络模型，向量矩阵特征的通道设计注意力的自注意力模块，对计算交叉熵作为模型损失函数，最大池化得到的信息通道和空间的选择。新闻文本的稠密的文档量化处理doc2vec词向量表示，从而解决传统文本表示的高维度，数据稀疏及缺乏语义，断句等问题，以新闻文本词向量为输入，注意力神经网络对新闻文本特征进行自动学习和提取，从而避免传统新闻文本分类方法人工参与特征提取的费时费力及误差累积的缺点。使模型能够把“注意力”放在更有用的信息上，该模块应用各种自注意力神经网络架构，提出CBAM模块的注意力能力得到最终的摘要结果。

能实时拾音，使得在语音输出的过程中，准确获得外部的有效语音，是语音交互过程更加智能化，智能人机交互体验。

S3根据文本所述智能语音交互唤醒模式唤醒词“小新”，得到“能听、会说、懂你、会答”式的智能语音输入口。

进一步地，S1包括：S11根据设定规则，新闻的标题对新闻正文具有极强的概括作用，某些重大新闻的标题就直接反映了新闻文本的中心思想，进行句子权重计算结合标题的相似性会产生更好的效果，让权重值参考标题和句子相似度进行加权；

S13对于多问题，多意图等复杂回答的处理，调度将在文本再送至问题计算模型前，进行初步预处理，通过多意图拆分计算模型，将具有多种意图的问题分解为多份，实现多种算法整合调度，然后再送至问题计算模型得到多个答案后，生成的文摘就表达了原文要表达的核心意义，将答案结果整合后反馈给读者本发明提供的一种智能数字报自动摘要与语音交互聊新闻方法及系统所述系统包括：

采用注意力的分类、使用注意力的关键神经网络架构，注意力神经网络训练，将文本元素映射成固定长度的向量，且向量间的距离能够刻画文本元素间语义的相关性，克服了one-hot向量维数太高且不能刻画文本元素间联系的缺陷。在文本分布式表示的基础上设计了新的文本分类算法与多文档自动摘要算法，针对文本向量模型结构维数庞大与极其稀疏等问题，将词语的分布式表示与文本向量模型表示方法结合，设计了文本的概念有词向量模型。将文本中的词语映射为词向量，通过词向量聚类将语义相关性较高的词语聚为概念，然后按照词语的顺序关系构建概念有向量模型，将文本的概念有向量模型对应的邻接矩阵保存为向量序列，将自然语音处理任务转变为向量序列处理任务，实现从文本到向量序列的映射，设计了多层自注意力神经网络。对文本向量序列进行分类，将分类结果与其它文本分类算法作比较，结果表明本发明提出的算法好于其它三种文本分类算法，针对国内多文档自动摘要常出现缺乏摘要句消冗的问题。将句子的分布式表示与谱聚类算法结合，设计了基于注意力算法、谱聚类的多文档自动摘要算法，将文本中的句子映射为句向量，利用谱聚类算法对句向量聚类，将文档划分为各个子主题文档。在各个子主题文档中建立句关系向量序列模型，利用Attention算法迭代句子权重。

进一步地，S3包括：

S31在唤醒模式下实时拾音，能够使得在语音输出过程中，能准确获得外部有效语音；

所述S32是结合语义扩展和CNN的方法，对新闻数据集进行分类，首先提取标题中的信息，然后利用CNN进行语义扩展；

所述S32多意图判断处理模块、所述多模型算法解析模块、所述数据策略引擎模块、所述整合处理模块分别与所述语言处理模块连接进行数据传输；

S33多意图判断处理用于分析读者的对话文本是否有多意图，所述多意图判断处理连接有分词策略引擎，所述多意图判断处理用于接收所述文本，并通过所述分词策略引擎进行初过滤，进行读者的多意图判断，并反馈至所述调度；所述调度获取所述多意图判断处理反馈的数据后，根据所述文本中的问题数据进行选择，调用所述多模型算法解析的方式，获取所述多模型算法解析生成的分数，所述调度获取所述分数后，调用所述整合处理，根据所述分数进行权重筛选，得出计算结果数据并传输至所述数据策略引擎，所述数据策略引擎处理所述计算结果生成所述解析，所述多模型算法解析内置有知识模型算法解释、深度学习模型算法解释、相似度辅助模型算法解析。

(1)本发明涉及自动摘要报刊数字报系统技术，注意力的分类、使用注意力的神经网络架构，以注意力算法在文本和总结任务中，只有输入序列的某些单词与我们的下一个预测输出值有关；在标注任务中，某些局部信息与下一个标注单词联系更为密切。注意力机制将这种相关系进行了整合，允许模型动态地去关注输入的特定部分从而更为有效地完成手头的任务。

在本发明神经网络结构中加入注意力模型：是注意力模型在众多的任务中取得了非常好的性能，比方说问答、情感分析、词性标注文本分析，注意力机制增加了神经网络结构的可解释性。由于传统的神经网络是一个黑盒模型，因此提高其可解释性对机器学习模型的公平性、可靠性和透明性的提高至关重要。第三，其能够帮助缓解递归神经网络中的一些缺陷，比方说随着输入序列长度的增加导致的性能下降和对输入的顺序处理所导致的计算效率低下。

传统编码-解码结构，这一编码-解码结构有两个主要的缺陷。首先便是编码器必须将所有的输入信息压缩成固定长度的向量。使用这种简单的定长编码来表示更长和更复杂的输入往往会造成输入信息的丢失。其次，这样的结构不能对输入序列和输出序列的对应关系进行建模，而这种对应在文本摘要任务中十分重要。直观上来说，在序列任务中，输出序列的每个位置可能会受到输入序列的特定位置的影响。然而，经典的解码结构在产生输出时并不会考虑这种对应关系。

注意力模型通过允许解码器访问所有编码器产生的输出，来克服传统结构的上述两大缺点。其核心思想是对编码器的所有输出进行加权组合后输入到当前位置的解码器中来影响解码器的输出。通过对编码器的输出进行加权，在实现输入与输出的对齐的同事还能够利用更多的原始数据的上下文信息。对于文本分类和推荐任务，其输入是一个序列而输出不是一个序列。在这种场景下，注意力机制可以用来捕捉输入序列中的每个单元(比如每个单词)和该输入序列中的其他单元之间的联系。在这种情形下，注意力模型的候选状态和查询状态为同一个序列，我们将基于这种机制的注意力模型称为自注意力模型。

注意力权重是仅仅是由注意力模型的原始的输入序列算出来的，这一注意力模型可被称为单层注意力模型。另一方面，我们可对输入序列进行多次抽象，这样可以使得底层抽象的上下文向量成为下一次抽象的查询状态。这种对输入数据叠加若干层注意力模块实现对序列数据多层抽象的方法可被称为多层注意力模型。更具体地来说，多层注意力模型又可按照模型的权重是自顶向下学习还是自底向上学习的方式进行划分。多层注意力机制的一个典型应用是通过对文本进行两层抽象实现对文本的分类。这一模型称为“层次和注意力模型(Hierarchical Attention Model,HAM)”。由不同的句子组合而成的，而每个句子又包含不同的单词，HAM能够对文章这种自然的层次化结构进行抽取。具体来说，其首先对每个句子建立一个注意力模型，该注意力模型的输入是每个句子中的基本单词，从而得到这个句子的特征表示；然后将句子的特征的表示输入到后续的注意力模型中来构建整段文本的特征表示。这一最后得到的整段文本的特征表示可以用于后面分类任务分类器的输入。机器翻译中的一个关键问题是如何用神经网络技术对注意力进行建模可以使不同语言的句子更好地对齐。在翻译较长的句子时，注意力模型的优势也变得更加明显。通过将注意力机制引入问答，可以帮助模型通过注意更为重要的部分来理解问题，同时存储的大量信息也能够帮助问答聊新闻找到合适的答案。此外通过协注意力模型对问答任务中的多模态数据进行建模也能够给提升系统的性能。多媒体数据描述的任务场景是为多媒体输入序列生成一段自然语言形式的描述，其中的多媒体输入序列可以是语音、图像和视频。与问答聊新闻类似，这里的注意力在语音或图像输入的相关部分寻找相关的声学信号，预测标题中的下一个单词。此外还可以利用多媒体数据比如视频数据的时空结构结合多层注意力机制来完成为视频取标题的任务。其中较低的层次用来捕捉视频帧中的特定区域，较高层次则用来抽取众多视频帧中的一个小子集。

(2)让机器能听懂人说的话并按照人的意图去执行相应任务，是一门涉及到信号处理，神经心理学，人工智能，计算机，语言学，通信等学科的涉及面非常宽的交叉学科。智能语音交互技术是一项系统性工程，大致涉及语音识别、自然语言理解、对话管理、自然语言生成、语音合成等技术及综合运用。其中自然语言理解、对话管理、自然语言生成的流程又被称为智能对话系统，是整个智能语音交互过程的核心技术难点。我们借助大数据深度学习等人工智能技术后，通过如下步骤：①对语音信号进行分析和处理，除去冗余信息。②提取影响语音识别的关键信息和表达语言含义的特征信息。③紧扣特征信息，用最小单元识别字词。④按照不同语言的各自语法，依照先后次序识别字词。⑤把前后意思当作辅助识别条件，有利于分析和识别。⑥按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。⑦结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。语音交互技术初步实现了从规则指令到自然语言指令的进步，机器学习的“闲聊机器人”进入试用阶段。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种智能数字报自动摘要与语音交互聊新闻方法及系统 [P] . 中国专利： CN112562669A . 2021-03-26
2. 一种智能网联终端智能语音交互系统自动化测试方法 [P] . 中国专利： CN111933108A . 2020-11-13
3. automated music composition and generation system, automated music composition and generation process, automated music composition and generation, toy musical instrument, music accompaniment and music composition toy instrument, automated composition toy instrument system and music generation, electronic information processing and display system, enterprise-class internet-based music composition and generation system, network system for automatically generating and delivering digital composite music, stand-alone music-based music composition and performance system artificial intelligence for use in a music environment, autonomous composition process music generation and performance based on artificial intelligence, autonomous analysis instrument system, network for setting up an automated music composition and generation engine, geometry method music theory system operational parameter mapping, method of composing and generating digital music in an automated manner, parameter transform [P] . BR112018006194A2 . 2018-10-09

机译：自动化音乐创作和生成系统，自动化音乐创作和生成过程，自动化音乐创作和生成，玩具乐器，音乐伴奏和音乐创作玩具乐器，自动化创作玩具乐器系统和音乐生成，电子信息处理和显示系统，企业基于互联网的一流音乐创作和生成系统，用于自动生成和传送数字复合音乐的网络系统，用于音乐环境的基于独立音乐的音乐创作和表演系统人工智能，基于音乐的自主创作过程音乐的生成和表演人工智能，自主分析仪器系统，用于建立自动音乐创作和生成引擎的网络，几何方法音乐理论系统操作参数映射，以自动方式构成和生成数字音乐的方法，参数转换
4. DETECTING PRESENCES INSIDE VEHICLES OF PASSENGERS USING SMART PERSONAL COMMUNICATION DEVICES, IN PARTICULAR SMARTPHONES, WITH REGARD TO A METHOD, A DIGITAL TOOL, THE DEVICE, A GATEWAY AND A BIBO-SYSTEM USED THEREFORE [P] . 欧洲知识产权局专利： EP3335441B1 . 2019-05-29

机译：使用智能个人通信设备（特别是智能手机），通过一种方法，一种数字工具，一种设备，一种网关和一种双向系统来检测乘客的车内姿势
5. DETECTING PRESENCES INSIDE VEHICLES OF PASSENGERS USING SMART PERSONAL COMMUNICATION DEVICES, IN PARTICULAR SMARTPHONES, WITH REGARD TO A METHOD, A DIGITAL TOOL, THE DEVICE, A GATEWAY AND A BIBO-SYSTEM USED THEREFORE [P] . 欧洲知识产权局专利： EP3335441A1 . 2018-06-20

机译：使用智能个人通信设备（特别是智能手机），通过一种方法，一种数字工具，一种设备，一种网关和一种双向系统来检测乘客的车内姿势