首页> 中国专利> 在训练神经网络中作为正则化器的冻结

在训练神经网络中作为正则化器的冻结

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明题为在训练神经网络中作为正则化器的冻结。本发明提出了促进在训练神经网络中作为正则化器的冻结的系统和技术。系统可包括存储器和执行计算机可执行组件的处理器。该计算机可执行组件可包括：评估组件，该评估组件识别神经网络的单元；选择组件，该选择组件选择神经网络的单元的子集；和冻结组件，该冻结组件冻结神经网络的单元的选定子集，使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重。

著录项

公开/公告号CN113177639A

专利类型发明专利
公开/公告日2021-07-27

原文格式PDF
申请/专利权人通用电气精准医疗有限责任公司;
展开▼

申请/专利号CN202011640152.X
发明设计人谭涛;张敏;戈帕尔·比利杰里·阿维纳什;莱海尔·费伦齐;列文特·伊姆雷·特罗克;帕尔·泰格泽什;
展开▼

申请日2020-12-31
分类号G06N3/08(20060101);
代理机构31100 上海专利商标事务所有限公司;
代理人钱慰民;张鑫
地址美国威斯康星州
入库时间 2023-06-19 12:00:51

说明书

技术领域

本公开整体涉及神经网络，并且更具体地讲，涉及用于训练神经网络的计算机实现的技术。

背景技术

当训练神经网络时，过度拟合是常见问题。当神经网络模型太好地学习训练数据时，在训练过程期间发生过度拟合，从而在向模型呈现新的未见数据时导致较低的性能。可通过将验证度量诸如准确度应用于新的未见数据(测试数据)和训练数据来检测过度拟合。当发生过度拟合时，针对测试数据的验证度量在特定数量的时期之后停止改善并且此后开始减少。同时，因为模型试图找到训练数据的最佳拟合，所以针对训练数据的验证度量将继续改善。与训练数据相关联的误差被驱动到非常小的值，但是在向神经网络呈现新数据时，误差很大。网络已了解训练示例，但其尚未了解推广至新情况或数据集。

正则化是指通过对学习算法进行轻微修改来解决过度拟合问题，从而使得神经网络模型能够更准确地推广至新情况或数据集的技术。这继而也改善模型对新数据的性能。

丢弃是指在训练运行(例如，一个或多个训练迭代)期间从神经网络层随机移除特定百分比的隐藏单元(连同它们的连接)的正则化技术。这防止了隐藏单元太多地依赖其他隐藏单元。然而，通过丢弃隐藏单元连同它们的连接，神经网络的架构对于适用的训练运行发生改变。因此，有必要在每次训练运行期间更新从丢弃单元到下一层或多层的单元的输出连接的权重。

发明内容

以下内容提出了本说明书的简化发明内容以便提供对本说明书的某些方面的基本理解。该发明内容不是对本说明书的详尽概述。它既不旨在标识本说明书的关键或重要元素，也不旨在描述本说明书的特定具体实施的任何范围或权利要求的任何范围。其唯一目的是以简化形式呈现本说明书的一些概念，作为稍后呈现的更详细描述的序言。

根据一个实施方案，一种系统包括评估组件、选择组件和冻结组件。该评估组件识别神经网络的单元。该选择组件选择神经网络的单元的子集。该冻结组件冻结神经网络的单元的选定子集，使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重。

根据另一个实施方案，提供了一种方法。该方法包括由可操作地耦接到处理器的设备识别神经网络的单元。该方法还包括由设备选择神经网络的单元的子集。此外，该方法包括由设备冻结神经网络的单元的选定子集，使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重。

根据又一个实施方案，提供了一种计算机可读存储设备。该计算机可读存储设备包括指令，指令响应于执行而致使包括处理器的系统执行操作，操作包括识别神经网络的单元。该处理器还执行操作，包括选择神经网络的单元的子集。该处理器还执行操作，包括冻结神经网络的单元的选定子集，使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重。

以下具体实施方式和附图阐述了本说明书的某些例示性方面。然而，这些方面仅指示了可以采用本说明书原理的各种方式中的一些方式。当结合附图考虑时，根据以下对说明书的详细描述，本说明书的其他优点和新颖特征将变得显而易见。

附图说明

图1示出了根据本文所述的一个或多个实施方案的示例性、非限制性系统的框图，该系统促进在训练神经网络中作为正则化器的冻结。

图2A至图2D分别示出了根据本文所述的一个或多个实施方案的非限制性系统的示例，该系统促进在训练神经网络中作为正则化器的冻结。

图3A至图3B分别示出了根据本文所述的一个或多个实施方案的非限制性系统的另一个示例，该系统促进在训练神经网络中作为正则化器的冻结。

图4示出了根据本文所述的一个或多个实施方案的非限制性系统的另一个示例，该系统促进在训练神经网络中作为正则化器的冻结。

图5示出了根据本文所述的一个或多个实施方案的非限制性系统的另一个示例，该系统促进在训练神经网络中作为正则化器的冻结。

图6示出了根据本文所述的一个或多个实施方案的示例性算法，该算法促进在训练神经网络中作为正则化器的冻结。

图7示出了根据本文所述的一个或多个实施方案的另一个示例性算法，该算法促进在训练神经网络中作为正则化器的冻结。

图8示出了根据本文所述的一个或多个实施方案的又另一个示例性、非限制性系统的框图，该系统促进在训练神经网络中作为正则化器的冻结。

图9示出了根据本文所述的一个或多个实施方案的用于促进在训练神经网络中作为正则化器的冻结的方法的示例的流程图。

图10示出了根据本文所述的一个或多个实施方案的用于促进在训练神经网络中作为正则化器的冻结的方法的另一个示例的流程图。

图11A至图11E分别示出了根据本文所述的一个或多个实施方案的利用在训练神经网络中作为正则化器的冻结的实验的结果。

图12A至图12E分别示出了根据本文所述的一个或多个实施方案的利用在训练神经网络中作为正则化器的冻结的附加实验的结果。

图13A至图13E分别示出了根据本文所述的一个或多个实施方案的利用在训练神经网络中作为正则化器的冻结的附加实验的结果。

图14A至图14E分别示出了根据本文所述的一个或多个实施方案的利用在训练神经网络中作为正则化器的冻结的附加实验的结果。

图15是示出合适操作环境的示意性框图。

具体实施方式

现在参考附图来描述本公开的各个方面，其中相同的附图标号始终用于表示相同的元件。在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对一个或多个方面的透彻理解。然而，应当理解，可以在没有这些具体细节的情况下，或者在有其他方法、部件、材料等的情况下实践本公开的某些方面。在其他实例中，以框图形式示出了公知的结构和设备以有助于描述一个或多个实施方案。

神经网络在诸如医学成像、机器视觉、语音识别、文档分类和计算生物学的领域中已变得无处不在。神经网络具有使得它们适合于各种问题和情况的一些优点。例如，神经网络具有学习和建模非线性和复杂关系的能力。在从初始输入和关系学习之后，神经网络也可推断关于未见数据的未见关系，从而提供对未见数据的推广和预测。神经网络可消耗大体积的输入，并对其进行处理以推断隐藏以及复杂的非线性关系。

本发明提出了促进在训练神经网络中作为正则化器的冻结的系统和技术。当训练神经网络时，过度拟合是常见问题。当神经网络模型太好地学习训练数据时，在训练过程期间发生过度拟合，从而在向模型呈现新的未见数据时导致较低的性能。可通过将验证度量诸如准确度应用于新的未见数据(测试数据)和训练数据来检测过度拟合。当发生过度拟合时，针对测试数据的验证度量在特定数量的时期之后停止改善并且此后开始减少。同时，因为模型试图找到训练数据的最佳拟合，所以针对训练数据的验证度量将继续改善。与训练数据相关联的误差被驱动到非常小的值，但是在向神经网络呈现新数据时，误差很大。网络已了解训练示例，但其尚未了解推广至新情况或数据集。

冻结提供了改善的正则化技术，因为其消除了更新输出连接的权重的需要。不同于丢弃或移除特定百分比的隐藏单元，冻结技术涉及随机冻结特定百分比的隐藏单元。然而，在冻结的情况下，冻结单元与下面一层或多层的单元的连接不被移除或改变。针对训练运行不包括冻结单元的输出，但针对训练运行不改变从冻结单元到下面一层或多层的单元的输出连接的权重。因此，在每次训练运行期间，不需要更新从冻结单元到下面一层或多层的单元的输出连接的权重。利用丢弃技术，针对训练移除单元并且改变网络的架构。利用冻结技术，单元被冻结，不被移除，并且网络的架构保持不变。这消除了在利用丢弃时更新来自丢弃单元的输出连接的权重的步骤，从而得到平滑、有效且更准确的训练过程。另外，减少步骤和消除更新输出连接的权重的需要可减小训练神经网络中需要的时间和努力的量，从而优化训练。此外，减小步骤和消除更新输出连接的权重的需要可减轻误差的减少以及改善神经网络的准确度预测，如本说明书中在下面示出的实验结果所证实的那样。本文的实施方案可通过消除与常规技术相关联的步骤和重新加权来促进自动化神经网络的训练。

首先参见图1，示出了示例性系统100，其用于促进在训练神经网络中作为正则化器的冻结。系统100可包括机器学习组件102，该机器学习组件可包括评估组件104、选择组件106和冻结组件108。本公开中解释的系统、装置或过程的各方面可以构成在机器内体现(例如，在与一个或多个机器相关联的一个或多个计算机可读介质中体现)的机器可执行组件。当由一个或多个机器(例如，计算机、计算设备、虚拟机等)执行时，这类部件可以使机器执行所述操作。系统100(例如，机器学习组件102)可以包括用于存储计算机可执行组件和指令的存储器112。系统100(例如，机器学习组件102)还可以包括处理器110以促进系统100(例如，机器学习组件102)对指令(例如，计算机可执行组件和指令)的操作。

机器学习组件102可接收训练数据并生成正则化训练数据。在特定实施方案中，评估组件104可识别神经网络的单元。在一个示例中，评估组件104可随机识别神经网络的单元。在另一个示例中，评估组件104可随机地但利用一个或多个预先确定的规则或参数来识别神经网络的单元。

在特定实施方案中，选择组件106可选择神经网络的单元的子集。在一个示例中，选择组件106可随机地选择神经网络的单元的子集。在另一个示例中，选择组件106可随机地但利用一个或多个预先确定的规则或参数来选择神经网络的单元的子集。在另一个示例中，选择组件106可选择包括一个或多个整单元层的神经网络的单元的子集。在另一个示例中，选择组件106可选择包括单元的层的一个或多个块的神经网络的单元的子集。

在某些实施方案中，冻结组件108可冻结神经网络的单元的选定子集，使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重。例如，当冻结组件108可冻结神经网络的单元的选定子集时，冻结单元到下面一层或多层的单元的连接不被移除或改变。针对训练运行不包括冻结单元的输出，但针对训练运行不改变从冻结单元到下面一层或多层的单元的输出连接的权重。因此，在每次训练运行期间，不需要更新从冻结单元到下面层的单元的输出连接的权重。当单元被冻结组件108冻结而不是在利用丢弃时被移除时，神经网络的架构保持不变。这消除了在利用丢弃时更新来自丢弃单元的输出连接的权重的步骤。这导致更平滑、更有效和更准确的训练过程。

在另一个示例中，冻结组件108冻结由选择组件106选择的神经网络的一层或多层，使得针对训练运行将不更新来自该一个或多个冻结层的输出连接的权重。在另一个示例中，冻结组件108冻结由选择组件106选择的神经网络的层的一个或多个块，使得针对训练运行将不更新来自该一个或多个冻结层块的输出连接的权重。在某些实施方案中，除了丢弃神经网络的单元的另一个子集之外，还可执行由冻结组件108冻结神经网络的选定单元。

应当认识到，机器学习组件102的技术特征本质上是高度技术性的并且不是抽象思想。处理和/或分析训练数据、生成的正则化训练数据等的机器学习组件102的处理线程不能由人类来执行(例如，大于单个人心智的能力)。例如，由机器学习组件102在特定时间段内处理的训练数据的量、训练数据的处理速度和/或训练数据的数据类型与单个人心智在相同时间段内可处理的量、速度和数据类型相比可以分别更大、更快和不同。此外，由机器学习组件102处理的训练数据可以是一种或多种类型的数据 (例如，医学成像、视觉、语音识别、文档分类、计算生物学…)。此外，机器学习组件102可以对于执行一个或多个其他功能完全操作(例如，完全通电、完全执行等)，同时还处理训练数据。

图2A至图2D分别示出了根据本文所述的一个或多个实施方案的非限制性系统的示例，该系统促进在训练神经网络中作为正则化器的冻结。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。图2A至图2D分别示出了利用丢弃和冻结技术之间的示例性比较。图 2A示出了神经网络的四个层202、204、206和208。图2B示出了神经网络的相同四个层210、212、214和216，其中在利用丢弃的训练运行期间，在层212和214中的每一者中丢弃两个单元。针对适用的训练运行，不包括丢弃单元的输出。图2C示出了神经网络的四个层218、220、222和224。图2D示出了神经网络的相同四个层226、228、230和232，其中在利用冻结的训练运行期间，在层228和230中的每一者中丢弃两个单元。针对适用的训练运行，不包括冻结单元的输出。

图3A至图3B分别示出了根据本文所述的一个或多个实施方案的非限制性系统的另一个示例，该系统促进在训练神经网络中作为正则化器的冻结。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。图3A至图3B分别示出了利用丢弃和冻结技术之间的示例性比较。图3A示出了神经网络的两个层，其中在利用丢弃的训练运行期间，在层302和304中的每一者中丢弃两个单元。通过利用丢弃，在训练运行期间也移除丢弃单元与下面层中的单元的连接，如图3A中反映的。这要求针对每个训练运行，在每个训练运行期间更新从丢弃单元到下面层的单元的输出连接的权重。图3B示出了神经网络的两个层，其中在利用冻结的训练运行期间，在层306和308中的每一者中冻结两个单元。通过利用冻结，在训练运行期间不移除冻结单元与下文层中的单元的连接，如图3B中反映的。因此，在每次训练运行期间，不必要更新从冻结单元到下面层的单元的输出连接的权重。

图4示出了根据本文所述的一个或多个实施方案的非限制性系统的另一个示例，该系统促进在训练神经网络中作为正则化器的冻结。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。图4 示出了在冻结单元402和下一层中的单元406之间的连接以及表示输出权重的w 404。在该示例中，来自冻结单元404的下一层单元406的输入 z＝w*a，其中a表示冻结单元402的激活(其以与具有未冻结状态的单元相同的方式表现)，并且w表示输出权重。如果相关联单元402被冻结，则在训练期间不更新输出权重w 404。

图5示出了根据本文所述的一个或多个实施方案的非限制性系统的另一个示例，该系统促进在训练神经网络中作为正则化器的冻结。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。图5 示出了神经网络的四个层502、504、506和508。在该示例中，针对训练运行，整个层506和其中的所有单元被随机冻结。

图6示出了根据本文所述的一个或多个实施方案的示例性训练算法 600，该训练算法促进在训练神经网络中作为正则化器的冻结。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。根据本文所述的特定实施方案，示例性训练算法600等可促进在训练神经网络中作为正则化器的冻结，权重层602或权重层604中可被冻结。

图7示出了根据本文所述的一个或多个实施方案的示例性训练算法，该训练算法促进在训练神经网络中作为正则化器的冻结。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。根据本文所述的特定实施方案，示例性训练算法700可利用包括定义的神经网络 NN、训练数据D、冻结率r、可被冻结的指定节点集FN、介于0和1之间的学习速率n以及定义的训练停止标准的输入来促进在训练神经网络中作为正则化器的冻结。

图8示出了根据本文所述的一个或多个实施方案的又另一个示例性、非限制性系统的框图，该系统促进在训练神经网络中作为正则化器的冻结。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。在特定实施方案中，系统800包括人工智能组件802，其可采用机器学习模型来促进选择组件106对要由冻结组件108冻结的单元子集的选择。例如，冻结可利用在训练运行期间随机选择待冻结的单元、单元子集或单元层来利用。人工智能组件802可采用机器学习模型，以使得选择组件106能够利用选择标准来修改、补充或替换随机选择以便改善训练过程。例如，人工智能组件802可检测影响冻结特定类型的单元对训练过程的影响的特定类型的数据集之间或之内的模式或相关性。例如，人工智能组件802可检测应用于医学成像数据而不是语音识别数据的模式或相关性。在另一个示例中，对于将优化所训练的神经网络对测试数据的性能的特定类型的数据集，人工智能组件802在训练期间具有最可能数量的时期。

就这一点而言，人工智能组件802可执行与人工智能的原理相关联的分类、相关性、推理和/或表达。例如，人工智能组件802可采用自动分类系统和/或自动分类。在一个示例中，人工智能组件802可以采用基于概率和/或统计的分析(例如，考虑到分析效用和成本)来学习和/或生成推理。人工智能组件802可采用任何合适的基于机器学习的技术、基于统计的技术和/或基于概率的技术。例如，人工智能组件802可采用专家系统、模糊逻辑、SVM、隐马尔可夫模型(HMM)、贪婪搜索算法、基于规则的系统、贝叶斯模型(例如，贝叶斯网络)、神经网络、其他非线性训练技术、数据融合、基于用途的分析系统、采用贝叶斯模型的系统等。在另一方面，人工智能组件802可执行一组机器学习计算。例如，人工智能组件 802可执行一组聚类机器学习计算、一组逻辑回归机器学习计算、一组决策树机器学习计算、一组随机森林机器学习计算、一组回归树机器学习计算、一组最小二乘机器学习计算、一组基于实例的机器学习计算，一组回归机器学习计算、一组支持向量回归机器学习计算、一组k均值机器学习计算、一组频谱聚类机器学习计算，一组规则学习机器学习计算、一组贝叶斯机器学习计算、一组深玻尔兹曼机计算、一组深信度网络计算和/或一组不同的机器学习计算。

图9示出了根据本文所述的一个或多个实施方案的用于促进在训练神经网络中作为正则化器的冻结的方法的示例的流程图。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。框902表示包括识别神经网络的单元(例如，经由评估组件104)的第一动作。在904 处，选择神经网络的单元的子集(例如，经由选择组件106)。在906处，冻结神经网络的单元的选定子集，使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重(例如，经由冻结组件108)。在特定实施方案中，在904处，人工智能组件802促进神经网络的单元的子集的选择。

图10示出了根据本文所述的一个或多个实施方案的用于促进在训练神经网络中作为正则化器的冻结的方法的另一个示例的流程图。为简洁起见，省略了对本文描述的其他实施方案中采用的类似元素的重复描述。图 10所示的用于促进在训练神经网络中作为正则化器的冻结的方法可在图1 的系统100中实现。因此，将在图10的示例的以下讨论中参考图1的示例。

因此，在图10的示例中，概述了用于促进在训练神经网络1000中作为正则化器的冻结的序列。序列从1002处开始，其中针对训练运行冻结神经网络的单元的选定子集。在1004处，针对训练运行不更新单元的冻结子集的输出连接的权重。在1006处，确定是否将执行利用冻结的附加训练运行。如果在1008处确定将执行利用冻结的另一个训练运行，则序列重复从 1002处开始。如果在1010处确定将不执行利用冻结的另一个训练运行，则在1012处完成神经网络的训练。

图11A至图11E分别示出了根据本文所述的一个或多个实施方案的利用在训练神经网络中作为正则化器的冻结的实验的结果。图11A至图11E 中的每一者包括相对于用于训练神经网络的时期数量绘制准确度的曲线图。图11A至图11E所示的每个曲线图分别示出了包括以下的结果：关于训练数据和测试(验证)数据的基线结果、关于用作正则化器的丢弃的基线和验证结果，以及关于用作正则化器的冻结的基线和验证结果。分别在图11A至11E所示的每个示例中，与利用丢弃作为正则化器相比，利用冻结作为正则化器在基本上所有的情况下都导致更高的准确度。在图11A所示的示例中，丢弃/冻结率为0.5。图11A中的曲线图包括基线训练1102、基线验证1104、丢弃0.5训练1106、丢弃0.5验证1108、冻结0.5训练 1110和冻结0.5验证1112的结果。在图11B所示的示例中，丢弃/冻结率为 0.6。图11B中的曲线图包括基线训练1114、基线验证1116、丢弃0.6训练 1118、丢弃0.6验证1120、冻结0.6训练1122和冻结0.6验证1124的结果。在图11C所示的示例中，丢弃/冻结率为0.7。图11C中的曲线图包括基线训练1126、基线验证1128、丢弃0.7训练1130、丢弃0.7验证1132、冻结0.7训练1134和冻结0.7验证1136的结果。在图11D所示的示例中，丢弃/冻结率为0.8。图11D中的曲线图包括基线训练1138、基线验证 1140、丢弃0.8训练1142、丢弃0.8验证1144、冻结0.8训练1146和冻结 0.8验证1148的结果。在图11E所示的示例中，丢弃/冻结率为0.9。图11E 中的曲线图包括基线训练1150、基线验证1152、丢弃0.9训练1154、丢弃0.9验证1156、冻结0.9训练1158和冻结0.9验证1160的结果。

图12A至图12E分别示出了根据本文所述的一个或多个实施方案的利用在训练神经网络中作为正则化器的冻结的附加实验的结果。图12A至图 12E中的每一者包括相对于用于训练神经网络的时期数量绘制准确度的曲线图。图12A至图12E所示的每个曲线图分别示出了包括以下的结果：关于训练数据和测试(验证)数据的基线结果、关于用作正则化器的丢弃的基线和验证结果，以及关于用作正则化器的冻结的基线和验证结果。分别在图12A至图12E所示的每个示例中，与利用丢弃作为正则化器相比，利用冻结作为正则化器在基本上所有的情况下都导致更高的准确度。在图 12A所示的示例中，丢弃/冻结率为0.5。图12A中的曲线图包括基线训练 1202、基线验证1204、丢弃0.5训练1206、丢弃0.5验证1208、冻结0.5 训练1210和冻结0.5验证1212的结果。在图12B所示的示例中，丢弃/冻结率为0.6。图12B中的曲线图包括基线训练1214、基线验证1216、丢弃 0.6训练1218、丢弃0.6验证1220、冻结0.6训练1222和冻结0.6验证1224 的结果。在图12C所示的示例中，丢弃/冻结率为0.7。图12C中的曲线图包括基线训练1226、基线验证1228、丢弃0.7训练1230、丢弃0.7验证 1232、冻结0.7训练1234和冻结0.7验证1236的结果。在图12D所示的示例中，丢弃/冻结率为0.8。图12D中的曲线图包括基线训练1238、基线验证1240、丢弃0.8训练1242、丢弃0.8验证1244、冻结0.8训练1246和冻结0.8验证1248的结果。在图12E所示的示例中，丢弃/冻结率为0.9。图 12E中的曲线图包括基线训练1250、基线验证1252、丢弃0.9训练1254、丢弃0.9验证1256、冻结0.9训练1258和冻结0.9验证1260的结果。

图13A至图13E分别示出了根据本文所述的一个或多个实施方案的利用在训练神经网络中作为正则化器的冻结的附加实验的结果。图13A至图 13E中的每一者包括相对于用于训练神经网络的时期数量绘制准确度的曲线图。图13A至图13E所示的每个曲线图分别示出了包括以下的结果：关于测试(验证)数据的基线结果、关于用作正则化器的丢弃的验证结果，以及关于用作正则化器的冻结的验证结果。分别在图13A至图13E所示的每个示例中，与利用丢弃作为正则化器相比，利用冻结作为正则化器在基本上所有的情况下都导致更高的准确度。在图13A所示的示例中，丢弃/冻结率为0.5。图13A中的曲线图包括基线验证1302、丢弃0.5验证1304和冻结0.5验证1306的结果。在图13B所示的示例中，丢弃/冻结率为0.6。图13B中的曲线图包括基线验证1308、丢弃0.6验证1310和冻结0.6验证1312的结果。在图13C所示的示例中，丢弃/冻结率为0.7。图13C中的曲线图包括基线验证1314、丢弃0.7验证1316和冻结0.7验证1318的结果。在图13D所示的示例中，丢弃/冻结率为0.8。图13D中的曲线图包括基线验证1320、丢弃0.8验证1322和冻结0.8验证1324的结果。在图13E所示的示例中，丢弃/冻结率为0.9。图13E中的曲线图包括基线验证1326、丢弃0.9验证1328和冻结0.9验证1330的结果。

图14A至图14E分别示出了根据本文所述的一个或多个实施方案的利用在训练神经网络中作为正则化器的冻结的附加实验的结果。图14A至图 14E中的每一者包括相对于用于训练神经网络的时期数量绘制准确度的曲线图。图14A至图14E所示的每个曲线图分别示出了包括以下的结果：关于测试(验证)数据的基线结果、关于用作正则化器的丢弃的验证结果，以及关于用作正则化器的冻结的验证结果。分别在图14A至图14E所示的每个示例中，与利用丢弃作为正则化器相比，利用冻结作为正则化器在基本上所有的情况下都导致更高的准确度。在图14A所示的示例中，丢弃/冻结率为0.5。图14A中的曲线图包括基线验证1402、丢弃0.5验证1404和冻结0.5验证1406的结果。在图14B所示的示例中，丢弃/冻结率为0.6。图14B中的曲线图包括基线验证1408、丢弃0.6验证1410和冻结0.6验证1412的结果。在图14C所示的示例中，丢弃/冻结率为0.7。图14C中的曲线图包括基线验证1414、丢弃0.7验证1416和冻结0.7验证1418的结果。在图14D所示的示例中，丢弃/冻结率为0.8。图14D中的曲线图包括基线验证1420、丢弃0.8验证1422和冻结0.8验证1424的结果。在图14E所示的示例中，丢弃/冻结率为0.9。图14E中的曲线图包括基线验证1426、丢弃0.9验证1428和冻结0.9验证1430的结果。

为了提供所公开的主题的各个方面的上下文，图15以及以下讨论旨在提供对其中可实现所公开的主题的各个方面的合适的环境的简要概括描述。

参考图15，用于实现本公开的各个方面的合适环境1500包括计算机 1512。计算机1512包括处理单元1514、系统存储器1516和系统总线 1518。系统总线1518将包括但不限于系统存储器1516的系统组件耦接到处理单元1514。处理单元1514可以是各种可用处理器中的任何一种。双微处理器和其他多处理器架构也可用作处理单元1514。

系统总线1518可以是多种类型的总线结构中的任一种，包括存储器总线或存储器控制器、外围总线或外部总线以及/或者使用各种可用总线架构的本地总线，这些总线架构包括但不限于工业标准架构(ISA)、微通道架构(MSA)、扩展ISA(EISA)、智能驱动电子设备(IDE)、VESA本地总线(VLB)、外围部件互连件(PCI)、卡总线、通用串行总线 (USB)、高级图形端口(AGP)、个人计算机存储器卡国际协会总线 (PCMCIA)、火线(IEEE 1394)和小型计算机系统接口(SCSI)。

系统存储器1516包括易失性存储器1520和非易失性存储器1522。基本输入/输出系统(BIOS)(包含在计算机1512内的元件之间传输信息的基本例程，诸如在启动期间)存储在非易失性存储器1522中。以举例说明而非限制的方式，非易失性存储器1522可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程 ROM(EEPROM)、闪存存储器或非易失性随机存取存储器(RAM)(例如，铁电RAM(FeRAM))。易失性存储器1520包括随机存取存储器 (RAM)，其充当外部高速缓存存储器。以举例说明而非限制的方式， RAM能以多种形式提供，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型 SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)、直接Rambus RAM (DRRAM)、直接Rambus动态RAM(DRDRAM)和Rambus动态RAM。

计算机1512还包括可移除/不可移除、易失性/非易失性计算机存储介质。图15示出了例如磁盘存储装置1524。磁盘存储装置1524包括但不限于如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS- 100驱动器、闪存存储器卡或记忆棒的设备。磁盘存储装置1524还可以单独包括存储介质或与其他存储介质组合，该其他存储介质包括但不限于光盘驱动器，诸如光盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R 驱动器)、CD可重写驱动器(CD-RW驱动器)或数字通用磁盘ROM驱动器(DVD-ROM)。为了便于将磁盘存储设备1524连接到系统总线 1518，通常使用可移除/不可移除的接口，诸如接口1526。

图15还描绘了充当用户和合适的操作环境1500中所述的基本计算机资源之间的中介的软件。例如，此类软件包括操作系统1528。可以存储在磁盘存储装置1524上的操作系统1528用于控制和分配计算机系统1512的资源。系统应用程序1530利用操作系统1528通过例如存储在系统存储器 1516中或磁盘存储装置1524上的程序模块1532以及程序数据1534对资源的管理。应当认识到，本公开可以用各种操作系统或操作系统的组合来实现。

用户通过输入设备1536将命令或信息输入到计算机1512中。输入设备1536包括但不限于诸如鼠标、轨迹球、触笔、触摸板、键盘、麦克风、操纵杆、游戏板、卫星天线、扫描仪、电视调谐卡、数码相机、数码摄像机、网络摄像头等指向设备。这些和其他输入设备经由接口端口1538通过系统总线1518连接到处理单元1514。接口端口1538包括例如串行端口、并行端口、游戏端口和通用串行总线(USB)。输出设备1540使用与输入设备1536相同类型的端口中的一些端口。因此，例如，USB端口可以用于向计算机1512提供输入，并将信息从计算机1512输出到输出设备1540。提供输出适配器1542以示出存在如监视器、扬声器和打印机的一些输出设备1540，以及需要特殊适配器的其他输出设备1540。通过举例说明而非限制的方式，输出适配器1542包括在输出设备1540和系统总线1518之间提供连接方式的视频和声卡。应当指出的是，其他设备和/或设备的系统提供输入能力和输出能力两者，诸如远程计算机1544。

计算机1512可使用到一个或多个远程计算机(诸如，远程计算机 1544)的逻辑连接而在联网环境中操作。远程计算机1544可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的设备、对等设备或其他公共网络节点等，并且通常包括许多或全部的相对于计算机1512描述的元素。出于简洁的目的，对于远程计算机1544仅示出了存储器存储设备1546。远程计算机1544通过网络接口1548逻辑连接到计算机1512，然后经由通信连接1550而被物理连接。网络接口1548涵盖有线和/或无线通信网络，诸如局域网(LAN)、广域网(WAN)、蜂窝网络等。LAN技术包括光纤分布式数据接口(FDDI)、铜质分布式数据接口(CDDI)、以太网、令牌环等。WAN技术包括但不限于点到点链路、如综合业务数字网络 (ISDN)及其上的变体的电路交换网络、分组交换网络和数字用户线(DSL)。

通信连接1550是指用于将网络接口1548连接到总线1518的硬件/软件。虽然为了清楚说明而在计算机1512内示出了通信连接1550，但是该通信连接也可在计算机1512外部。仅出于举例的目的，连接到网络接口1548 所需的硬件/软件包括内部和外部技术，诸如调制解调器，包括常规电话级调制解调器、电缆调制解调器和DSL调制解调器、ISDN适配器，以及以太网卡。

应当注意，本公开的各个方面或特征可以在基本上任何无线电信或无线电技术中利用，例如，Wi-Fi；蓝牙；全球微波接入互操作性(WiMAX)；增强型通用分组无线电业务(增强型GPRS)；第三代合作伙伴计划(3GPP) 长期演进(LTE)；第三代合作伙伴计划2(3GPP2)超移动宽带(UMB)；3GPP 通用移动电信系统(UMTS)；高速分组接入(HSPA)；高速下行链路分组接入 (HSDPA)；高速上行链路分组接入(HSUPA)；GSM(全球移动通信系统) EDGE(GSM演进的增强数据速率)无线电接入网络(GERAN)；UMTS地面无线电接入网(UTRAN)；LTE高级(LTE-A)；等。另外，本文描述的一些或所有方面可以在传统电信技术(例如，GSM)中利用。此外，移动以及非移动网络(例如，互联网、诸如互联网协议电视(IPTV)的数据服务网络等)可以利用本文所述的方面或特征。

尽管上面已经在一个和/或多个计算机上运行的计算机程序的计算机可执行指令的一般上下文中描述了本主题，但本领域技术人员将认识到，本公开内容也可以或可能与其他程序模块结合来实现。通常，程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、部件、数据结构等。此外，本领域技术人员应当认识到，可以用其他计算机系统配置来实践本发明的方法，这些其他计算机系统配置包括单处理器或多处理器计算机系统、小型计算设备、大型计算机、以及个人计算机、手持式计算设备 (例如，PDA、电话)、基于微处理器或可编程的消费者或工业电子产品等。所例示的方面还可以在分布式计算环境中实践，在该环境中，由通过通信网络链接的远程处理设备执行任务。然而，本公开的一些(如果不是全部)方面可以在独立计算机上实践。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备中。

如本申请中所用，术语“部件”、“系统”、“平台”、“接口”等可以指代和/或可以包括计算机相关实体或与具有一个或多个特定功能的操作机相关的实体。本文公开的实体可以是硬件、硬件和软件的组合、软件、或执行中的软件。例如，部件可以是但不限于是在处理器上运行的进程、处理器、对象、可执行文件、执行的线程、程序和/或计算机。通过举例说明的方式，在服务器上运行的应用程序和服务器都可以是部件。一个或多个部件可以驻留在进程和/或执行的线程内，并且部件可以位于一台计算机上和/或分布在两台或更多台计算机之间。

在另一个示例中，相应部件可以根据其上存储有各种数据结构的各种计算机可读介质执行。部件可以诸如根据具有一个或多个数据分组(例如，来自一个部件的数据，该部件与本地系统、分布式系统中的另一个部件进行交互，和/或经由信号跨网络(诸如互联网)与其他系统交互)的信号经由本地和/或远程进程进行通信。作为另一个示例，部件可以是具有由电气或电子电路操作的机械零件提供的特定功能的装置，该电气或电子电路由处理器所执行的软件或固件应用程序操作。在这种情况下，处理器可以在装置的内部或外部，并且可以执行软件或固件应用程序的至少一部分。作为又一个示例，部件可以是通过电子部件而非机械零件提供特定功能的装置，其中电子部件可以包括处理器或用于执行至少部分地赋予电子部件功能性的软件或固件的其他装置。在一个方面，部件可以例如在云计算系统内经由虚拟机来仿真电子部件。

此外，术语“或”旨在表示包含性的“或”而不是排他性的“或”。也就是说，除非另有指明或从上下文中清楚，否则“X采用A或B”旨在表示任何自然的包含性置换。也就是说，如果X采用A；X采用B；或者 X采用A和B两者，则在任何前述情况下都满足“X采用A或B”。此外，本说明书和附图中使用的冠词“一”和“一个”通常应解释为是指 “一个或多个”，除非另有指明或从上下文中清楚是指单数形式。

如本文中所用，利用术语“示例”和/或“示例性”来表示用作示例、实例或说明。为了避免疑问，本文所公开的主题不受此类示例的限制。此外，本文中描述为“示例”和/或“示例性”的任何方面或设计不必被解释为比其他方面或设计更优选或有利，也不意味着排除本领域普通技术人员已知的等效示例性结构和技术。

可以使用标准编程或工程化技术将本文所述的各个方面或特征实现为方法、装置、系统、或制品。此外，可以通过实现本文所公开的方法中的至少一者或多者的程序模块来实现本公开中公开的各个方面或特征，程序模块被存储在存储器中并且至少由处理器执行。硬件和软件或硬件和固件的其他组合可以实现或实施本文描述的方面，包括所公开的方法。如本文中所用，术语“制品”可以涵盖能够从任何计算机可读设备、载体或存储介质访问的计算机程序。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条…)、光盘(例如，紧凑盘(CD)、数字通用盘(DVD)、蓝光盘(BD)…)、智能卡、以及闪存存储器设备(例如，卡、棒、密钥驱动器…)等。

如在本说明书中采用的，术语“处理器”可以基本上指任何计算处理单元或设备，包括但不限于单核处理器；具有软件多线程执行能力的单处理器；多核处理器；具有软件多线程执行能力的多核处理器；具有硬件多线程技术的多核处理器；并行平台；以及具有分布式共享存储器的并行平台。另外，处理器可以指集成电路、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂可编程逻辑设备(CPLD)、分立栅极或晶体管逻辑部件、分立硬件部件、或被设计为执行本文所述的功能的其任意组合。另外，处理器可以利用纳米级架构(诸如但不限于基于分子和量子点的晶体管、开关和门)以便优化空间使用或增强用户设备的性能。处理器也可以被实现为计算处理单元的组合。

在本公开中，术语诸如“存储”、“存储装置”、“数据存储”、 “数据存储装置”、“数据库”、以及与部件的操作和功能相关的基本上任何其他信息存储部件用于指代“存储器部件”、体现在“存储器”中的实体、或包括存储器的部件。应当认识到，本文所述的存储器和/或存储器部件可以是易失性存储器或非易失性存储器，或者可以包括易失性和非易失性存储器两者。

以举例说明而非限制的方式，非易失性存储器可包括只读存储器 (ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM (EEPROM)、闪存存储器、或非易失性随机存取存储器(RAM)(例如，铁电 RAM(FeRAM))。例如，易失性存储器可以包括RAM，其可以充当外部高速缓存存储器。以举例说明而非限制的方式，RAM能以多种形式提供，诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、 Synchlink DRAM(SLDRAM)、直接Rambus RAM(DRRAM)、直接Rambus 动态RAM(DRDRAM)和Rambus动态RAM(RDRAM)。另外，本文的系统或方法的公开的存储器部件旨在包括但不限于包括这些和任何其他合适类型的存储器。

应当认识和理解，关于特定系统或方法描述的部件可以包括与关于本文公开的其他系统或方法描述的相应部件(例如，分别命名的部件或类似命名的部件)相同或类似的功能。

上面已经描述的内容包括提供本公开的优点的系统和方法的示例。当然，无法出于描述本公开的目的而描述部件或方法的每个可想到的组合，但本领域的普通技术人员可以认识到，本公开的许多另外组合和置换是可能的。此外，关于在具体实施方式、权利要求书、附录和附图中使用术语 “包括”、“具有”、“拥有”等的程度，此类术语旨在以类似于术语 “包括”的方式为包括性的，如“包括”在权利要求中被用作过渡词时那样解释。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 在训练神经网络中作为正则化器的冻结 [P] . 中国专利： CN113177639A . 2021-07-27
2. 使用连续正则化训练联合多任务神经网络模型 [P] . 中国专利： CN109923557A . 2019-06-21
3. Training a simultaneous multitask neural network model using sequential regularization [P] . 日本专利： JP2019533259A . 2019-11-14

机译：使用顺序正则化训练同时多任务神经网络模型
4. Training a Joint Many-Task Neural Network Model using Successive Regularization [P] . 美国专利： US2018121799A1 . 2018-05-03

机译：使用连续正则化训练联合多任务神经网络模型
5. method implemented in a neural network of training of a splice site detector that identifies splice sites in genomic sequences, trained splice site predictor and system [P] . BR112019027609A2 . 2020-07-21

机译：在训练拼接位点检测器的神经网络中实现的方法，识别基因组序列中的拼接位点，训练后的拼接位点预测器和系统