首页> 中国专利> 在训练神经网络中作为正则化器的冻结

在训练神经网络中作为正则化器的冻结

摘要

本发明题为在训练神经网络中作为正则化器的冻结。本发明提出了促进在训练神经网络中作为正则化器的冻结的系统和技术。系统可包括存储器和执行计算机可执行组件的处理器。该计算机可执行组件可包括:评估组件,该评估组件识别神经网络的单元;选择组件,该选择组件选择神经网络的单元的子集;和冻结组件,该冻结组件冻结神经网络的单元的选定子集,使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重。

著录项

说明书

技术领域

本公开整体涉及神经网络,并且更具体地讲,涉及用于训练神经网络 的计算机实现的技术。

背景技术

当训练神经网络时,过度拟合是常见问题。当神经网络模型太好地学 习训练数据时,在训练过程期间发生过度拟合,从而在向模型呈现新的未 见数据时导致较低的性能。可通过将验证度量诸如准确度应用于新的未见 数据(测试数据)和训练数据来检测过度拟合。当发生过度拟合时,针对 测试数据的验证度量在特定数量的时期之后停止改善并且此后开始减少。 同时,因为模型试图找到训练数据的最佳拟合,所以针对训练数据的验证 度量将继续改善。与训练数据相关联的误差被驱动到非常小的值,但是在 向神经网络呈现新数据时,误差很大。网络已了解训练示例,但其尚未了 解推广至新情况或数据集。

正则化是指通过对学习算法进行轻微修改来解决过度拟合问题,从而 使得神经网络模型能够更准确地推广至新情况或数据集的技术。这继而也 改善模型对新数据的性能。

丢弃是指在训练运行(例如,一个或多个训练迭代)期间从神经网络 层随机移除特定百分比的隐藏单元(连同它们的连接)的正则化技术。这 防止了隐藏单元太多地依赖其他隐藏单元。然而,通过丢弃隐藏单元连同 它们的连接,神经网络的架构对于适用的训练运行发生改变。因此,有必 要在每次训练运行期间更新从丢弃单元到下一层或多层的单元的输出连接 的权重。

发明内容

以下内容提出了本说明书的简化发明内容以便提供对本说明书的某些 方面的基本理解。该发明内容不是对本说明书的详尽概述。它既不旨在标 识本说明书的关键或重要元素,也不旨在描述本说明书的特定具体实施的 任何范围或权利要求的任何范围。其唯一目的是以简化形式呈现本说明书 的一些概念,作为稍后呈现的更详细描述的序言。

根据一个实施方案,一种系统包括评估组件、选择组件和冻结组件。 该评估组件识别神经网络的单元。该选择组件选择神经网络的单元的子 集。该冻结组件冻结神经网络的单元的选定子集,使得针对训练运行将不 更新来自单元的冻结子集的输出连接的权重。

根据另一个实施方案,提供了一种方法。该方法包括由可操作地耦接 到处理器的设备识别神经网络的单元。该方法还包括由设备选择神经网络 的单元的子集。此外,该方法包括由设备冻结神经网络的单元的选定子 集,使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重。

根据又一个实施方案,提供了一种计算机可读存储设备。该计算机可 读存储设备包括指令,指令响应于执行而致使包括处理器的系统执行操 作,操作包括识别神经网络的单元。该处理器还执行操作,包括选择神经 网络的单元的子集。该处理器还执行操作,包括冻结神经网络的单元的选 定子集,使得针对训练运行将不更新来自单元的冻结子集的输出连接的权 重。

以下具体实施方式和附图阐述了本说明书的某些例示性方面。然而, 这些方面仅指示了可以采用本说明书原理的各种方式中的一些方式。当结 合附图考虑时,根据以下对说明书的详细描述,本说明书的其他优点和新 颖特征将变得显而易见。

附图说明

图1示出了根据本文所述的一个或多个实施方案的示例性、非限制性 系统的框图,该系统促进在训练神经网络中作为正则化器的冻结。

图2A至图2D分别示出了根据本文所述的一个或多个实施方案的非限 制性系统的示例,该系统促进在训练神经网络中作为正则化器的冻结。

图3A至图3B分别示出了根据本文所述的一个或多个实施方案的非限 制性系统的另一个示例,该系统促进在训练神经网络中作为正则化器的冻 结。

图4示出了根据本文所述的一个或多个实施方案的非限制性系统的另 一个示例,该系统促进在训练神经网络中作为正则化器的冻结。

图5示出了根据本文所述的一个或多个实施方案的非限制性系统的另 一个示例,该系统促进在训练神经网络中作为正则化器的冻结。

图6示出了根据本文所述的一个或多个实施方案的示例性算法,该算 法促进在训练神经网络中作为正则化器的冻结。

图7示出了根据本文所述的一个或多个实施方案的另一个示例性算 法,该算法促进在训练神经网络中作为正则化器的冻结。

图8示出了根据本文所述的一个或多个实施方案的又另一个示例性、 非限制性系统的框图,该系统促进在训练神经网络中作为正则化器的冻 结。

图9示出了根据本文所述的一个或多个实施方案的用于促进在训练神 经网络中作为正则化器的冻结的方法的示例的流程图。

图10示出了根据本文所述的一个或多个实施方案的用于促进在训练神 经网络中作为正则化器的冻结的方法的另一个示例的流程图。

图11A至图11E分别示出了根据本文所述的一个或多个实施方案的利 用在训练神经网络中作为正则化器的冻结的实验的结果。

图12A至图12E分别示出了根据本文所述的一个或多个实施方案的利 用在训练神经网络中作为正则化器的冻结的附加实验的结果。

图13A至图13E分别示出了根据本文所述的一个或多个实施方案的利 用在训练神经网络中作为正则化器的冻结的附加实验的结果。

图14A至图14E分别示出了根据本文所述的一个或多个实施方案的利 用在训练神经网络中作为正则化器的冻结的附加实验的结果。

图15是示出合适操作环境的示意性框图。

具体实施方式

现在参考附图来描述本公开的各个方面,其中相同的附图标号始终用 于表示相同的元件。在以下描述中,出于解释的目的,阐述了许多具体细 节以便提供对一个或多个方面的透彻理解。然而,应当理解,可以在没有 这些具体细节的情况下,或者在有其他方法、部件、材料等的情况下实践 本公开的某些方面。在其他实例中,以框图形式示出了公知的结构和设备 以有助于描述一个或多个实施方案。

神经网络在诸如医学成像、机器视觉、语音识别、文档分类和计算生 物学的领域中已变得无处不在。神经网络具有使得它们适合于各种问题和 情况的一些优点。例如,神经网络具有学习和建模非线性和复杂关系的能 力。在从初始输入和关系学习之后,神经网络也可推断关于未见数据的未 见关系,从而提供对未见数据的推广和预测。神经网络可消耗大体积的输 入,并对其进行处理以推断隐藏以及复杂的非线性关系。

本发明提出了促进在训练神经网络中作为正则化器的冻结的系统和技 术。当训练神经网络时,过度拟合是常见问题。当神经网络模型太好地学 习训练数据时,在训练过程期间发生过度拟合,从而在向模型呈现新的未 见数据时导致较低的性能。可通过将验证度量诸如准确度应用于新的未见 数据(测试数据)和训练数据来检测过度拟合。当发生过度拟合时,针对 测试数据的验证度量在特定数量的时期之后停止改善并且此后开始减少。同时,因为模型试图找到训练数据的最佳拟合,所以针对训练数据的验证 度量将继续改善。与训练数据相关联的误差被驱动到非常小的值,但是在 向神经网络呈现新数据时,误差很大。网络已了解训练示例,但其尚未了 解推广至新情况或数据集。

正则化是指通过对学习算法进行轻微修改来解决过度拟合问题,从而 使得神经网络模型能够更准确地推广至新情况或数据集的技术。这继而也 改善模型对新数据的性能。

丢弃是指在训练运行(例如,一个或多个训练迭代)期间从神经网络 层随机移除特定百分比的隐藏单元(连同它们的连接)的正则化技术。这 防止了隐藏单元太多地依赖其他隐藏单元。然而,通过丢弃隐藏单元连同 它们的连接,神经网络的架构对于适用的训练运行发生改变。因此,有必 要在每次训练运行期间更新从丢弃单元到下一层或多层的单元的输出连接 的权重。

冻结提供了改善的正则化技术,因为其消除了更新输出连接的权重的 需要。不同于丢弃或移除特定百分比的隐藏单元,冻结技术涉及随机冻结 特定百分比的隐藏单元。然而,在冻结的情况下,冻结单元与下面一层或 多层的单元的连接不被移除或改变。针对训练运行不包括冻结单元的输 出,但针对训练运行不改变从冻结单元到下面一层或多层的单元的输出连 接的权重。因此,在每次训练运行期间,不需要更新从冻结单元到下面一 层或多层的单元的输出连接的权重。利用丢弃技术,针对训练移除单元并 且改变网络的架构。利用冻结技术,单元被冻结,不被移除,并且网络的 架构保持不变。这消除了在利用丢弃时更新来自丢弃单元的输出连接的权 重的步骤,从而得到平滑、有效且更准确的训练过程。另外,减少步骤和 消除更新输出连接的权重的需要可减小训练神经网络中需要的时间和努力 的量,从而优化训练。此外,减小步骤和消除更新输出连接的权重的需要 可减轻误差的减少以及改善神经网络的准确度预测,如本说明书中在下面 示出的实验结果所证实的那样。本文的实施方案可通过消除与常规技术相 关联的步骤和重新加权来促进自动化神经网络的训练。

首先参见图1,示出了示例性系统100,其用于促进在训练神经网络中 作为正则化器的冻结。系统100可包括机器学习组件102,该机器学习组件 可包括评估组件104、选择组件106和冻结组件108。本公开中解释的系 统、装置或过程的各方面可以构成在机器内体现(例如,在与一个或多个 机器相关联的一个或多个计算机可读介质中体现)的机器可执行组件。当 由一个或多个机器(例如,计算机、计算设备、虚拟机等)执行时,这类 部件可以使机器执行所述操作。系统100(例如,机器学习组件102)可以 包括用于存储计算机可执行组件和指令的存储器112。系统100(例如,机 器学习组件102)还可以包括处理器110以促进系统100(例如,机器学习 组件102)对指令(例如,计算机可执行组件和指令)的操作。

机器学习组件102可接收训练数据并生成正则化训练数据。在特定实 施方案中,评估组件104可识别神经网络的单元。在一个示例中,评估组 件104可随机识别神经网络的单元。在另一个示例中,评估组件104可随 机地但利用一个或多个预先确定的规则或参数来识别神经网络的单元。

在特定实施方案中,选择组件106可选择神经网络的单元的子集。在 一个示例中,选择组件106可随机地选择神经网络的单元的子集。在另一 个示例中,选择组件106可随机地但利用一个或多个预先确定的规则或参 数来选择神经网络的单元的子集。在另一个示例中,选择组件106可选择 包括一个或多个整单元层的神经网络的单元的子集。在另一个示例中,选 择组件106可选择包括单元的层的一个或多个块的神经网络的单元的子 集。

在某些实施方案中,冻结组件108可冻结神经网络的单元的选定子 集,使得针对训练运行将不更新来自单元的冻结子集的输出连接的权重。 例如,当冻结组件108可冻结神经网络的单元的选定子集时,冻结单元到 下面一层或多层的单元的连接不被移除或改变。针对训练运行不包括冻结 单元的输出,但针对训练运行不改变从冻结单元到下面一层或多层的单元 的输出连接的权重。因此,在每次训练运行期间,不需要更新从冻结单元 到下面层的单元的输出连接的权重。当单元被冻结组件108冻结而不是在 利用丢弃时被移除时,神经网络的架构保持不变。这消除了在利用丢弃时 更新来自丢弃单元的输出连接的权重的步骤。这导致更平滑、更有效和更 准确的训练过程。

在另一个示例中,冻结组件108冻结由选择组件106选择的神经网络 的一层或多层,使得针对训练运行将不更新来自该一个或多个冻结层的输 出连接的权重。在另一个示例中,冻结组件108冻结由选择组件106选择 的神经网络的层的一个或多个块,使得针对训练运行将不更新来自该一个 或多个冻结层块的输出连接的权重。在某些实施方案中,除了丢弃神经网 络的单元的另一个子集之外,还可执行由冻结组件108冻结神经网络的选 定单元。

应当认识到,机器学习组件102的技术特征本质上是高度技术性的并 且不是抽象思想。处理和/或分析训练数据、生成的正则化训练数据等的机 器学习组件102的处理线程不能由人类来执行(例如,大于单个人心智的 能力)。例如,由机器学习组件102在特定时间段内处理的训练数据的 量、训练数据的处理速度和/或训练数据的数据类型与单个人心智在相同时 间段内可处理的量、速度和数据类型相比可以分别更大、更快和不同。此 外,由机器学习组件102处理的训练数据可以是一种或多种类型的数据 (例如,医学成像、视觉、语音识别、文档分类、计算生物学…)。此 外,机器学习组件102可以对于执行一个或多个其他功能完全操作(例 如,完全通电、完全执行等),同时还处理训练数据。

图2A至图2D分别示出了根据本文所述的一个或多个实施方案的非限 制性系统的示例,该系统促进在训练神经网络中作为正则化器的冻结。为 简洁起见,省略了对本文描述的其他实施方案中采用的类似元素的重复描 述。图2A至图2D分别示出了利用丢弃和冻结技术之间的示例性比较。图 2A示出了神经网络的四个层202、204、206和208。图2B示出了神经网络 的相同四个层210、212、214和216,其中在利用丢弃的训练运行期间,在 层212和214中的每一者中丢弃两个单元。针对适用的训练运行,不包括 丢弃单元的输出。图2C示出了神经网络的四个层218、220、222和224。 图2D示出了神经网络的相同四个层226、228、230和232,其中在利用冻 结的训练运行期间,在层228和230中的每一者中丢弃两个单元。针对适 用的训练运行,不包括冻结单元的输出。

图3A至图3B分别示出了根据本文所述的一个或多个实施方案的非限 制性系统的另一个示例,该系统促进在训练神经网络中作为正则化器的冻 结。为简洁起见,省略了对本文描述的其他实施方案中采用的类似元素的 重复描述。图3A至图3B分别示出了利用丢弃和冻结技术之间的示例性比 较。图3A示出了神经网络的两个层,其中在利用丢弃的训练运行期间,在 层302和304中的每一者中丢弃两个单元。通过利用丢弃,在训练运行期 间也移除丢弃单元与下面层中的单元的连接,如图3A中反映的。这要求针 对每个训练运行,在每个训练运行期间更新从丢弃单元到下面层的单元的 输出连接的权重。图3B示出了神经网络的两个层,其中在利用冻结的训练 运行期间,在层306和308中的每一者中冻结两个单元。通过利用冻结, 在训练运行期间不移除冻结单元与下文层中的单元的连接,如图3B中反映 的。因此,在每次训练运行期间,不必要更新从冻结单元到下面层的单元 的输出连接的权重。

图4示出了根据本文所述的一个或多个实施方案的非限制性系统的另 一个示例,该系统促进在训练神经网络中作为正则化器的冻结。为简洁起 见,省略了对本文描述的其他实施方案中采用的类似元素的重复描述。图4 示出了在冻结单元402和下一层中的单元406之间的连接以及表示输出权 重的w 404。在该示例中,来自冻结单元404的下一层单元406的输入 z=w*a,其中a表示冻结单元402的激活(其以与具有未冻结状态的单元相 同的方式表现),并且w表示输出权重。如果相关联单元402被冻结,则 在训练期间不更新输出权重w 404。

图5示出了根据本文所述的一个或多个实施方案的非限制性系统的另 一个示例,该系统促进在训练神经网络中作为正则化器的冻结。为简洁起 见,省略了对本文描述的其他实施方案中采用的类似元素的重复描述。图5 示出了神经网络的四个层502、504、506和508。在该示例中,针对训练运 行,整个层506和其中的所有单元被随机冻结。

图6示出了根据本文所述的一个或多个实施方案的示例性训练算法 600,该训练算法促进在训练神经网络中作为正则化器的冻结。为简洁起 见,省略了对本文描述的其他实施方案中采用的类似元素的重复描述。根 据本文所述的特定实施方案,示例性训练算法600等可促进在训练神经网 络中作为正则化器的冻结,权重层602或权重层604中可被冻结。

图7示出了根据本文所述的一个或多个实施方案的示例性训练算法, 该训练算法促进在训练神经网络中作为正则化器的冻结。为简洁起见,省 略了对本文描述的其他实施方案中采用的类似元素的重复描述。根据本文 所述的特定实施方案,示例性训练算法700可利用包括定义的神经网络 NN、训练数据D、冻结率r、可被冻结的指定节点集FN、介于0和1之间 的学习速率n以及定义的训练停止标准的输入来促进在训练神经网络中作 为正则化器的冻结。

图8示出了根据本文所述的一个或多个实施方案的又另一个示例性、 非限制性系统的框图,该系统促进在训练神经网络中作为正则化器的冻 结。为简洁起见,省略了对本文描述的其他实施方案中采用的类似元素的 重复描述。在特定实施方案中,系统800包括人工智能组件802,其可采用 机器学习模型来促进选择组件106对要由冻结组件108冻结的单元子集的 选择。例如,冻结可利用在训练运行期间随机选择待冻结的单元、单元子 集或单元层来利用。人工智能组件802可采用机器学习模型,以使得选择 组件106能够利用选择标准来修改、补充或替换随机选择以便改善训练过 程。例如,人工智能组件802可检测影响冻结特定类型的单元对训练过程 的影响的特定类型的数据集之间或之内的模式或相关性。例如,人工智能 组件802可检测应用于医学成像数据而不是语音识别数据的模式或相关 性。在另一个示例中,对于将优化所训练的神经网络对测试数据的性能的 特定类型的数据集,人工智能组件802在训练期间具有最可能数量的时 期。

就这一点而言,人工智能组件802可执行与人工智能的原理相关联的 分类、相关性、推理和/或表达。例如,人工智能组件802可采用自动分类 系统和/或自动分类。在一个示例中,人工智能组件802可以采用基于概率 和/或统计的分析(例如,考虑到分析效用和成本)来学习和/或生成推理。 人工智能组件802可采用任何合适的基于机器学习的技术、基于统计的技 术和/或基于概率的技术。例如,人工智能组件802可采用专家系统、模糊 逻辑、SVM、隐马尔可夫模型(HMM)、贪婪搜索算法、基于规则的系 统、贝叶斯模型(例如,贝叶斯网络)、神经网络、其他非线性训练技 术、数据融合、基于用途的分析系统、采用贝叶斯模型的系统等。在另一 方面,人工智能组件802可执行一组机器学习计算。例如,人工智能组件 802可执行一组聚类机器学习计算、一组逻辑回归机器学习计算、一组决策 树机器学习计算、一组随机森林机器学习计算、一组回归树机器学习计 算、一组最小二乘机器学习计算、一组基于实例的机器学习计算,一组回 归机器学习计算、一组支持向量回归机器学习计算、一组k均值机器学习 计算、一组频谱聚类机器学习计算,一组规则学习机器学习计算、一组贝 叶斯机器学习计算、一组深玻尔兹曼机计算、一组深信度网络计算和/或一 组不同的机器学习计算。

图9示出了根据本文所述的一个或多个实施方案的用于促进在训练神 经网络中作为正则化器的冻结的方法的示例的流程图。为简洁起见,省略 了对本文描述的其他实施方案中采用的类似元素的重复描述。框902表示 包括识别神经网络的单元(例如,经由评估组件104)的第一动作。在904 处,选择神经网络的单元的子集(例如,经由选择组件106)。在906处, 冻结神经网络的单元的选定子集,使得针对训练运行将不更新来自单元的 冻结子集的输出连接的权重(例如,经由冻结组件108)。在特定实施方案 中,在904处,人工智能组件802促进神经网络的单元的子集的选择。

图10示出了根据本文所述的一个或多个实施方案的用于促进在训练神 经网络中作为正则化器的冻结的方法的另一个示例的流程图。为简洁起 见,省略了对本文描述的其他实施方案中采用的类似元素的重复描述。图 10所示的用于促进在训练神经网络中作为正则化器的冻结的方法可在图1 的系统100中实现。因此,将在图10的示例的以下讨论中参考图1的示 例。

因此,在图10的示例中,概述了用于促进在训练神经网络1000中作 为正则化器的冻结的序列。序列从1002处开始,其中针对训练运行冻结神 经网络的单元的选定子集。在1004处,针对训练运行不更新单元的冻结子 集的输出连接的权重。在1006处,确定是否将执行利用冻结的附加训练运 行。如果在1008处确定将执行利用冻结的另一个训练运行,则序列重复从 1002处开始。如果在1010处确定将不执行利用冻结的另一个训练运行,则 在1012处完成神经网络的训练。

图11A至图11E分别示出了根据本文所述的一个或多个实施方案的利 用在训练神经网络中作为正则化器的冻结的实验的结果。图11A至图11E 中的每一者包括相对于用于训练神经网络的时期数量绘制准确度的曲线 图。图11A至图11E所示的每个曲线图分别示出了包括以下的结果:关于 训练数据和测试(验证)数据的基线结果、关于用作正则化器的丢弃的基 线和验证结果,以及关于用作正则化器的冻结的基线和验证结果。分别在 图11A至11E所示的每个示例中,与利用丢弃作为正则化器相比,利用冻 结作为正则化器在基本上所有的情况下都导致更高的准确度。在图11A所 示的示例中,丢弃/冻结率为0.5。图11A中的曲线图包括基线训练1102、 基线验证1104、丢弃0.5训练1106、丢弃0.5验证1108、冻结0.5训练 1110和冻结0.5验证1112的结果。在图11B所示的示例中,丢弃/冻结率为 0.6。图11B中的曲线图包括基线训练1114、基线验证1116、丢弃0.6训练 1118、丢弃0.6验证1120、冻结0.6训练1122和冻结0.6验证1124的结 果。在图11C所示的示例中,丢弃/冻结率为0.7。图11C中的曲线图包括 基线训练1126、基线验证1128、丢弃0.7训练1130、丢弃0.7验证1132、 冻结0.7训练1134和冻结0.7验证1136的结果。在图11D所示的示例中, 丢弃/冻结率为0.8。图11D中的曲线图包括基线训练1138、基线验证 1140、丢弃0.8训练1142、丢弃0.8验证1144、冻结0.8训练1146和冻结 0.8验证1148的结果。在图11E所示的示例中,丢弃/冻结率为0.9。图11E 中的曲线图包括基线训练1150、基线验证1152、丢弃0.9训练1154、丢弃0.9验证1156、冻结0.9训练1158和冻结0.9验证1160的结果。

图12A至图12E分别示出了根据本文所述的一个或多个实施方案的利 用在训练神经网络中作为正则化器的冻结的附加实验的结果。图12A至图 12E中的每一者包括相对于用于训练神经网络的时期数量绘制准确度的曲 线图。图12A至图12E所示的每个曲线图分别示出了包括以下的结果:关 于训练数据和测试(验证)数据的基线结果、关于用作正则化器的丢弃的 基线和验证结果,以及关于用作正则化器的冻结的基线和验证结果。分别 在图12A至图12E所示的每个示例中,与利用丢弃作为正则化器相比,利 用冻结作为正则化器在基本上所有的情况下都导致更高的准确度。在图 12A所示的示例中,丢弃/冻结率为0.5。图12A中的曲线图包括基线训练 1202、基线验证1204、丢弃0.5训练1206、丢弃0.5验证1208、冻结0.5 训练1210和冻结0.5验证1212的结果。在图12B所示的示例中,丢弃/冻 结率为0.6。图12B中的曲线图包括基线训练1214、基线验证1216、丢弃 0.6训练1218、丢弃0.6验证1220、冻结0.6训练1222和冻结0.6验证1224 的结果。在图12C所示的示例中,丢弃/冻结率为0.7。图12C中的曲线图 包括基线训练1226、基线验证1228、丢弃0.7训练1230、丢弃0.7验证 1232、冻结0.7训练1234和冻结0.7验证1236的结果。在图12D所示的示 例中,丢弃/冻结率为0.8。图12D中的曲线图包括基线训练1238、基线验 证1240、丢弃0.8训练1242、丢弃0.8验证1244、冻结0.8训练1246和冻 结0.8验证1248的结果。在图12E所示的示例中,丢弃/冻结率为0.9。图 12E中的曲线图包括基线训练1250、基线验证1252、丢弃0.9训练1254、 丢弃0.9验证1256、冻结0.9训练1258和冻结0.9验证1260的结果。

图13A至图13E分别示出了根据本文所述的一个或多个实施方案的利 用在训练神经网络中作为正则化器的冻结的附加实验的结果。图13A至图 13E中的每一者包括相对于用于训练神经网络的时期数量绘制准确度的曲 线图。图13A至图13E所示的每个曲线图分别示出了包括以下的结果:关 于测试(验证)数据的基线结果、关于用作正则化器的丢弃的验证结果, 以及关于用作正则化器的冻结的验证结果。分别在图13A至图13E所示的 每个示例中,与利用丢弃作为正则化器相比,利用冻结作为正则化器在基 本上所有的情况下都导致更高的准确度。在图13A所示的示例中,丢弃/冻 结率为0.5。图13A中的曲线图包括基线验证1302、丢弃0.5验证1304和 冻结0.5验证1306的结果。在图13B所示的示例中,丢弃/冻结率为0.6。 图13B中的曲线图包括基线验证1308、丢弃0.6验证1310和冻结0.6验证1312的结果。在图13C所示的示例中,丢弃/冻结率为0.7。图13C中的曲 线图包括基线验证1314、丢弃0.7验证1316和冻结0.7验证1318的结果。 在图13D所示的示例中,丢弃/冻结率为0.8。图13D中的曲线图包括基线 验证1320、丢弃0.8验证1322和冻结0.8验证1324的结果。在图13E所示 的示例中,丢弃/冻结率为0.9。图13E中的曲线图包括基线验证1326、丢弃0.9验证1328和冻结0.9验证1330的结果。

图14A至图14E分别示出了根据本文所述的一个或多个实施方案的利 用在训练神经网络中作为正则化器的冻结的附加实验的结果。图14A至图 14E中的每一者包括相对于用于训练神经网络的时期数量绘制准确度的曲 线图。图14A至图14E所示的每个曲线图分别示出了包括以下的结果:关 于测试(验证)数据的基线结果、关于用作正则化器的丢弃的验证结果, 以及关于用作正则化器的冻结的验证结果。分别在图14A至图14E所示的 每个示例中,与利用丢弃作为正则化器相比,利用冻结作为正则化器在基 本上所有的情况下都导致更高的准确度。在图14A所示的示例中,丢弃/冻 结率为0.5。图14A中的曲线图包括基线验证1402、丢弃0.5验证1404和 冻结0.5验证1406的结果。在图14B所示的示例中,丢弃/冻结率为0.6。 图14B中的曲线图包括基线验证1408、丢弃0.6验证1410和冻结0.6验证1412的结果。在图14C所示的示例中,丢弃/冻结率为0.7。图14C中的曲 线图包括基线验证1414、丢弃0.7验证1416和冻结0.7验证1418的结果。 在图14D所示的示例中,丢弃/冻结率为0.8。图14D中的曲线图包括基线 验证1420、丢弃0.8验证1422和冻结0.8验证1424的结果。在图14E所示 的示例中,丢弃/冻结率为0.9。图14E中的曲线图包括基线验证1426、丢弃0.9验证1428和冻结0.9验证1430的结果。

为了提供所公开的主题的各个方面的上下文,图15以及以下讨论旨在 提供对其中可实现所公开的主题的各个方面的合适的环境的简要概括描 述。

参考图15,用于实现本公开的各个方面的合适环境1500包括计算机 1512。计算机1512包括处理单元1514、系统存储器1516和系统总线 1518。系统总线1518将包括但不限于系统存储器1516的系统组件耦接到 处理单元1514。处理单元1514可以是各种可用处理器中的任何一种。双微 处理器和其他多处理器架构也可用作处理单元1514。

系统总线1518可以是多种类型的总线结构中的任一种,包括存储器总 线或存储器控制器、外围总线或外部总线以及/或者使用各种可用总线架构 的本地总线,这些总线架构包括但不限于工业标准架构(ISA)、微通道架 构(MSA)、扩展ISA(EISA)、智能驱动电子设备(IDE)、VESA本地 总线(VLB)、外围部件互连件(PCI)、卡总线、通用串行总线 (USB)、高级图形端口(AGP)、个人计算机存储器卡国际协会总线 (PCMCIA)、火线(IEEE 1394)和小型计算机系统接口(SCSI)。

系统存储器1516包括易失性存储器1520和非易失性存储器1522。基 本输入/输出系统(BIOS)(包含在计算机1512内的元件之间传输信息的 基本例程,诸如在启动期间)存储在非易失性存储器1522中。以举例说明 而非限制的方式,非易失性存储器1522可以包括只读存储器(ROM)、可 编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程 ROM(EEPROM)、闪存存储器或非易失性随机存取存储器(RAM)(例 如,铁电RAM(FeRAM))。易失性存储器1520包括随机存取存储器 (RAM),其充当外部高速缓存存储器。以举例说明而非限制的方式, RAM能以多种形式提供,诸如静态RAM(SRAM)、动态RAM(DRAM)、 同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型 SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)、直接Rambus RAM (DRRAM)、直接Rambus动态RAM(DRDRAM)和Rambus动态RAM。

计算机1512还包括可移除/不可移除、易失性/非易失性计算机存储介 质。图15示出了例如磁盘存储装置1524。磁盘存储装置1524包括但不限 于如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS- 100驱动器、闪存存储器卡或记忆棒的设备。磁盘存储装置1524还可以单 独包括存储介质或与其他存储介质组合,该其他存储介质包括但不限于光 盘驱动器,诸如光盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R 驱动器)、CD可重写驱动器(CD-RW驱动器)或数字通用磁盘ROM驱 动器(DVD-ROM)。为了便于将磁盘存储设备1524连接到系统总线 1518,通常使用可移除/不可移除的接口,诸如接口1526。

图15还描绘了充当用户和合适的操作环境1500中所述的基本计算机 资源之间的中介的软件。例如,此类软件包括操作系统1528。可以存储在 磁盘存储装置1524上的操作系统1528用于控制和分配计算机系统1512的 资源。系统应用程序1530利用操作系统1528通过例如存储在系统存储器 1516中或磁盘存储装置1524上的程序模块1532以及程序数据1534对资源 的管理。应当认识到,本公开可以用各种操作系统或操作系统的组合来实 现。

用户通过输入设备1536将命令或信息输入到计算机1512中。输入设 备1536包括但不限于诸如鼠标、轨迹球、触笔、触摸板、键盘、麦克风、 操纵杆、游戏板、卫星天线、扫描仪、电视调谐卡、数码相机、数码摄像 机、网络摄像头等指向设备。这些和其他输入设备经由接口端口1538通过 系统总线1518连接到处理单元1514。接口端口1538包括例如串行端口、 并行端口、游戏端口和通用串行总线(USB)。输出设备1540使用与输入 设备1536相同类型的端口中的一些端口。因此,例如,USB端口可以用于 向计算机1512提供输入,并将信息从计算机1512输出到输出设备1540。 提供输出适配器1542以示出存在如监视器、扬声器和打印机的一些输出设 备1540,以及需要特殊适配器的其他输出设备1540。通过举例说明而非限 制的方式,输出适配器1542包括在输出设备1540和系统总线1518之间提 供连接方式的视频和声卡。应当指出的是,其他设备和/或设备的系统提供 输入能力和输出能力两者,诸如远程计算机1544。

计算机1512可使用到一个或多个远程计算机(诸如,远程计算机 1544)的逻辑连接而在联网环境中操作。远程计算机1544可以是个人计算 机、服务器、路由器、网络PC、工作站、基于微处理器的设备、对等设备 或其他公共网络节点等,并且通常包括许多或全部的相对于计算机1512描 述的元素。出于简洁的目的,对于远程计算机1544仅示出了存储器存储设 备1546。远程计算机1544通过网络接口1548逻辑连接到计算机1512,然 后经由通信连接1550而被物理连接。网络接口1548涵盖有线和/或无线通 信网络,诸如局域网(LAN)、广域网(WAN)、蜂窝网络等。LAN技术 包括光纤分布式数据接口(FDDI)、铜质分布式数据接口(CDDI)、以太 网、令牌环等。WAN技术包括但不限于点到点链路、如综合业务数字网络 (ISDN)及其上的变体的电路交换网络、分组交换网络和数字用户线(DSL)。

通信连接1550是指用于将网络接口1548连接到总线1518的硬件/软 件。虽然为了清楚说明而在计算机1512内示出了通信连接1550,但是该通 信连接也可在计算机1512外部。仅出于举例的目的,连接到网络接口1548 所需的硬件/软件包括内部和外部技术,诸如调制解调器,包括常规电话级 调制解调器、电缆调制解调器和DSL调制解调器、ISDN适配器,以及以 太网卡。

应当注意,本公开的各个方面或特征可以在基本上任何无线电信或无 线电技术中利用,例如,Wi-Fi;蓝牙;全球微波接入互操作性(WiMAX); 增强型通用分组无线电业务(增强型GPRS);第三代合作伙伴计划(3GPP) 长期演进(LTE);第三代合作伙伴计划2(3GPP2)超移动宽带(UMB);3GPP 通用移动电信系统(UMTS);高速分组接入(HSPA);高速下行链路分组接入 (HSDPA);高速上行链路分组接入(HSUPA);GSM(全球移动通信系统) EDGE(GSM演进的增强数据速率)无线电接入网络(GERAN);UMTS地 面无线电接入网(UTRAN);LTE高级(LTE-A);等。另外,本文描述的一些 或所有方面可以在传统电信技术(例如,GSM)中利用。此外,移动以及 非移动网络(例如,互联网、诸如互联网协议电视(IPTV)的数据服务网络 等)可以利用本文所述的方面或特征。

尽管上面已经在一个和/或多个计算机上运行的计算机程序的计算机可 执行指令的一般上下文中描述了本主题,但本领域技术人员将认识到,本 公开内容也可以或可能与其他程序模块结合来实现。通常,程序模块包括 执行特定任务和/或实现特定抽象数据类型的例程、程序、部件、数据结构 等。此外,本领域技术人员应当认识到,可以用其他计算机系统配置来实 践本发明的方法,这些其他计算机系统配置包括单处理器或多处理器计算 机系统、小型计算设备、大型计算机、以及个人计算机、手持式计算设备 (例如,PDA、电话)、基于微处理器或可编程的消费者或工业电子产品 等。所例示的方面还可以在分布式计算环境中实践,在该环境中,由通过 通信网络链接的远程处理设备执行任务。然而,本公开的一些(如果不是 全部)方面可以在独立计算机上实践。在分布式计算环境中,程序模块可 以位于本地和远程存储器存储设备中。

如本申请中所用,术语“部件”、“系统”、“平台”、“接口”等 可以指代和/或可以包括计算机相关实体或与具有一个或多个特定功能的操 作机相关的实体。本文公开的实体可以是硬件、硬件和软件的组合、软 件、或执行中的软件。例如,部件可以是但不限于是在处理器上运行的进 程、处理器、对象、可执行文件、执行的线程、程序和/或计算机。通过举例说明的方式,在服务器上运行的应用程序和服务器都可以是部件。一个 或多个部件可以驻留在进程和/或执行的线程内,并且部件可以位于一台计 算机上和/或分布在两台或更多台计算机之间。

在另一个示例中,相应部件可以根据其上存储有各种数据结构的各种 计算机可读介质执行。部件可以诸如根据具有一个或多个数据分组(例 如,来自一个部件的数据,该部件与本地系统、分布式系统中的另一个部 件进行交互,和/或经由信号跨网络(诸如互联网)与其他系统交互)的信 号经由本地和/或远程进程进行通信。作为另一个示例,部件可以是具有由 电气或电子电路操作的机械零件提供的特定功能的装置,该电气或电子电 路由处理器所执行的软件或固件应用程序操作。在这种情况下,处理器可 以在装置的内部或外部,并且可以执行软件或固件应用程序的至少一部 分。作为又一个示例,部件可以是通过电子部件而非机械零件提供特定功 能的装置,其中电子部件可以包括处理器或用于执行至少部分地赋予电子 部件功能性的软件或固件的其他装置。在一个方面,部件可以例如在云计 算系统内经由虚拟机来仿真电子部件。

此外,术语“或”旨在表示包含性的“或”而不是排他性的“或”。 也就是说,除非另有指明或从上下文中清楚,否则“X采用A或B”旨在 表示任何自然的包含性置换。也就是说,如果X采用A;X采用B;或者 X采用A和B两者,则在任何前述情况下都满足“X采用A或B”。此外,本说明书和附图中使用的冠词“一”和“一个”通常应解释为是指 “一个或多个”,除非另有指明或从上下文中清楚是指单数形式。

如本文中所用,利用术语“示例”和/或“示例性”来表示用作示例、 实例或说明。为了避免疑问,本文所公开的主题不受此类示例的限制。此 外,本文中描述为“示例”和/或“示例性”的任何方面或设计不必被解释 为比其他方面或设计更优选或有利,也不意味着排除本领域普通技术人员 已知的等效示例性结构和技术。

可以使用标准编程或工程化技术将本文所述的各个方面或特征实现为 方法、装置、系统、或制品。此外,可以通过实现本文所公开的方法中的 至少一者或多者的程序模块来实现本公开中公开的各个方面或特征,程序 模块被存储在存储器中并且至少由处理器执行。硬件和软件或硬件和固件 的其他组合可以实现或实施本文描述的方面,包括所公开的方法。如本文 中所用,术语“制品”可以涵盖能够从任何计算机可读设备、载体或存储 介质访问的计算机程序。例如,计算机可读存储介质可以包括但不限于磁 存储设备(例如,硬盘、软盘、磁条…)、光盘(例如,紧凑盘(CD)、数 字通用盘(DVD)、蓝光盘(BD)…)、智能卡、以及闪存存储器设备(例 如,卡、棒、密钥驱动器…)等。

如在本说明书中采用的,术语“处理器”可以基本上指任何计算处理 单元或设备,包括但不限于单核处理器;具有软件多线程执行能力的单处 理器;多核处理器;具有软件多线程执行能力的多核处理器;具有硬件多 线程技术的多核处理器;并行平台;以及具有分布式共享存储器的并行平 台。另外,处理器可以指集成电路、专用集成电路(ASIC)、数字信号处理 器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂可编 程逻辑设备(CPLD)、分立栅极或晶体管逻辑部件、分立硬件部件、或被设 计为执行本文所述的功能的其任意组合。另外,处理器可以利用纳米级架 构(诸如但不限于基于分子和量子点的晶体管、开关和门)以便优化空间 使用或增强用户设备的性能。处理器也可以被实现为计算处理单元的组 合。

在本公开中,术语诸如“存储”、“存储装置”、“数据存储”、 “数据存储装置”、“数据库”、以及与部件的操作和功能相关的基本上 任何其他信息存储部件用于指代“存储器部件”、体现在“存储器”中的 实体、或包括存储器的部件。应当认识到,本文所述的存储器和/或存储器 部件可以是易失性存储器或非易失性存储器,或者可以包括易失性和非易 失性存储器两者。

以举例说明而非限制的方式,非易失性存储器可包括只读存储器 (ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM (EEPROM)、闪存存储器、或非易失性随机存取存储器(RAM)(例如,铁电 RAM(FeRAM))。例如,易失性存储器可以包括RAM,其可以充当外部 高速缓存存储器。以举例说明而非限制的方式,RAM能以多种形式提供, 诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双 倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、 Synchlink DRAM(SLDRAM)、直接Rambus RAM(DRRAM)、直接Rambus 动态RAM(DRDRAM)和Rambus动态RAM(RDRAM)。另外,本文的系统 或方法的公开的存储器部件旨在包括但不限于包括这些和任何其他合适类 型的存储器。

应当认识和理解,关于特定系统或方法描述的部件可以包括与关于本 文公开的其他系统或方法描述的相应部件(例如,分别命名的部件或类似 命名的部件)相同或类似的功能。

上面已经描述的内容包括提供本公开的优点的系统和方法的示例。当 然,无法出于描述本公开的目的而描述部件或方法的每个可想到的组合, 但本领域的普通技术人员可以认识到,本公开的许多另外组合和置换是可 能的。此外,关于在具体实施方式、权利要求书、附录和附图中使用术语 “包括”、“具有”、“拥有”等的程度,此类术语旨在以类似于术语 “包括”的方式为包括性的,如“包括”在权利要求中被用作过渡词时那 样解释。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号