首页> 中国专利> 具有竞争性奖励调节脉冲时间依赖的可塑性的人工神经网络及其训练方法

具有竞争性奖励调节脉冲时间依赖的可塑性的人工神经网络及其训练方法

摘要

一种训练人工神经网络的方法,该人工神经网络具有一系列层和至少一个对连续层中的神经元之间的连接权重进行编码的权重矩阵。所述方法包括:在所述一系列层中的输入层处接收至少一个输入;在所述一系列层中的输出层处基于所述至少一个输入生成至少一个输出;基于所述至少一个输出与期望输出之间的比较生成奖励;以及基于所述奖励修改所述连接权重。修改连接权重包括将到达每个神经元的突触输入权重之和保持实质上恒定,以及将来自每个神经元的突触输出权重之和保持实质上恒定。

著录项

说明书

相关申请的交叉参考

本申请要求美国临时申请第62/752,190号的优先权和利益,该申请提交于2018年10月29日,其全部内容通过引用并入本文。

背景技术

人工神经网络越来越多地用于执行复杂的任务,诸如图像识别、计算机视觉、语音识别和医疗诊断。人工神经网络通常通过呈现已经被手动标识为正训练示例(例如,人工神经网络意图识别或标识的图像或声音的类型的示例)或负训练示例(例如,人工神经网络意图不识别或标识的图像或声音的类型的示例)的一组示例来训练。

人工神经网络包括经由突触彼此连接的节点的集合,称为人工神经元。另外,人工神经元通常被聚集成层,诸如输入层、输出层、以及输入层与输出层之间的一个或多个隐藏层,这些层可对其输入执行不同类型的变换。人工神经网络可以是非脉冲神经网络(non-spiking neural network)或脉冲神经网络(spiking neural network)。在脉冲神经网络中,根据例如漏泄积分激发(Leaky integrate-and-fire,LIF)模型,人工神经元在它们达到某一电位时形成脉冲,然后它们的电位被重置。

在非脉冲人工神经网络中,神经元之间的连接具有随着人工神经网络学习而调整的权重,这取决于这些神经元之间的连接是否产生了网络的期望行为(例如,图像或声音的正确分类)来增加或减小连接处的信号强度。一些人工神经网络通过奖励调节的脉冲时间依赖的可塑性(reward modulated spike time dependent plasticity,RSTDP)来学习响应模式,该奖励调节的脉冲时间依赖的可塑性记录一个神经元使另一个神经元激发的事件,然后取决于其后接收到的奖励信号的值来加强或削弱相关突触。以前的研究已经开发了神经形态网络,其利用RSTDP在应用于输出层的线性分类器的帮助下辅助字符识别。其它系统已经使用RSTDP用于导航任务。然而,利用RSTDP的相关技术系统通常允许某些连接以增加强度,直到它们通过达到由其针对个别突触的等式所设定的限制而饱和为止。另外,利用RSTDP的一些相关技术系统通过应用有利于增强与频繁体验相关联的神经元之间的连接的奖励来训练网络。因此,这些相关技术的系统偏向于频繁刺激和抑制相对不频繁的刺激,因此当被提供这些不频繁刺激时,这些相关技术的系统可能表现不好。

发明内容

本公开涉及训练人工神经网络的各种方法,所述人工神经网络具有一系列层和至少一个权重矩阵,所述至少一个权重矩阵对所述一系列层的连续层中的神经元之间的连接权重进行编码。在一个实施例中,所述方法包括在所述一系列层中的输入层处接收至少一个输入,在所述一系列层中的输出层处基于所述至少一个输入生成至少一个输出,基于所述至少一个输出与期望输出之间的比较生成奖励,以及基于所述奖励来修改所述连接权重。所述连接权重的修改包括将到达每个神经元的突触输入权重之和保持实质上恒定,以及将来自每个神经元的突触输出权重之和保持实质上恒定。

该方法还可包括根据等式1来调整每个神经元的突触输入和输出权重,其中等式1是:

突触输入和输出权重的调整可以以规则的间隔来执行。

所述规则的间隔可以是近似(大约)50ms或更少。

所述方法还可以包括将在人工神经网络的运行时间(run time)内的奖励平均成实质上为零。

将奖励平均可以包括根据等式2计算奖励的移动平均分数(running averagescore),其中等式2是X

生成奖励可以包括根据等式3计算奖励,其中等式3是R

本公开还涉及系统的各种实施例。在一个实施例中,所述系统包括处理器和可操作地耦合到处理器的非暂时性计算机可读存储介质。所述非暂时性计算机可读存储介质具有存储在其中的软件指令,当所述软件指令由处理器执行时,使所述处理器利用存储在所述处理器中的人工神经网络来处理输入参数,基于所述输入参数从所述人工神经网络生成至少一个输出,基于所述输出与期望输出之间的比较生成奖励,以及基于所述奖励来修改所述人工神经网络中的神经元之间的连接权重。所述连接权重的修改包括将到达每个神经元的突触输入权重之和保持实质上恒定,以及将来自每个神经元的突触输出权重之和保持实质上恒定。

所述系统还可以包括被配置为生成所述输入参数的一系列传感器。

所述系统还可以包括至少一个交通工具部件,其中处理器被配置为基于人工神经网络的所述至少一个输出来控制所述至少一个交通工具部件。

当软件指令由处理器执行时,还可以使处理器将在一时间段内的奖励平均成实质上为零。

人工神经网络可以包括输入层和输出层,并且输入层的每个神经元可以直接连接到输出层的每个神经元。

人工神经网络可以包括输入层、至少一个隐藏层和输出层。

本公开还涉及用于控制交通工具的交通工具部件的各种方法,所述交通工具具有一系列传感器和与所述一系列传感器通信的处理器。在一个实施例中,所述方法包括从所述一系列传感器接收输入参数,利用存储在处理器中的人工神经网络处理输入参数,基于由人工神经网络计算的输出参数对交通工具部件进行控制,基于交通工具的期望行为与由对交通工具部件的控制所产生的交通工具的行为之间的比较来确定奖励,以及基于奖励来修改人工神经网络中的神经元之间的连接权重。所述连接权重的修改包括将到达每个神经元的突触输入权重之和保持实质上恒定,以及将来自每个神经元的突触输出权重之和保持实质上恒定。

交通工具可以是自主交通工具。

自主交通工具可以是自主汽车或自主飞行器。

当对交通工具的控制使得交通工具更接近目标时,可以计算奖励。

可以与在对交通工具的控制之后交通工具和目标之间的距离的减小成比例地计算奖励的值。

提供本发明内容以介绍将在以下详细描述中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键或必要特征,也不旨在用于限制所要求保护的主题的范围。所描述的特征中的一个或多个可以与一个或多个其它所描述的特征组合以提供可使用的设备。

附图说明

当结合附图考虑时,通过参考以下详细描述,本公开的实施例的这些和其他特征和优点将变得更加清楚。在附图中,用类似的附图标记来表示所有附图中类似的特征和部件。附图不一定按比例绘制。

图1是根据本公开的一个实施例的用于控制自主交通工具的人工神经网络的示意图;

图2A和2B分别描绘了根据本公开的一个实施例的用于控制自主汽车和自主飞行器的人工神经网络;

图3A-3C描绘了奖励调节脉冲时间依赖的可塑性(RSTDP)对突触前和突触后神经元脉冲时间以及奖励的到达的依赖性;

图4是描绘根据本发明的一个实施例的人工网络的神经元之间的突触权重变化的图;以及

图5是示出根据本公开的一个实施例的训练人工神经网络和使用人工神经网络控制交通工具的任务的流程图。

具体实施方式

本公开涉及具有竞争性奖励调节的脉冲时间依赖的可塑性(cRSTDP)的人工神经网络以及训练神经网络的方法的各实施例。本公开的人工神经网络可以适用于控制自主交通工具,诸如自主汽车或自主飞行器(例如,无人机)。根据本公开的各实施例的人工神经网络和训练人工神经网络的方法利用权重归一化(weight normalization),其中,随着神经元之间的连接权重基于训练期间所应用的奖励被调整,神经网络中的每个神经元处的权重之和被保持恒定或实质恒定(例如,到达每个神经元的突触输入的总强度被保持恒定或实质恒定的值,并且来自每个神经元的突触输出的总强度保持恒定或实质恒定的值)。权重归一化创建神经元之间对有限潜在突触强度的竞争,并由此防止或保护神经元以免其具有过度的输入或输出强度(例如,权重归一化防止神经元之间的连接权重免于饱和)。另外,根据本公开的各种实施例的人工神经网络和训练人工神经网络的方法利用零和(zero-sum)奖励训练方法,其中奖励值的长期平均值为零或实质上为零。神经网络的零和奖励训练防止或保护较常呈现的刺激响应对以免其相对于不常呈现的刺激响应对具有竞争优势(例如,神经网络的零和奖励训练允许神经网络从罕见体验和常见体验两者中学习)。

图1描绘了根据本公开的一个实施例的人工神经网络100,其被实现到诸如自主汽车或自主飞行器的自主或半自主交通工具的控制系统中。人工神经网络100可以存储在非暂时性计算机可读存储介质(例如,计算机存储器)上,其在由处理器执行时使人工神经网络100学习控制自主或半自主交通工具,诸如基于奖励系统将交通工具朝向一系列路点导航,奖励系统在神经元的激发导致成功结果(例如,将交通工具移动得更靠近路点之一)时增强人工网络100中的那些神经元之间的连接权重。

本文中使用的术语“处理器”包括用来处理数据或数字信号的硬件、固件和软件的任何组合。处理器的硬件可以包括例如专用集成电路(ASIC)、通用或专用中央处理器(CPU)、数字信号处理器(DSP)、图形处理器(GPU)和诸如现场可编程门阵列(FPGA)的可编程逻辑器件。在处理器中,如本文所使用的,每个功能由通过配置成硬件(即硬连线)以执行该功能,或者通过配置成执行存储在非暂时性存储介质中的指令的更通用的硬件来执行,诸如CPU。处理器可以制造在单个印刷线路板(PWB)上或者分布在几个互连的PWB上。处理器可以包含其他处理器;例如,处理器可以包括在PWB上互连的两个处理器,FPGA和CPU。

在图1所示的实施例中,人工神经网络100包括包含一系列神经元102的输入层101、各自包含一系列神经元104的一个或多个隐藏层103、以及包含一系列神经元106的输出层105。尽管在所示的实施例中,人工神经网络100包括单个隐藏层103,但是在一个或多个实施例中,人工神经网络100可以包括任何其他合适数量的隐藏层,这取决于例如人工神经网络100能够学习的信息的期望复杂度。另外,在一个或多个实施例中,可以提供没有任何隐藏层103的人工神经网络100(例如,输入层101可以直接连接到输出层105)。在所示实施例中,一系列连接107将输入层101中的每个神经元102连接到隐藏层103中的每个神经元104,并且一系列连接108将隐藏层103中的每个神经元104连接到输出层105中的每个神经元106。此外,相邻层101、103、105中的神经元102、104、106之间的连接107、108中的每一个具有连接权重。

输入层101中的神经元102从一个或多个传感器109(例如,在人工神经网络被配置用以控制的交通工具上提供的一个或多个传感器)接收输入。在一个或多个实施例中,传感器109的数量可以取决于例如人工神经网络100具有的可用的信息量。传感器109可以是任何合适类型或种类的传感器,这取决于传感器109被设计成检测的参数的类型或种类和/或传感器109被设置在其上或其中的交通工具的类型或种类。例如,在一个或多个实施例中,传感器109可以是目标角度传感器,其被配置为检测目标(例如,路点)相对于交通工具的取向的相对角度。在一个或多个实施例中,传感器109可以包括被配置为测量目标(例如,路点)和交通工具之间的距离传感器(例如,激光距离传感器)。在一个或多个实施例中,路点可以是任何合适类型或种类的路点,例如,交通工具的直接驾驶点中的不移动或实质上不移动的目标。在一个或多个实施例中,输入层101中的神经元102的数量取决于传感器109的数量。在一个或多个实施例中,对于每个传感器109,输入层101包括至少一个神经元102。尽管在所示实施例中,输入层101包括与三个输入传感器109相对应的三个神经元102,但是在一个或多个实施例中,输入层101可以包括任何其他合适数量的神经元102,这取决于交通工具中使用的传感器109的数量。

输出层105中的神经元106被配置为控制交通工具上的一个或多个交通工具控制110,诸如自主或半自主汽车的转向控制或自主或半自主飞行器的转子控制。在一个或多个实施例中,输出层105中的神经元106的数量对应于人工神经网络100被配置用以控制的交通工具控制110的数量。因此,尽管在所示的实施例中输出层105包括三个神经元106,但是在一个或多个实施例中,输出层105可以包括任何其他合适数量的神经元,这取决于人工神经网络100被配置用以控制的交通工具控制110的数量。

在所示的实施例中,通过将奖励111(例如,反馈信号)应用于人工神经网络100来训练人工神经网络100。奖励111被配置成取决于交通工具相比于期望行为的行为来调整神经元102、104、106之间的连接107、108的权重。当期望的行为发生时,奖励111被应用于人工神经网络100以调整神经元102、104、106之间的连接107、108的权重,使得对输入的期望响应变得更为可能。奖励111的得分值可取决于表示期望事件或目标的任何事件。例如,在一个或多个实施例中,每当交通工具(例如,汽车)更接近目标(例如,路点)时,奖励111可以被应用于人工神经网络100。在一个或多个实施例中,应用于人工神经网络100的奖励111的值可以与交通工具和目标(例如,路点)之间的距离的减小成比例。在一个或多个实施例中,仅当交通工具成功到达目标(例如,路点)时才应用奖励111。在一个或多个实施例中,这些不同的奖励状态导致人工神经网络100的不同训练时间。例如,在一个或多个实施例中,每当交通工具更靠近目标时应用奖励111,比与交通工具和目标之间的距离的减小成比例地应用奖励111,和/或仅当交通工具成功地到达目标时才应用奖励111,更快地训练人工神经网络100。

在一个或多个实施例中,被应用来训练人工神经网络100的奖励111利用权重归一化,其中对于每个神经元102、104、106,随着神经元102、104、106之间的连接107、108的权重基于所应用的奖励111被调整,到达该神经元102、104、106的突触输入权重之和被保持恒定或实质恒定(例如,到达每个神经元102、104、106的突触输入的总强度被保持恒定或实质恒定的值)。因此,在到达神经元102、104、106的突触前输入权重变化的任何时间,到达该相同神经元102、104、106的所有其它突触前输入权重被更新,以保持对该神经元102、104、106的相同或实质上相同的总权重贡献。在一个或多个实施例中,被调整以保持恒定或实质上恒定值的突触前权重可全部同等地调整,或者它们可与它们的先前突触前权重成比例地调整。另外,在一个或多个实施例中,权重归一化还随着神经元102、104、106之间的连接107、108的权重基于所应用的奖励111被调整,将来自每个神经元102、104、106的突触输出权重之和保持恒定或实质上恒定的值(例如,来自每个神经元102、104、106的突触输出的总强度保持恒定或实质上恒定的值)。因此,在来自神经元102、104、106的突触输出权重变化的任何时候,来自该相同神经元102、104、106的所有其他突触输出权重被更新,以保持来自该神经元102、104、106的相同或实质相同的总权重贡献。在一个或多个实施例中,(被调整以保持恒定或实质恒定值的)突触输出权重可全部被同等地调整,或者它们可与它们先前的突触输出权重成比例地调整。权重归一化创建神经元102、104、106之间的有限潜在突触强度的竞争,并由此防止或保护神经元102、104、106以免其具有过度的输入或输出强度(例如,权重归一化防止或保护神经元102、104、106之间的连接107、108的权重免于饱和)。

另外,在一个或多个实施例中,训练人工神经网络100还包括调整连接107、108中的每一个的权重以将连接权重的总和向预设目标调整回去。可以以预定的规则的间隔,例如50ms(或者近似或大约50ms)或更少,来调整连接107、108的权重。在一个或多个实施例中,调整连接107、108的权重的间隔可以是小于权重动态(weight dynamics)的任何时间,其被配置成确保连接107、108的权重没有足够的时间显著地移出其预期范围。在一个或多个实施例中,可根据如下等式1来调整连接107、108中的每一个的权重:

其中W

在一个或多个实施例中,训练人工神经网络100包括将奖励111的长期平均值归一化为零或接近零(例如,近似或大约零)。零和奖励111被配置为防止或保护常常呈现的刺激响应对以免其相对于较不频繁的刺激响应对具有竞争优势(例如,神经网络100的零和奖励111训练允许神经网络100从罕见体验和常见体验两者中学习)。例如,在其中到输入层101的输入来自交通工具中的距离和目标角度传感器109的一个或多个实施例中,零和奖励111被配置成防止或保护来自更新频率可能高于目标角度传感器109的距离传感器109的输入,以免其比目标角度传感器109对人工神经网络100的训练具有更大的影响。在一个或多个实施例中,奖励111的移动平均分数(running average score)根据如下等式2来计算:

X

其中α是适应速率,S

R

图2A描述了根据本公开的一个实施例的用于控制自主汽车的人工神经网络200。在所示的实施例中,人工神经网络200包括具有两个输入神经元202'、202”的输入层201和具有两个输出神经元204'、204”的输出层203。输入层201中的神经元202'、202”以多对多(all-to-all)的方式直接通过连接205连接到输出层203中的神经元204'、204”。输入层201中的神经元202'、202”从目标角度传感器207(例如,被配置为检测目标相对于自主汽车的取向的相对角度的传感器)接收信号输入206。在所示的实施例中,输入层201中的神经元202'、202”接收与汽车的运动方向和目标位置之间的角度成比例的输入信号206。输出层203中的神经元204'、204”分别控制自主汽车的左和右转向控制208、209(例如,输出层203中的一个神经元204'的输出被配置为将汽车转向到左边,并且输出层203中的另一个神经元204”的输出被配置为将汽车转向到右边)。

输入层201中的神经元202'、202”最初由连接205以相等权重连接到输出层203中的神经元204'、204”,并且通过应用奖励210来基于汽车的期望动作调整神经元202'、202”和204'、204”之间的连接205的权重来训练人工神经网络200,使得对输入206的期望响应变得更为可能。在一个或多个实施例中,每当输出层203中的神经元204'、204”控制转向控制208、209并且使汽车更接近目标时,奖励210可以被应用以调整神经元202'、202”和204'、204”之间的连接权重。在一个或多个实施例中,应用于人工神经网络200的奖励210的值可以与由控制转向控制208、209的输出层203中的神经元204'、204”引起的汽车与目标之间的距离的减小成比例。在一个或多个实施例中,奖励210可以被应用以仅在汽车成功地到达目标时才调整神经元202'、202”和204'、204”之间的连接205的权重。另外,奖励210的长期平均值可被归一化为零、近似或大约为零、或者接近零(例如,如上所述,人工神经网络200可用零和奖励210来训练)。

此外,在一个或多个实施例中,应用于训练图2A中所示的人工神经网络200的奖励210可利用权重归一化,如上所述,其中,对于每个神经元202'、202”、204'、204”,随着神经元202'、202”、204'、204”之间的连接205的权重基于所应用的奖励210被调整,到达该神经元202'、202”、204'、204”的突触输入权重之和保持恒定或实质恒定,和/或来自该神经元202'、202”、204'、204”的突触输出权重之和保持恒定或实质恒定值,这创建了对神经元202'、202”、204'、204”之间的有限潜在突触强度的竞争,并由此防止或保护神经元202'、202”、204'、204”以免其具有过度的输入或输出强度(例如,到达每个神经元202'、202”、204'、204”的突触输入的总强度保持恒定或实质恒定值,和/或来自每个神经元202'、202”、204'、204”的突触输出的总强度保持恒定或实质恒定值)。

图2B描绘了根据本公开的一个实施例的用于控制自主飞行器的人工神经网络300。在所示的实施例中,人工神经网络300包括具有四个输入神经元302'、302”、302”'、302””的输入层301和具有四个输出神经元304'、304”、304”'、304””的输出层303。输入层301中的神经元302'、302”、302”'、302””以多对多的方式直接通过连接305连接到输出层303中的神经元304'、304”、304”'、304””。输入层301中的神经元302'、302”、302”'、302””从传感器307(例如,被配置为检测目标与自主飞行器的取向的相对角度以及从自主飞行器到目标的距离的传感器307)接收信号输入306。在所示的实施例中,输入层301中的神经元302'、302”、302”'、302””接收与飞行器的运动方向和到目标位置的距离之间的角度成比例的输入信号306。输出层303中的神经元304'、304”、304”'、304””控制自主飞行器的倾斜控制308、309、310、311(例如,输出层303中的神经元304'、304”、304”'、304””的输出被配置为分别使自主飞行器向左、向右、向前和向后倾斜)。

输入层301中的神经元302'、302”、302”'、302””最初经由连接305以相等权重连接到输出层303中的神经元304'、304”、304”'、304””,并且通过应用奖励312来基于自主飞行器的期望动作调整神经元302'-302””和304'-304””之间的连接305的权重来训练人工神经网络300,使得对输入306的期望响应变得更为可能。在一个或多个实施例中,每当输出层303中的神经元304'-304””控制倾斜控件308、309、310、311并且使自主飞行器更接近目标时,奖励312可以被应用以调整神经元302'-302””和304'-304””之间的连接权重。在一个或多个实施例中,奖励312可以被应用以仅在自主飞行器成功到达目标时才调整神经元302'-302””和304'-304””之间的连接权重。另外,奖励312的长期平均值可被归一化为零、近似或大约为零、或者接近零(例如,如上所述,人工神经网络300可用零和奖励312来训练)。

此外,在一个或多个实施例中,应用于训练图2B中所示的人工神经网络300的奖励312可利用权重归一化,如上所述,其中,对于每个神经元302'-302””和304'-304””,随着神经元302'-302””和304'-304””之间的连接权重基于所应用的奖励312被调整,到达该神经元302'-302””和304'-304””的突触输入权重之和保持恒定或实质恒定,和/或来自该神经元302'-302””和304'-304””的突触输出权重之和保持恒定或实质恒定值,这创建了神经元302'-302””和304'-304””之间的有限潜在突触强度的竞争,并由此防止或保护神经元302'-302””和304'-304””以免其具有过度的输入或输出强度(例如,到达每个神经元302'-302””和304'-304””的突触输入的总强度保持恒定或实质恒定值,和/或来自每个神经元302'-302””和304'-304””的突触输出的总强度保持恒定或实质恒定值)。

图3A-3C描绘了根据本公开的各种实施方式的奖励调节脉冲时间依赖的可塑性(RSTDP)对突触前和突触后神经元脉冲时间以及奖励的到达的依赖性。

图4是描绘根据本发明的一个实施例的人工网络的神经元之间的突触权重变化作为人工神经网络的迭代次数的函数的图。迭代是指对人工神经网络的单独调用。图4中的图是从收集自图2A所示的人工神经网络200的数据生成的,该人工神经网络包括以多对多方式连接的两个输入神经元202'、202”和两个输出神经元204'、204”,并且图4中的权重是针对神经元202'、202”、204'、204”之间的四个突触连接中的每一个。在图4所示的曲线图中,当交通工具实时运行时,每0.3秒(或者近似或大约每0.3秒)发生迭代。在一个或多个实施例中,迭代可以以任何其他合适的频率发生,诸如小于0.3秒或大于0.3秒,这取决于人工神经网络可以对交通工具的方向做出调整的期望速度。图4中的曲线图描绘了在自主飞行器(例如,无人机)中实现的人工神经网络中的神经元之间的连接权重。人工神经网络包含八(8)个神经元,包括被配置为从传感器接收指示目标所处的基本方向(例如,北、东、南或西)的输入的四个输入神经元,以及被配置为控制自主飞行器的倾斜方向的四个输出神经元。输入神经元以多对多的方式直接连接到输出神经元。在一个或多个实施例中,人工神经网络的有效训练可以在近似或大约500次迭代内完成,但是为了连接权重稳定可能需要明显更多的迭代。在图4所示的实施例中,连接权重在近似或大约5,000次迭代之后稳定。

图4还描述了人工神经网络对变化的环境和/或传感器损坏的适应性。在人工神经网络的近似或大约7,500次迭代之后,左和右输入(例如,来自左和右传感器的输入)被交换。如图4中所示,切换左和右输入最初造成人工神经网络在控制自主飞行器朝向目标方面的性能的显著降低,但是在近似或大约10,000次迭代(在7,500次迭代处的左和右输入的突然变化之后的2,500次迭代)之后,人工神经网络能够重新学习并且控制飞行器朝向目标,如在大约10,000次迭代处稳定的连接权重所示。因此,在所示实施例中,人工神经网络的重新学习速率(即,在左输入和右输入的突然交换之后人工网络学习的速率)明显快于人工神经网络的初始学习速率。

图5是示出根据本公开的一个或多个实施例的训练人工神经网络并利用人工神经网络来控制自主或半自主交通工具(例如,自主或半自主汽车或飞行器)的至少一个部件的方法400的任务的流程图。在图5所示的实施例中,方法400包括在人工神经网络的输入层处接收来自一个或多个传感器(例如,距离传感器和/或角度传感器)的输入的任务410,该一个或多个传感器被配置为测量和/或确定交通工具到目标(例如,路点)的距离和/或交通工具与目标之间的角度。在所示的实施例中,方法400还包括在人工神经网络的输出层处基于至少一个输入生成至少一个输出的任务420。方法400还包括基于来自输出层中的神经元的输出来控制交通工具的一个或多个控制(例如,汽车的左和右转向控制或飞行器的倾斜控制)的任务430。在所示实施例中,方法400还包括基于交通工具的期望行为和由控制交通工具的控制而产生的交通工具的行为之间的比较生成奖励的任务440。

在图5所示的实施例中,方法400还包括基于在任务440中计算或确定的奖励来修改人工神经网络中的神经元之间的连接权重的任务450。在一个或多个实施例中,修改连接权重的任务450包括将到达每个神经元的突触输入权重之和保持实质恒定,并将来自每个神经元的突触输出权重之和保持实质恒定(例如,修改连接权重的任务450利用权重归一化,其中,随着神经元之间的连接权重基于训练期间所应用的奖励被调整,神经网络中的每个神经元处的权重之和保持恒定或实质恒定)。如上所述,权重归一化创建对神经元之间的有限潜在突触强度的竞争,并由此防止或保护神经元以免其具有过度的输入或输出强度(例如,权重归一化防止神经元之间的连接权重饱和)。另外,在一个或多个实施例中,修改连接权重的任务450可包括以设定或预定的规则的间隔,诸如例如50ms(或近似或大约50ms)或更小,来调整突触的权重。在一个或多个实施例中,连接的权重可根据上述等式1来调整。

继续参考图5中所示的实施例,方法400包括将在任务440中计算或确定的奖励的长期平均值归一化为零或接近零(例如,近似或大约为零)的任务460。如上所述,零和奖励被配置为防止或保护常常呈现的刺激响应对免于其对较不频繁的刺激响应对具有竞争优势(例如,神经网络的零和奖励训练允许神经网络从罕见体验和常见体验两者中学习)。在一个或多个实施例中,可以根据上述等式2和等式3来执行将奖励的长期平均值归一化为零或接近零的任务460。

当人工神经网络学习控制交通工具时,重复上述任务410-460(例如,以规则的间隔,例如每0.3秒或者近似或大约每0.3秒)。在一个或多个实施例中,人工神经网络的有效训练可以在大约500次迭代内完成,但是为了连接权重稳定可能需要明显更多的迭代(例如,在一个或多个实施例中,连接权重可以在近似或大约5,000次迭代之后稳定)。

应当理解,附图不一定是按比例的,并且除了或代替另一实施例中的任何一个或多个特征,可以结合实施例的任何一个或多个特征。尽管在此使用了诸如“外”、“内”、“上”、“下”、“下方”、“上方”、“垂直”、“水平”的相对术语和类似术语来描述一个元件与另一个元件的空间关系,但是应当理解,这些术语旨在涵盖本发明的各种元件和部件的除了图中所示的定向之外的不同定向。另外,如本文所用,术语“实质上”、“大约”、“一般”和类似术语用作近似术语而不是程度术语,并且旨在说明本领域普通技术人员将认识到的测量或计算值的固有偏差。此外,上述任务可以以所描述的顺序或以任何其它合适的顺序执行。另外,上述方法不限于所描述的任务。相反,对于每个实施例,可以不存在上述任务中的一个或多个,和/或可以执行附加的任务。此外,如本文所使用的,当元件或层被称为在另一元件或层“上”、“连接到”、“耦合到”或“邻近于”另一元件或层时,其可以直接在另一元件或层上、直接连接到、直接耦合到或紧邻近于另一元件或层,或者可以存在一个或多个中间元件或层。相反,当元件或层被称为“直接在另一元件或层上”、“直接连接到”、“直接耦合到”或“紧邻近于”另一元件或层时,不存在中间元件或层。

此外,本文中引述的任何数值范围旨在包括包含在所引述范围内的相同数值精度的所有子范围。例如,“1.0至10.0”的范围旨在包括所述最小值1.0和所述最大值10.0之间的所有子范围(并包括所述最小值1.0和所述最大值10.0),即,具有等于或大于1.0的最小值和等于或小于10.0的最大值,例如2.4至7.6。本文所述的任何最大数值限度旨在包括其中所包含的所有较低数值限度,并且本说明书中所述的任何最小数值限度旨在包括其中所包含的所有较高数值限度。因此,申请人保留修改包括权利要求书的本说明书的权利,以明确地列举包含在本文明确列举的范围内的任何子范围。

尽管已经具体参考本发明的示例性实施例详细描述了本发明,但是本文描述的示例性实施例不是穷举的,也不是要将本发明的范围限制为所公开的确切形式。本发明所属领域和技术的技术人员将理解,在不有意背离如所附权利要求及其等效物中所阐述的本发明的原理、精神和范围的情况下,可以对所描述的结构以及组装和操作的方法进行改变和变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号