首页> 中国专利> 深层神经网络的学习方法及学习装置、以及范畴独立的子网络的学习装置

深层神经网络的学习方法及学习装置、以及范畴独立的子网络的学习装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供可缩短以属于多个范畴的数据使DNN进行学习的时间的DNN的学习方法。该方法包含对以日英的学习数据使语言独立的子网络(120)和依赖语言的子网络(122及124)进行学习的步骤。该步骤包含：以日文数据使将子网络(120)的输出层的神经元和子网络(122)的输入层的神经元连接而成的DNN进行学习的第1步骤；形成取代子网络(122)而将子网络(124)连接至子网络(120)而成的DNN，并以英文数据进行学习的步骤；交替地执行这些步骤直至学习数据结束为止的步骤；在完成后将第1子网络(120)与其他子网络分离开并作为范畴独立的子网络存储至存储介质的步骤。

著录项

公开/公告号CN105229676A

专利类型发明专利
公开/公告日2016-01-06

原文格式PDF
申请/专利权人国立研究开发法人情报通信研究机构;
展开▼

申请/专利号CN201480029326.5
发明设计人松田繁树;卢绪刚;堀智织;柏冈秀纪;
展开▼

申请日2014-05-15
分类号G06N3/04;G06N3/08;G10L15/16;
代理机构中科专利商标代理有限责任公司;
代理人赵琳琳
地址日本国东京都
入库时间 2023-12-18 13:33:31

法律信息

法律状态公告日

法律状态信息

法律状态
2023-05-26

未缴年费专利权终止 IPC(主分类):G06N 3/04 专利号:ZL2014800293265 申请日:20140515 授权公告日:20181123

专利权的终止
2018-11-23

授权

授权
2016-02-03

实质审查的生效 IPC(主分类):G06N3/04 申请日:20140515

实质审查的生效
2016-01-06

公开

公开

说明书

技术领域

本发明涉及声音识别及图像识别等识别技术所采用的深层神经网络 (以下为了使记载简略而称为“DNN”。)，尤其涉及使特定用途的DNN 的学习高速化的技术。

背景技术

作为机器学习的1种方法，DNN正备受关注。DNN例如适用于图像识别及声音识别等，在以下的文献中报告了：发挥错误率较以前降低20～ 30％等优越的性能。

Y.Bengio，“LearningdeeparchitecturesforAI，” FoundationsandTrendsinMachineLearning，Vol.2，No.1， pp.1-127，2009.

G.Hinton，L.Deng，D.Yu，G.Dahl，A.Mohamed，N. Jaitly，A.Senior，V.Vanhoucke，P.Nguyen，T.Sainath，and B.Kingsbury，“DeepNeuralNetworksforAcousticModeling inSpeechRecognition：TheSharedViewsofFourResearch Groups，”IEEESignalProcessingMagazine，Vol.29，No.6， pp.82-97，2012.

A.Mohamed，G.Dahl，andG.Hinton，“Acoustic ModelingusingDeepBeliefNetworks，”IEEETransactionson Audio，Speech，andLanguageProcessing，Vol.20，No.1，pp. 14-22，2012.

DNN可以说是具有比以往更多的层的神经网络。具体是，参照图1， DNN30包含输入层40、输出层44、及设置在输入层40与输出层44之间的多个隐藏层42。输入层40具有多个输入节点(神经元)。输出层44 具有与识别对象的数量相应的神经元。隐藏层42具有多个隐藏层(7层、 9层、11层等)。各隐藏层分别具有多个神经元。

在DNN30中，不仅层的数量多，各层内的神经元数也多。因而，有时用于学习的计算量会成为庞大的量。以前进行这种计算几乎是不可能的，但随着计算机自身的高功能化、分布并行处理技术的发达及计算理论的发展，也能进行DNN的学习。可是，在为了学习而使用大量数据的情况下，为了学习依然需要长时间。例如，在某一实验中，作为学习数据而使用1千万个200像素×200像素的图像，使用了1,000台的16核的计算机的DNN的学习则需要3天(QuocV.Le，Marc′AurelioRanzato， RajatMonga，MatthieuDevin，KaiChen，GregS.Corrado， JeffDeanAndrewY.Ng，″BuildingHigh-levelFeatures UsingLargeScaleUnsupervisedLearning，″Proc.ICML， 2012.)。

发明内容

发明所要解决的技术问题

例如，在将DNN适用于声音识别的情况下，因为根据作为对象的语言的不同，音素构成也不同，所以必须单独地准备DNN并分开独立地进行学习。例如，参照图2，在使用日文与英文的声音识别用DNN的情况下，单独地准备日文DNN60与英文DNN62，分别使用各不相同的学习数据进行学习。即，需要进行2个DNN的学习。在需要新的语言的声音识别的情况下，准备新的DNN而重新进行学习。即，在针对全部N种语言进行DNN的学习的情况下，与进行1个DNN的情况相比较，需要约 7倍的时间。DNN的学习需要这样的长时间，导致系统的开发需要庞大的时间，并不优选。

这样的问题是不仅在用于进行按语言分类的声音识别的DNN学习时会产生，例如即便在按范畴分类来准备图像识别用的DNN之类的情况下也会产生的问题。

为此，本发明的目的在于，提供可缩短使用对象属于某一范畴的学习数据进行DNN的学习之际的时间的DNN的学习装置及方法以及使用了这样的DNN的对象的识别装置。

用于解决技术问题的手段

本发明的第1局面涉及的DNN的学习方法，是在对被分类为多个范畴的对象进行识别的DNN中，利用计算机使多个范畴所共同使用的范畴独立的子网络进行学习的、DNN的学习方法。该方法包括：计算机在存储介质内存储第1子网络、第2子网络及第3子网络的步骤；和子网络的学习步骤，计算机以属于多个范畴之中的第1范畴及第2范畴内的学习数据使第1子网络、第2子网络及第3子网络进行学习。子网络的学习步骤包含：DNN的学习步骤，计算机以属于第1范畴内的学习数据使第1DNN 进行学习，并以属于第2范畴内的学习数据使第2DNN进行学习，由此进行第1DNN及第2DNN的学习，其中，所述第1DNN将第2子网络连接于第1子网络的后级而形成，所述第2DNN络将第3子网络连接于第1 子网络的后级而形成；和计算机在完成DNN的学习步骤之后，将第1子网络与其他子网络分离开并作为范畴独立的子网络存储至存储介质的步骤。

优选，第1子网络、第2子网络及第3子网络均包括输入层、隐藏层及输出层。DNN的学习步骤包含：计算机对第1子网络、第2子网络及第3子网络进行初始化的步骤；第1学习步骤，计算机对第1子网络的输出层的神经元与第2子网络的输入层的神经元进行连接来形成第1DNN，并以属于第1范畴内的学习数据使第1DNN进行学习；第2学习步骤，计算机对第1子网络的输出层的神经元与第3子网络的输入层的神经元进行连接来形成第2DNN，并以属于第2范畴内的学习数据使第2DNN进行学习；和计算机交替地执行第1学习步骤及第2学习步骤直至结束条件成立为止的步骤。

更优选，该学习方法还包括：计算机在完成子网络的学习步骤之后，将第2子网络与其他子网络分离开并作为针对第1范畴的对象而使用的依赖范畴的子网络存储至存储介质的步骤。

本发明的第2局面涉及的学习方法，是在对被分类为多个范畴的对象进行识别的DNN中，利用计算机使特定范畴所使用的依赖范畴的子网络进行学习的、DNN的学习方法。该方法包括：计算机存储多个范畴所共同使用的范畴独立的子网络的步骤；计算机存储特定范畴用的子网络的步骤；计算机对特定范畴用的子网络进行初始化的步骤；计算机对范畴独立的子网络的输出层的神经元与特定范畴用的子网络的输入层进行连接，由此来形成DNN的步骤；和计算机使用属于特定范畴内的学习数据，且将范畴独立的子网络的参数固定，使特定范畴用的子网络进行学习的步骤。

本发明的第3局面涉及的存储介质是存储了通过上述任一方法进行过学习的DNN的子网络的参数的存储介质。

本发明的第4局面涉及的计算机程序使计算机执行DNN的学习方法。该学习方法是在对被分类为多个范畴的对象进行识别的DNN中使多个范畴所共同使用的范畴独立的子网络进行学习的方法。该方法包括：计算机在存储介质内存储第1子网络、第2子网络及第3子网络的步骤；和子网络的学习步骤，计算机以属于多个范畴之中的第1范畴及第2范畴内的学习数据使第1子网络、第2子网络及第3子网络进行学习。

子网络的学习步骤包含：DNN的学习步骤，计算机以属于第1范畴内的学习数据使将第2子网络连接于第1子网络的后级而形成的第1DNN 进行学习，并以属于第2范畴内的学习数据使将第3子网络连接于第1 子网络的后级而形成的第2DNN进行学习，由此进行第1DNN及第2DNN 的学习；和计算机在完成DNN的学习步骤之后，将第1子网络与其他子网络分离开并作为范畴独立的子网络存储至存储介质的步骤。

本发明的其他局面涉及的范畴独立的子网络的学习装置，是在对被分类为多个范畴的对象进行识别的深层神经网络中，使所述多个范畴所共同使用的范畴独立的子网络进行学习的装置。该装置包含：存储装置，其存储第1子网络、第2子网络及第3子网络；和子网络的学习装置，其以属于多个范畴之中的第1范畴及第2范畴内的学习数据使第1子网络、第2 子网络及第3子网络进行学习。子网络的学习装置包含：深层神经网络的学习装置，其以属于第1范畴内的学习数据使第1深层神经网络进行学习，并以属于第2范畴内的学习数据使第2深层神经网络进行学习，由此进行第1深层神经网络及第2深层神经网络的学习，其中，所述第1深层神经网络将第2子网络连接于第1子网络的后级而形成，所述第2深层神经网络将第3子网络连接于第1子网络的后级而形成；和子网络的分离装置，其在完成深层神经网络的学习装置的学习之后，将第1子网络与其他子网络分离开并作为范畴独立的子网络存储至存储介质。

本发明的另一局面涉及的深层神经网络的学习装置，在对被分类为多个范畴的对象进行识别的深层神经网络中，使特定范畴所使用的依赖范畴的子网络进行学习。该装置包含：存储装置，其存储多个范畴所共同使用的范畴独立的子网络和特定范畴用的子网络；初始化装置，其对特定范畴用的子网络进行初始化；深层神经网络形成装置，其对范畴独立的子网络的输出层和特定范畴用的子网络的输入层进行连接，由此来形成深层神经网络；和学习装置，其使用属于特定范畴内的学习数据，且将范畴独立的子网络的参数固定，使特定范畴用的子网络进行学习。

附图说明

图1是示意性地表示DNN的构成的图。

图2是用于说明针对日文与英文单独地进行DNN的学习的情况的示意图。

图3是说明完成本发明的DNN的学习涉及的构思的DNN的内部构成的示意图。

图4是说明完成本发明的DNN的学习涉及的构思的DNN的内部构成的示意图。

图5是说明本发明的各实施方式涉及的DNN的基本构成的示意图。

图6是表示本发明的各实施方式中的不依赖于语言的独立的子网络 (以下称为“独立子网络”。)和依赖于语言的子网络(以下称为“依赖子网络”。)的连接方式的框图。

图7是表示本发明的各实施方式中的独立子网络与依赖子网络的连接的具体构成的框图。

图8是表示独立子网络与依赖子网络的流通方式及连接方式的示意图。

图9是实现本发明的实施方式涉及的DNN中的独立子网络与依赖子网络的同时学习的程序的流程图。

图10是实现将本发明的实施方式涉及的DNN中的独立子网络固定而进行依赖子网络的学习的处理的程序的流程图。

图11是执行实施方式涉及的DNN的学习处理的计算机系统的外观图。

图12是表示图11所示的计算机的内部构成的框图。

具体实施方式

在以下的说明及附图中，对同一部件赋予同一参照编号。因此，不再重复针对这些部件的详细说明。其中，以下的实施方式主要针对涉及声音识别的例子，但本发明并未限定于这种实施方式。例如也可适用于图像识别。

[基本想法]

如上所述，在针对多语言声音进行DNN的学习的情况下，需要使单独的DNN以各自的语言分开独立地学习。可是为此存在需要长时间的问题。为了解决这样的问题，在以下的假设中进行了多语言声音的DNN的学习。根据实验，认为该假设具有足够的依据。

(1)对于各不相同的语言而言，作为对象的是相同的声音。因此，多语言中共同的特征、换言之从语言独立出来的特征应该在DNN的某个相同的地方被处理。例如元音、辅音、爆破音及摩擦音等音素属性的检测等相当于此。这些处理假设均在接近于输入的层中被进行。即，如图3 所示，假设：在日文DNN60及英文DNN62的任一种中，处理上述那样的音素属性的神经元80及82等均位于接近于输入层的位置。

(2)另一方面，参照图4，假设依赖于语言的处理在接近于输出层的层内的神经元(例如神经元100及102等)中被处理。例如，从音素属性向音素的匹配等处理相当于此。

(3)依据以上内容，通过将图4的日文DNN60及英文DNN62的共同部分(神经元80及82集中的层)分割为此后的层，从而如图5所示，能获得不依赖于语言的独立子网络120。日文DNN60及英文DNN62之中，剩余部分成为依赖于各个语言的依赖子网络(例如日文的依赖子网络 122及英文的依赖子网络124)。

基于这种假设，如果预先准备学习完的独立子网络120，那么只是进行仅依赖于特定语言的依赖子网络的学习并连接独立子网络120，就能获得用于识别该语言的DNN。与进行DNN整体的学习的情况相比较，因为依赖子网络的层的数量减小，所以可期待学习所需的时间缩短。

具体而言，可考虑以下那样的构成。参照图6，准备独立子网络120 和依赖子网络122及124。独立子网络120包含输入层160、隐藏层162 及输出层164。依赖子网络122及124也同样包含输入层180及200、隐藏层182及202、以及输出层184及204。使独立子网络120的输出层164 的神经元数和依赖子网络122及124的输入层180及200的神经元数一致。

参照图7，例如在独立子网络120与依赖子网络122的连接中，将独立子网络120的输出层164的各神经元与依赖子网络122的输入层180 的对应的神经元相互连接，作为神经元对220、222、……、224。因此，需要使输出层164的神经元数与输入层180的神经元数一致。

在学习时的学习数据的正向传播(ForwardPropagation)中，将独立子网络120侧的神经元的输出x_i^LI设为向该输入层180侧的神经元输入的输入y_i^LD。另外，在此i表示神经元的索引，“LI”为“Language Independent”的缩略语，表示从语言独立出来的部分，“LD”为“Language Dependent”的缩略语，表示依赖于语言。以下的说明中也同样。

在反向传播(BackPropagation)中，独立子网络120的输出层164 内的各神经元的误差信号e_i^LI是利用下式并根据依赖子网络122或124的第2层的隐藏层内的各神经元的误差信号e_j^LD来计算的。其中，j为神经元的索引。

[数学式1]

$e_{i}^{L I} = x_{i}^{L I} (1 - x_{i}^{L I}) \underset{j}{Σ} w_{i j} e_{j}^{L D}$

其中，在该式中，w_ij为被给予依赖子网络122或124内的输入层内的第i个神经元和第2层的第j个神经元的连接的权重。

在本实施方式涉及的系统中，使图6及图7所示那样的独立子网络 120及依赖子网络122以及依赖子网络124同时学习。具体参照图9及图 10的流程图而在后面叙述，在变更学习数据的同时，交替地重复执行在连接了独立子网络120与依赖子网络122的DNN中使用日文的学习数据进行学习的处理、和在连接了独立子网络120与依赖子网络124的DNN 中使用英文的学习数据进行学习的处理。认为通过该处理，这些子网络进行学习，使得日英这两种语言所共同的、不依赖于语言的处理的神经元集中在独立子网络120中、进行日文所特有的处理的神经元集中在依赖子网络122中、进行英文所特有的处理的神经元集中在依赖子网络124中。

[效果]

如上所述，能获得独立子网络120与依赖子网络122及124，由此能获得以下那样的效果。参照图8，如上所述，若日文的独立子网络120、英文的依赖子网络122及124的学习结束，则既可以使依赖子网络122 及124与独立子网络120成组后流通，也可以分开独立地流通。

例如，设与独立子网络120完全相同的独立子网络232已经处于用户的手跟前。该用户取得日文的依赖子网络122并连接至独立子网络232 的后级，由此可构筑日文的声音识别用的DNN。如果其他用户保持与独立子网络120完全相同的独立子网络230，那么该用户取得英文的依赖子网络124并连接至独立子网络230的后级，由此可构筑英文的声音识别用的DNN。

再有，根据上述假设，独立子网络120应该进行学习，使得无论是何种语言都能使用。因此，使用该独立子网络120，如下所述能在短时间内学习新的语言的DNN。即，固定独立子网络120(将独立子网络120的参数均设为不变)，并将用于新的语言(例如中文)的未学习的依赖子网络(中文用的依赖子网络)234连接至独立子网络120的后级。然后，固定独立子网络120，使用中文的学习数据进行由独立子网络120及依赖子网络234构成的DNN的学习。此时，独立子网络120的参数不会变化，仅进行依赖子网络234的学习。通过这样的处理，依赖子网络234进行学习以便具有适合于中文的参数的值，通过将依赖子网络234连接至独立子网络120的后级，从而可构筑中文的声音识别用的DNN。当然，对于该依赖子网络234而言，既可以与独立子网络120成组地流通，也可以分开独立地流通。在某一用户具有与独立子网络120相同的独立子网络236 的情况下，该用户仅取得依赖子网络234就能与独立子网络236组合来构筑新的中文用的DNN。

依赖子网络234的层的数量与组合了独立子网络120和依赖子网络 234的DNN相比，较少。因此，依赖子网络234的学习与进行DNN整体的学习的情况相比，远远地减少。结果，即便在需要构筑针对新的语言的DNN时也能在比以往更短的时间内准备所需的DNN。

[程序构成]

上述的系统能通过计算机的硬件和在该硬件上执行的计算机程序来实现。在图9中示出实现使独立子网络120、日文的依赖子网络122及英文的依赖子网络124进行学习的处理的程序的流程图，在图10中追加地示出实现使中文的依赖子网络234进行学习的处理的程序的流程图。

参照图9，使独立子网络与依赖子网络(多个，本例中为2个)同时学习的程序，包含：将独立子网络120初始化的步骤240、将依赖子网络 122初始化的步骤242、及将依赖子网络124初始化的步骤244。独立子网络120的初始化与通常的DNN相同，是通过RBM(RestrictedBoltzman Machine，受限玻尔兹曼机)来进行的。依赖子网络122及124的初始化将独立子网络120的输出作为输入，与独立子网络120同样地使用RBM 来进行。其中，也可以不使用独立子网络120的输出而通过RBM使依赖子网络122及124分别与独立子网络120独立地进行初始化。

接着，使用学习数据同时进行独立子网络120以及依赖子网络122 及124的学习。在本例中，学习数据由日文与英文双方的声音数据及音素识别结果构成，且日英的学习数据均分割成多个集合。

本程序的、进行学习的部分包含：针对学习数据的各集合执行以下处理248的步骤246；分开独立地输出学习结果所能获得的独立子网络120、日文的依赖子网络122及英文的依赖子网络124的参数，并分别存储至未图示的存储介质，结束处理的步骤250。

处理248包含：在独立子网络120的后级连接日文的依赖子网络122 的步骤270；针对成为处理对象的学习集合内的日文的各学习数据执行连接独立子网络120与依赖子网络122所获得的DNN的学习的步骤272；在独立子网络120的后级连接英文的依赖子网络124的步骤276；使用成为处理对象的学习数据集合内的英文的各学习数据，进行连接独立子网络 120与依赖子网络124所获得的DNN的学习，直到该学习数据结束为止的步骤278。

通过执行图9的程序，从而如图6所示，独立子网络120+依赖子网络122、和独立子网络120+依赖子网络124这2个DNN的学习能分别使用日文与英文的数据而交替地执行。此时，独立子网络120使用日文与英文双方的数据来学习，日文的依赖子网络122使用日文的数据来学习，英文的依赖子网络124使用英文的数据来学习。结果，如图5所示，日文所特有的处理相关联的神经元集中在日文用的依赖子网络122中，英文所特有的处理相关联的神经元集中在英文用的依赖子网络122中，与语言独立的神经元集中在独立子网络120中。

在图10中以流程图形式示出已经获得独立子网络120后用于进行新的语言(例如中文)的依赖子网络(图8所示的依赖子网络234)的学习的程序的控制结构。

参照图10，本程序包含：在独立子网络120的后级连接依赖子网络 234来获得新的DNN的步骤300；以公知的方法执行独立子网络120+依赖子网络234所构成的DNN的初始化的步骤302；使用中文的各学习数据，将独立子网络120的参数固定来进行DNN的学习的步骤304；在学习结束后将依赖子网络234与独立子网络120分开输出并存储至未图示的存储介质的步骤308。

通过执行该程序，从而可以进行将中文用的依赖子网络234连接至独立子网络120的DNN的学习。对于独立子网络120而言，参数被固定，因此实质上该学习仅以依赖子网络234为对象。在后述的实验中，即便将如此学习后的依赖子网络234连接至独立子网络120的后级，也能获得与自最初起进行了中文用的学习的DNN同等的性能。详细内容通过后述的实验结果来描述。

[硬件构成]

上述实施方式涉及的系统可通过计算机硬件、和在该计算机硬件上执行的上述计算机程序来实现。图11表示该计算机系统330的外观，图12 表示计算机系统330的内部构成。

参照图11，该计算机系统330包含：具有存储器端口352及DVD (DigitalVersatileDisc，数字通用盘)驱动器350的计算机340；键盘346；鼠标348；以及监控器342。

参照图12，计算机340除了包含存储器端口352及DVD驱动器350 以外，还包含：CPU(中央处理装置)356；与CPU356、存储器端口352 及DVD驱动器350连接的总线366；存储启动程序(bootupprogram) 等的读出专用存储器(ROM)358；被连接于总线366且存储程序命令、系统程序及操作数据等的随机存取存储器(RAM)360。计算机系统330 还包含提供向能够与其他终端通信的网络连接的网络接口(I/F)344。

用于使计算机系统330作为上述各实施方式的系统的各功能部起作用的计算机程序，被存储至DVD驱动器350或存储器端口352所安装的 DVD362或可移动式存储器364中，进一步被转发给硬盘354。或者，程序也可以通过未图示的网络向计算机340发送并被存储至硬盘354。程序在执行之际被装载到RAM360中。也可以从DVD362、可移动式存储器 364将程序直接装载到RAM360中，或经由网络将程序装载到RAM360 中。

该程序包含由用于使计算机340作为上述实施方式涉及的系统的各功能部起作用的多个命令组成的命令串。可进行该动作所需的基本功能的几种由在计算机340上动作的操作系统或第三方的程序、或被装入计算机 340的各种编程工具箱或程序库来提供。因此，该程序自身并不一定包含实现本实施方式的系统及方法所需的全部功能。本程序在命令之中仅包括以下命令即可：通过以被控制成能获得所期望的结果的做法来调用适当的功能或编程工具箱内的适当的程序工具，由此实现作为上述系统的功能。当然，也可以仅通过程序来提供一切所需的功能。

在图5～图9所示的本实施方式中，学习数据及各子网络的参数等被存储在RAM360或硬盘354中。子网络的参数可以进一步存储至USB存储器等的可移动式存储器364，也可以经由网络等通信介质而被发送至其他计算机。

执行计算机程序时的计算机系统330的动作是公知的。因此，在此对其详细内容不再重复。

[实验]

针对基于上述假设的系统的有效性，通过实验进行了验证。实验是针对日文、英文及中文的声音数据，对帧级下的音素的识别性能进行的。声音数据是通过蓄积从已经在智能手机等中利用的声音翻译应用程序发送到声音翻译服务器的数据而得到的。

作为声响参数，是到12次为止的MFCC系数、对数声音功率以及这些帧间的Δ(delta)及ΔΔ。即，使用了每1帧39维的特征量。帧长为 20毫秒、帧移位量为10毫秒。按每1帧，将处理对象的帧和其前后各5 帧共计11帧的特征量所组成的429维的特征量矢量用作向DNN的输入。

日文、英文及中文的音素数分别为26、39及30。针对各语言的DNN 的输出层的神经元数与这些音素数吻合。

学习数据是针对各语言发音40,000次历经约25小时的声音数据。用于评价的数据设为1,000个。对各发音赋予终端编号，但评价数据的终端编号未被包含在学习数据中。

将预学习阶段内的RBM参数估计的学习率固定为0.005。学习的重复数(纪元数)设为100。在微调阶段内，使学习率从0.001开始，若针对开发数据的错误率增加，则使学习率变更为一半。开发数据数为2,000。开发数据内的终端编号既没有包含在学习数据中也没有包含在评价数据中。RBM与DNN以128的小批量大小进行了学习。

基线：

将通过以往的方法按每种语言进行了学习的DNN的音素识别性能设为本申请发明的用于评价DNN的基线。DNN的层数在任一种情况下都按照输入层分类，对2层、4层、6层的情况进行了评价。各隐藏层内的神经元数在任一种情况下都为512。在预学习阶段内，将各语言的DNN 以日文、英文及中文的发音数据分开独立地进行了初始化。对于各神经元均使用了∑函数，来作为输出函数。所获得的DNN的音素识别率如表1 所示。

[表1]

表1

根据表1可知，若层数增加，则无论何种语言，识别率都提高。

进而，依据针对上述实施方式进行了说明的DNN的学习方法，使用日文及英文的学习数据，同时进行了独立子网络、与日文用的依赖子网络及英文用的依赖子网络的学习。在此，将这些子网络称为LI_Jp，_En、LD_Jp及LD_En。结果，能获得日文用的DNN(LI_Jp，_En→LD_Jp)和英文用的DNN (LI_Jp，_En→LD_En)。以同样的方法，在使用了日文与中文的学习数据的学习中，获得了独立子网络LI_Jp，_Ch、LD_Jp及LD_Ch。在实验中，针对LI的隐藏层及输出层的神经元、和LD的隐藏层的神经元，使用了∑函数来作为输出函数。作为LD的输出层的神经元使用了Softmax函数。各隐藏层内的神经元数为512，这和作为基线的参数相同。DNN的层数为6。

在表2中示出2个DNN(LL_Jp，_En→LD_Jp及LL_Jp，_En→LD_En)的音素识别精度，在表3中示出其他DNN(LI_JP，_Ch→LD_Jp及LI_Jp，_Ch→LD_ch)的音素识别精度。

[表2]

表2

[表3]

表3

根据表2及表3可知，在对依赖子网络分配了2层以上的情况下，能获得与基线基本相同的性能。表示最优越的性能的是对LI与LD分配了相同数的层时，但其差只是少许。如上，一般而言，认为依据上述实施方式将DNN划分为独立子网络与依赖子网络而针对多种语言同时进行了学习时，能获得比自最初起对各语言进行了单独的DNN的学习的情况更好的性能。

最后，调查了将独立子网络的学习中未使用的语言的依赖子网络连接于独立子网络并将独立子网络的参数固定来学习所得到的DNN的音素识别性能。具体是，针对DNN(LI_Jp，_En→LD_Ch)和DNN(LI_Jp，_Ch→LD_En) 这2个DNN分别调查了中文与英文的音素识别性能。将结果示于表4。

[表4]

表4

由表4可知，无论在上述DNN中实质上是否仅中文的依赖子网络与英文的依赖子网络进行了学习，所获得的DNN的音素识别性能均将LD 仅有1层的情况除外，都毫不逊色于基线的性能。

根据以上的实验可知，本发明中的假设实际上正确的可能性很大。即，利用多个语言的学习数据使独立子网络与各语言的依赖子网络同时学习，由此不依赖于语言的处理相关联的神经元可以集中在独立子网络中，且与语言的声音处理尤其关联的神经元可以集中在各语言的依赖子网络中。因此，认为即便在将该独立子网络和学习未采用的语言的依赖子网络组合而构成了DNN的情况下，也能获得足够的识别性能。即，如果能获得独立子网络，则针对新的语言仅进行依赖子网络的学习，若将所获得的依赖子网络连接于独立子网络的后级，那么能获得与自最初起进行了DNN的学习的情形基本相同程度的识别性能。依赖子网络的层数可以比DNN整体的层的数量少，因此可以使该学习所需的时间远远地短于使DNN整体学习的时间。

另外，上述实施方式及实验涉及语言的音素识别。该情况下，DNN 的输出层的神经元数和各语言的音素数一致。可是，本发明并未限定于这种实施方式。作为用于声音识别的声响模型，经常使用隐马尔可夫模型 (HMM)。取代这种HMM，也可以使用DNN。该情况下，由于通过 DNN来估计隐藏状态，故DNN的输出层的神经元的数量设为和所设想的隐藏状态的数量相同的数量。

〈变形例〉

上述的实施方式涉及声音处理。可是，本发明并非只能适用于声音处理。例如，对于图像识别而言同样也可适用。在声音的情况下，存在语言这样明确的区别，以往按照每种语言进行了DNN的学习。因此，如实施方式那样若仅提取不依赖于语言的部分来作为独立子网络，则存在对于多语言而言可通用的有利之处。相对于此，在图像识别的情况下，如果存在可明确地区别对象的范畴，那么取代上述语言而按照这些范畴，使用本申请发明能有效地进行用于图像识别的DNN的学习。

例如，成为图像识别基础的边缘的提取等、图像的基本特征的检测与对象的性质无关地被共同进行。另一方面，认为图像内的具体目标的识别是基于更上位的特征而进行的。因此，认为：对于用于识别图像内的目标的DNN而言，可由从图像的范畴独立出来的子网络(独立子网络)、和按照图像的每个范畴准备的、依赖于范畴的子网络(依赖子网络)来构筑。

该情况下的学习，预先准备包含属于多个范畴的目标的图像，准备用于这些范畴的单独的依赖子网络和独立子网络。然后，将各范畴用的依赖子网络连接于独立子网络，进行针对属于该范畴的图像的DNN的学习。一定量的学习结束之后，将范畴用的依赖子网络替换为其他范畴用的子网络，以属于该范畴的图像进行DNN的学习。通过反复进行这样的学习，从而能获得从图像的范畴独立出来的独立子网络、和用于各范畴的图像的依赖子网络。通过将独立网络的参数固定，从而能够与上述实施方式的情况同样地可实现针对在学习中未被使用的范畴的图像的子网络的学习。用于此的学习时间只有少许即可。

因此，本发明也能有效适用在用于图像内的目标的识别处理的DNN 的学习。

进而，本发明并非只对声音或图像的识别处理有效。如果在同种的数据内可设想多个范畴且这些数据可分类为该范畴，那么也可适用于任何数据。

本次公开的实施方式仅仅只是例示而已，本发明并非仅限制在上述实施方式。本发明的范围在参酌发明的详细说明的记载的基础上由权利要求书的各权利要求来示出，包含与此处所记载的文字均等的含义及范围内的全部变更。

工业可用性

本发明能利用在伴随有将数据分类为多个范畴的任一种的操作的所有工业中。

符号说明

30深层神经网络(DNN)

60日文DNN

62英文DNN

80，82，100，102神经元

120，230，232，236独立子网络

122日文的依赖子网络

124英文的依赖子网络

160，180，200输入层

162，182，184隐藏层

164，184，204输出层

220，222，224神经元对

234中文的依赖子网络

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 深层神经网络的学习方法及学习装置、以及范畴独立的子网络的学习装置 [P] . 中国专利： CN105229676A . 2016-01-06
2. 深层神经网络的学习方法及学习装置 [P] . 中国专利： CN105229676B . 2018.11.23
3. DEEP NEURAL NETWORK LEARNING METHOD AND APPARATUS, AND CATEGORY-INDEPENDENT SUB-NETWORK LEARNING APPARATUS [P] . 美国专利： US2016110642A1 . 2016-04-21

机译：深层神经网络学习方法和装置，以及与类别无关的子网络学习装置
4. COMBINED LEARNING METHOD AND DEVICE USING TRANSFORMED LOSS FUNCTION AND FEATURE ENHANCEMENT BASED ON DEEP NEURAL NETWORK FOR SPEAKER RECOGNITION THAT IS ROBUST IN NOISY ENVIRONMENT [P] . 世界知识产权组织专利： WO2020204525A1 . 2020-10-08

机译：基于深层神经网络的变位函数和特征增强的变换学习方法和装置的结合，用于嘈杂环境中的说话人识别
5. METHOD FOR LEARNING AND DEVICE FOR REVIEWING INSURANCE REVIEW CLAIM STATEMENT ON BASIS OF DEEP NEURAL NETWORK [P] . 世界知识产权组织专利： WO2019164284A1 . 2019-08-29

机译：基于深层神经网络的保险审查复习声明的学习方法和装置