首页> 中国专利> 用于识别注意力缺陷多动障碍亚型的方法及系统

用于识别注意力缺陷多动障碍亚型的方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了一种用于识别注意力缺陷多动障碍亚型的方法，包括：获取待识别用户的个人信息和语音信息，并对语音信息进行预处理；提取语音信息的语音特征，语音特征包括时域特征和频域特征；基于个人信息，将待识别用户的语音特征与符合预定条件的人口信息关联图中相应的已知用户的语音特征相关联，其中，已知用户具有注意力缺陷多动障碍亚型标签；以及利用图神经网络模型预测待识别用户的注意力缺陷多动障碍亚型。

著录项

公开/公告号CN113160967A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人中国科学院计算技术研究所;首都医科大学附属北京安定医院;
展开▼

申请/专利号CN202110270623.0
发明设计人蒋鑫龙;陈益强;郑毅;乔雨曦;黄武亮;周玉明;
展开▼

申请日2021-03-12
分类号G16H50/20(20180101);G06N3/04(20060101);G10L21/0208(20130101);G10L25/09(20130101);G10L25/24(20130101);G10L25/30(20130101);G10L25/66(20130101);
代理机构11280 北京泛华伟业知识产权代理有限公司;
代理人王勇
地址 100190 北京市海淀区中关村科学院南路6号
入库时间 2023-06-19 11:57:35

说明书

技术领域

本发明涉及计算机数据挖掘分析技术领域，尤其涉及用于识别注意力缺陷多动障碍亚型的方法及系统。

背景技术

儿童注意力缺陷多动障碍(ADHD，又称多动症，在本文中三者可以互换)分为三个亚型——多动冲动型(ADHD-H)、注意力缺陷型(ADHD-I)以及混合型(ADHD-C)。精确识别多动症的亚型有利于尽早采取干预措施并进行矫正。

目前，传统的多动症识别方法有三种：基于儿童日常表现的量表评定、脑电波检查、或者通过核磁共振成像技术进行的脑部功能活动特征检查。另外，一些最新的科学研究为儿童佩戴传感器来监测他们的日常活动，通过对他们运动频率、活动状态等进行计算分析以辅助识别多动症。然而，现有的识别方法或受评定者主观因素的影响，或检查设备昂贵且过程复杂，不利于广泛应用。

因此，亟需一种改进的用于识别注意力缺陷多动障碍亚型的方法和系统。

发明内容

因此，本发明实施例的目的在于克服上述现有技术的缺陷，提供一种用于识别注意力缺陷多动障碍亚型的方法，包括：获取待识别用户的个人信息和语音信息，并对所述语音信息进行预处理；提取所述语音信息的语音特征，所述语音特征包括时域特征和频域特征；基于所述个人信息，将所述待识别用户的所述语音特征与符合预定条件的人口信息关联图中相应的已知用户的语音特征相关联，其中，所述已知用户具有注意力缺陷多动障碍亚型标签；以及利用图神经网络模型预测所述待识别用户的注意力缺陷多动障碍亚型。

在一个实施例中，所述人口信息关联图通过以下方式建立：以已知用户的语音特征为节点，在符合预定条件的已知用户的语音特征节点之间生成连接边。

在一个实施例中，所述预定条件包括：用户的年龄、在校年级以及韦氏儿童智力测试评分的相似度。

在一个实施例中，所述时域特征包括：短时能量特征、过零率、阅读速度、均方根值和振幅微扰。

在一个实施例中，所述频域特征包括：梅尔频率倒谱系数和一阶差分梅尔频率倒谱系数。

在一个实施例中，所述语音特征还包括全局特征，所述全局特征包括全局能量和阅读总时长。

在一个实施例中，所述对所述语音进行预处理包括：降噪和分帧。

本发明另一方面提供了一种用于识别注意力缺陷多动障碍亚型的系统，包括：接口模块，用于获取待识别用户的个人信息和语音信息，并对所述语音信息进行预处理；特征提取模块，用于提取所述语音信息的语音特征，所述语音特征包括时域特征和频域特征；关联模块，用于基于所述个人信息，将所述待识别用户的所述语音特征与符合预定条件的人口信息关联图中相应的已知用户的语音特征相关联，所述已知用户具有注意力缺陷多动障碍亚型标签；以及预测模块，用于利用图神经网络模型预测所述待识别用户的注意力缺陷多动障碍亚型。

本发明另一方面提供了一种存储介质，其中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现上述任一项所述的方法。

本发明另一方面提供了一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现上述任一项所述的方法

本发明实施例的技术方案可以包括以下有益效果：

一方面通过提取语音特征并进行客观的计算和评估，能够避免传统的量表评估诊断方法中人的主观因素对识别结果产生的负面影响；另一方面通过人口信息关联图将生长发育情况相近的儿童建立关联关系，并使用图神经网络(GNN)模型对ADHD亚型进行分类，可以实现在训练样本较少的情况下也可以获得较为精确的结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示出了本发明一个实施例的用于识别多动症亚型的方法的流程图。

图2示出了本发明一个实施例的获取用户语音信息的示意图。

图3示出了本发明一个实施例的建立人口信息关联图的示意图。

图4示出了本发明一个实施例的利用图神经网络模型预测待识别儿童的多动症亚型的示意图。

图5示出了本发明一个实施例的用于识别注意力缺陷多动障碍亚型的系统的结构示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图神经网络(Graph Neural Networks,GNNs)是一种基于图结构的深度学习方法。图神经网络主要由“图”和“神经网络”两部分组成，“图”是指图论中的图数据结构，“神经网络”则是深度学习NN结构，如MLP，CNN，RNN等。图神经网络就是利用神经网络进行深度特征提取以处理图结构的数据。可以将图结构的数据(例如社交网络图、交通路线图、人物关系图、分子结构图、计算结网络拓扑图等等)作为图神经网络的输入，之后经过特定的神经网络结构(例如MLP，CNN，RNN等的基于图结构的运算)完成对于图的分类，即对图中的节点或边的预测等功能。

利用图神经网络进行分类有三种类型，即无监督学习、半监督学习和监督学习。其中半监督学习是指对于给定一个网络，其中部分节点被标记，其他节点未标记，通过学习一个鲁棒模型以有效地识别未标记节点的类标签。为此，可以通过叠加一对图卷积层，然后是用于多类分类的softmax层来构建端到端框架。

基于上述理论研究，本发明一个实施例提供了一种用于识别多动症亚型的方法，通过提取用户特定的语音特征并与人口信息关联图中个人信息类似的用户建立关联关系，使用图神经网络模型对ADHD亚型进行分类，以实现即使在训练样本较少的情况下，也可以获得更为精确地识别结果。

由于多动症患者多为儿童或青少年，下文将以儿童为示例用户来介绍本发明的一个实施例，但可以理解，本发明的方案同样适用于其他任何用户。

图1示出了本发明一个实施例的用于识别多动症亚型的方法的流程图。如图1所示，该方法包括以下步骤：

S110，获取待识别儿童的个人信息和语音信息。

在一个实施例中，获取待识别儿童的个人信息可以包括儿童的姓名、年龄、性别、在校年级以及韦氏儿童智力测试评分等。

在一个实施例中，可以通过阅读课文采集待识别儿童的语音信息。在采集儿童语音信息的过程中，可以为儿童提供与其知识水平相匹配的阅读材料并让其朗读。阅读材料例如来自于小学1-6年级语文课外阅读读本，对于每一个受试者，在采集语音信息前，首先询问其入学年级，随后选择相应的阅读材料。这样既避免了受试者因为熟知课文内容而超常发挥影响结果，也避免了选用的阅读材料难度过大而导致受试者不自信带来的影响。

图2示出了本发明一个实施例的获取用户语音信息的示意图。如图2所示，阅读内容使用大宽屏液晶显示器展示，显示界面上添加了卡通元素，可以有效消除儿童的紧张和不安；录音使用的麦克风隐藏在显示器上方正中央，以避免儿童在朗读过程中出现紧张或过于表现的情况发生；麦克风高度与小学阶段的儿童身高相当，可以从理想的角度清晰收音录制。在帮助受试者充分熟知阅读材料(生字、生词以及文章内容)后，开始计时并录音。计时并不显示在屏幕上，以避免儿童出现焦虑等情绪。录音过程中须保持无杂音、无干扰儿童注意力等情形的出现，除非儿童无法完成朗读而要求提前结束，录音过程中不可以打断儿童朗读，也不可以提前结束录音。

通过朗读课文材料的方式收集语音信息，是对儿童日常课堂学习情景的模拟。一方面可以有效消除儿童在诊断过程中的紧张和不安感，另一方面也可以获得儿童在课堂表现时较为真实的数据。

S120，对获取的语音信息进行预处理。

获取到的语音信息需要在语音特征提取前先进行预处理。在一个实施例中，语音信息的预处理包括：

1)降噪：语音数据的采集(即录音)过程中，会有背景噪声、机器工作时产生的噪声以及其它杂音录入，因此需要先将这些噪音去除。

2)分帧：将去噪后的语音数据进行分帧，例如每一帧时长为20毫秒，帧移为10毫秒。

语音数据的预处理可以使用音频处理软件进行。首先消除录音过程中的噪声，包括背景噪声、机器运转时的噪声以及对待识别儿童的安抚声等。然后将阅读开始前和阅读结束后录制的空白片段删去。阅读过程中出现的空白片段不删除，因为这些空白片段反映了儿童在阅读过程中注意力转移或发声困难等情况的出现。最后将语音信号进行归一化，以消除不同儿童发声习惯、与麦克风距离不同等情况而产生的信号幅度差距的影响。

S130，提取语音信息的语音特征。

根据多动症儿童的症状以及这些症状可能导致的语音特征改变，在一个实施例中，可以通过计算提取在经预处理后的每一帧信号中的局部语音特征。局部语音特征包括时域特征和频域特征。

在一个实施例中，提取的时域特征可以包括：

短时能量特征：语音能量反映说话人声音的强度，区分浊音和清音。能量计算公式为∑|x

过零率：过零率是指信号穿过0值的次数，具体来说就是信号从正数变成负数或者从负数变成正数的次数。过零率能够反映语音信号的平滑度以及发声过程中气流的流量。大多数多动症患儿的声带结构会发生一定程度的改变，从而影响说话时声道的气流。

阅读速度：阅读速度可以反映人在看到文字后的反应时间，以及对接收到的信息的处理速度，因此阅读速度可以预测注意力不集中的症状。

均方根值(Root-Mean-Square):均方根值能够反映与说话人的声音强度相对应的短时能量，同时有助于区分清音和浊音。多动症儿童常会出现叫喊、声音过大等表现，从而引发声带受损以及提高他们患上发音障碍的风险。声带受损或发生病变均表现为嗓音出现异常。

振幅微扰：振幅微扰描述信号相邻周期之间信号幅度的变化，主要反映语音的嘶哑程度，同时也反映声带振动的稳定性。振幅微扰有两种表示方式——分贝形式和百分数形式，计算公式分别为：

其中A

在一个实施例中，提取的频域特征可以包括：

梅尔频率倒谱系数(MFCC)：MFCC是一组用来描述语音信号的物理信息的特征向量，表示信号频谱的能量在不同频率区间的分布，是语音识别过程中常用的特征。

一阶差分梅尔频率倒谱系数(Delta MFCC)：MFCC表示每一帧信号的静态特性，但由于语音信号是时域连续的，因此使用MFCC的一阶差分值，即Delta MFCC来表现语音信号的变化特征。

在一个实施例中，还可以提取的语音信息的全局特征，即在完整的录音文件上提取特征。提取的全局特征可以包括全局能量和阅读总时长，其中，全局能量特征是除了短时间内的能量特征，儿童在阅读过程中的整体表现也是判定症状的依据。本发明从全局的角度提取了儿童在阅读每一篇短文的过程中能量的平均值、标准差以及4分位数，来反映儿童在阅读过程中语音能量的分布。

S140，依据预定条件，建立人口信息关联图。

处在生长发育期的儿童在生理、心理以及智力方面的差别较大，儿童的行为表现也会因为不同的发育阶段、知识水平差异以及智力差异等因素有所差别，因此在识别儿童多动症亚型时，可以考虑每一个待识别儿童的年龄、智力等因素，对比相同发育阶段的多动症儿童的行为表现，进行综合的分析研判后，得出诊断结果。

因此在一个实施例中，可以依据预定条件，例如儿童的年龄、在校年级以及韦氏儿童智力测试评分等的相似度，将发育阶段类似的多动症儿童间建立关联关系，建立人口信息关联图。其中，每一个节点代表一个多动症儿童的语音特征，节点间根据多动症儿童的年龄、年级和韦氏儿童智力测试得分的相似程度生成连接边。

图3示出了本发明一个实施例的建立人口信息关联图的示意图。其中，图3A中的表格列出了10个多动症儿童的部分个人信息和多动症亚型，例如，第1位多动症儿童的年龄(Age)为7岁，年级(Grade)为2年级，韦氏智力测试得分(C-WISC)为136，该儿童的多动症亚型为ADHD-H；第4位多动症儿童的年龄(Age)为7岁，年级(Grade)为3年级，韦氏智力测试得分(C-WISC)为98，该儿童的多动症亚型为ADHD-I；第7位多动症儿童的年龄(Age)为8岁，年级(Grade)为3年级，韦氏智力测试得分(C-WISC)为104，该儿童的多动症亚型为ADHD-C。

图3B示出了依据不同的预定条件为10个多动症儿童建立的不同的人口信息关联图。在每一幅人口信息关联图中，10个多动症儿童根据其ID号分别用标号为1-10的节点表示，每一个节点中包含有对应的多动症儿童的语音特征，节点的形状代表对应的多动症儿童的多动症亚型。依据不同的预定条件，可以在10个节点中连接不同的边，进而建立不同的人口信息关联图。例如，在图3B(1)中，预定条件为年龄相差不超过3岁(age±3)、年级相差不超过2个年级(grade±2)以及韦氏智力测试得分相差不超过10分(Wisc±10)，则可以在符合上述预定条件的节点之间生成连接边，建立一幅人口信息关联图；在图3B(2)中，预定条件为年龄相差不超过3岁(age±3)、年级相差不超过2个年级(grade±2)以及韦氏智力测试得分相差不超过5分(Wisc±5)，则可以在符合上述预定条件的节点之间生成连接边，建立另一幅不同的人口信息关联图。类似地，依据不同的预定条件，可以建立图3B(3)以及图3B(4)所示的的人口信息关联图。

S150，基于待识别儿童的个人信息，将待识别儿童的语音特征与符合预定条件的人口信息关联图中相应的已知用户的语音特征相关联。

可以将待识别儿童作为一个节点，该节点记录了该儿童的语音特征，然后基于将待识别儿童的年龄、在读年级以及韦氏智力测试得分与符合预定条件的人口信息关联图中相应的多动症儿童的进行相关联，构建节点之间的连接边。例如，假设待识别儿童的年龄为6岁，年级为1年级，韦氏智力测试得分140，预定条件为年龄相差不超过3岁(age±3)、年级相差不超过2个年级(grade±2)以及韦氏智力测试得分相差不超过10分(Wisc±10)，则将待识别儿童的语音特征作为一个节点，将该儿童的年龄、在读年级以及韦氏智力测试得分与符合上述预定条件人口信息关联图(即图3B(1))中的节点一一对比，当符合上述预定条件时，与该节点之间生成连接边，即相关联。

S160，利用训练好的图神经网络模型预测待识别儿童的多动症亚型。

图4示出了本发明一个实施例的利用图神经网络模型预测待识别儿童的多动症亚型的示意图。如图4所示，将关联后的人口信息关联图输入一个训练好的3层图卷积网络模型，最终可以预测该待识别儿童的多动症亚型。在一个实施例中，图卷积神经网络中隐藏单元数量可以分别设置为128、64、3，激活函数为ReLu，每一层dropout比例为0.5。

上述实施例一方面通过提取语音特征并进行客观的计算和评估，能够避免传统的量表评估诊断方法中人的主观因素对识别结果产生的负面影响；另一方面通过人口信息关联图将生长发育情况相近的儿童建立关联关系，并使用图神经网络(GNN)模型对ADHD亚型进行分类，可以实现在训练样本较少的情况下也可以获得较为精确的结果。

图5示出了本发明一个实施例的用于识别注意力缺陷多动障碍亚型的系统的结构示意图。如图5所示，该系统500包括接口模块501、特征提取模块502、关联模块503和预测模块504。尽管该框图以功能上分开的方式来描述组件，但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且，无论这样的组件是如何被组合或划分的，它们都可以在同一计算装置或多个计算装置上执行，其中多个计算装置可以是由一个或多个网络连接。

其中接口模块501获取待识别用户的个人信息和语音信息，并对语音信息进行预处理。特征提取模块502如上文介绍的那样提取所述语音信息的语音特征，语音特征包括时域特征和频域特征。关联模块503基于个人信息，将待识别用户的语音特征与符合预定条件的人口信息关联图中相应的已知用户的语音特征相关联，已知用户具有注意力缺陷多动障碍亚型标签。预测模块504如上文介绍的那样利用图神经网络模型预测待识别用户的注意力缺陷多动障碍亚型。

在本发明的又一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序或可执行指令，当所述计算机程序或可执行指令被执行时实现如前述实施例中所述的技术方案，其实现原理类似，此处不再赘述。在本发明的实施例中，计算机可读存储介质可以是任何能够存储数据且可以被计算装置读取的有形介质。计算机可读存储介质的实例包括硬盘驱动器、网络附加存储器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学或非光学数据存储装置。计算机可读存储介质也可以包括分布在网络耦合计算机系统上的计算机可读介质，以便可以分布式地存储和执行计算机程序或指令。

本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此，短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外，特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此，结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合，只要该组合不是非逻辑性的或不能工作。

本说明书中“包括”和“具有”以及类似含义的术语表达，意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外，本申请附图中的各个元素仅仅为了示意说明，并非按比例绘制。

虽然本发明已经通过上述实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于识别注意力缺陷多动障碍亚型的方法及系统 [P] . 中国专利： CN113160967A . 2021-07-23
2. 同一条鱼识别设备、鱼计数设备，用于鱼计数的便携式终端、同一条鱼识别方法、鱼计数方法、鱼计数预测设备、鱼计数预测方法、同一条鱼识别系统、鱼计数系统和鱼计数预测系统 [P] . 中国专利： CN107205366A . 2017-09-26
3. Methods for recognizing and diagnosing subsets of Alzheimer's disease associated with immune system dysfunction, and for the in vitro testing of possible therapeutic agents for treatment of same [P] . 美国专利： US4728605A . 1988-03-01

机译：识别和诊断与免疫系统功能障碍相关的阿尔茨海默氏病亚型的方法，以及用于体外测试治疗该疾病的可能治疗剂的方法
4. Methods and systems for identifying cellular subtypes in an image of a biological specimen [P] . 美国专利： US10460439B1 . 2019-10-29

机译：用于识别生物样本图像中细胞亚型的方法和系统
5. SYSTEMS AND METHODS FOR IDENTIFICATION OF RECEPTOR SUBTYPES TO PROGESTERON [P] . 俄罗斯专利： RU2016133175A . 2018-05-08

机译：用于识别孕激素的受体亚型的系统和方法