公开/公告号CN112735604A
专利类型发明专利
公开/公告日2021-04-30
原文格式PDF
申请/专利权人 大连海事大学;
申请/专利号CN202110045563.2
申请日2021-01-13
分类号G16H50/80(20180101);G06K9/62(20060101);G06F17/14(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构21242 大连至诚专利代理事务所(特殊普通合伙);
代理人张海燕;杨威
地址 116000 辽宁省大连市甘井子区凌水街道凌海路1号
入库时间 2023-06-19 10:48:02
技术领域
本发明涉及新型冠状病毒分类技术领域,一种基于深度学习算法的新型冠状病毒分类方法。
背景技术
新型冠状病毒,是一类具有包膜、基因组为线性单股正链的RNA病毒,因为人群缺少对新型病毒株的免疫力,所以人群普遍易感。由于新型冠状病毒具有较长的潜伏期,所以迫切的需要阐明和分析病毒基因组序列,以便更好地了解这种新型病毒并且及时制定治疗方案。而现有的方法通过对序列数据进行相似性比较虽然已经找到了序列相似性。但是这种序列对比方法需要借助基因注释,以数据库作为参考,利用比对软件分析数据,在面对需要同时分析数千个细胞表观基因组序列时几乎是不可能的。传统的机器学习方法很难提取病毒序列的非线性抽象特征,只能提取低层特征,低层特征主要是对病毒序列局部信息的描述,并不能很好的描述病毒基因组序列的全部特征,在需要分析病毒基因组序列这种大数据的背景下,缺乏计算效率和预测准确性。
发明内容
本发明提出一种基于深度学习的方法来分类新型冠状病毒,此方法对于分析和处理病毒序列大数据场景时可以有效挖掘其潜在价值,不仅解决了比较基因组学方法在新型冠状病毒分类方面的困难,而且该算法能够逐层学习到病毒序列的非线性特征,提取到更加全面且有代表性的基因组数据特征,克服了传统机器学习方法无法提取高层特征(抽象特征)的缺陷,从而有效提高了分类器的分类性能,实现了对病毒基因组序列内在非线性关联机制的深入挖掘,其特征在于,包括如下步骤:
步骤1获取新型冠状病毒数据集,从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;
步骤2预处理病毒序列数据集,得到特征向量;
步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入;
步骤4根据所述模型的输入,训练最优新型冠状病毒分类模型;
步骤5使用所述最优新型冠状病毒分类模型预测新型冠状病毒数据的标签。
进一步地,所述步骤2预处理病毒序列数据集,得到特征向量,其实现步骤为:
步骤2.1将所述病毒序列进行字符序列初步编码字符得到数字序列;
步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;
进一步地,步骤2.1将所述病毒序列进行字符序列初步编码字符得到数字序列,实现方法为:
从数据库下载的病毒序列为字符序列,由A,T,G,C四种碱基符号表示,将其转化为所述级联自动编码器所识别的数字序列,假设病毒序列集合表示为D={P
进一步地,步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;,其实现步骤为:
步骤2.2.1将每一个病毒序列数字信号D
步骤2.2.2将1个
步骤2.2.3递归重复M-2次步骤2.2.2,得到经过M次分解的成为病毒序列的2点DFT运算,D
进一步地,所述步骤2.3根据所述幅值利用马氏距离构造特征向量,其实现为:
其中Hi和Hj分别为病毒序列第i个和第j个数字信号的幅值。对于病毒序列标签采用one-hot编码,编码后任一病毒类型对应一个标签值,L=[L
进一步地,所述步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入,其实现步骤为:
步骤3.1为了学习到更加鲁棒的病毒序列特征,随机破坏所述特征向量的小部分数据得到样本,避免其在前一阶段字符序列编码时引入一些无关信息的影响,从而使设计的自动编码器更能抓住病毒序列的本质特征;
步骤3.2将L1+L2范数作为惩罚项共同用于模型改进,避免算法对输入数据过度拟合,构建损失函数;
步骤3.3训练第一级自动编码器,得到第一层低维特征向量;
步骤3.4将第一级自动编码器的输出作为下一级编码器的输入,继续完成第二级自动编码器的训练,重复此步骤,直至完成第三级自动编码器的训练,得到病毒序列抽象的高层特征表达;
进一步地,所述步骤3.2将L1+L2范数作为惩罚项共同用于模型改进,避免算法对输入数据过度拟合,构建损失函数,其实现为:
x
进一步地,所述步骤3.3训练第一级自动编码器,得到第一层低维特征向量,其实现为:
假设病毒数字序列n个样本,表示为X={x
进一步地,所述步骤3.4第三级自动编码器输出的病毒序列抽象的高层特征表达,其实现为:
获得病毒序列最终特征可表示为:
进一步地,所述步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型,其步骤为:
步骤4.1将训练集数据划分为K份,其中一份作为验证集,其余K-1份作为训练集;
步骤4.2使用贝叶斯优化得到最佳超参数;
步骤4.3根据所述最佳超参数使用深度学习网络进行训练,得到优化后的新型冠状病毒分类模型;
步骤4.4选取没有划分为验证集的数据集中的其中一份作为验证集,其余数据作为训练集,重复步骤4.1,若所有数据均被划分过是验证集,则计算K次优化后的新型冠状病毒分类模型在测试集上的精度,精度最高的模型作为最优新型冠状病毒分类模型。
本发明提出一种基于深度学习算法的新型冠状病毒分类方法,可以有效提高分类精度,解决新型冠状病毒分类准确率低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明病毒序列特征提取框图;
图2为本发明病毒序列自动编码器算法流程图;
图3为本发明深度学习模型epoch参数优化流程图;
图4为本发明深度学习模型其余参数优化流程图;
图5为本发明的整体流程图;
图6为本发明数据库中现有可用病毒序列分类结构示意图;
图7为本发明深度学习模型预测病毒序列分类结构图;
图8为本发明深度学习模型网络具体结构设计;
图9为本发明COVID-19序列分级别建模分类预测结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图5为本发明的整体流程图,本发明提出一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,包括如下步骤:
(1)获取现有可用病毒序列和新型冠状病毒数据集:
(1a)从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;
(2)预处理病毒序列数据集,得到特征向量
(2a)将所述病毒序列进行字符序列编码字符得到数字序列;
(2b)将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;
(2c)根据所述幅值利用马氏距离构造特征向量;
(3)使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入
(4)根据所述模型的输入,训练最优新型冠状病毒序列分类模型
(4a)将训练集数据划分为K份,其中一份作为验证集,其余K-1份作为训练集;
(4b)使用贝叶斯优化得到最佳超参数;
(4c)根据所述最佳超参数使用深度学习网络进行训练,得到优化后的新型冠状病毒分类模型;
(4d)选取没有划分为验证集的数据集中的其中一份作为验证集,其余数据作为训练集,重复步骤(4a),若所有数据均被划分过是验证集,则计算K次优化后的新型冠状病毒分类模型在测试集上的精度,精度最高的模型作为最优新型冠状病毒分类模型;
(5)使用所述最优新型冠状病毒分类模型预测新型冠状病毒数据的标签;
步骤(2a)将所述病毒序列进行字符序列初步编码字符得到数字序列,实现方法为:
从数据库下载的病毒序列为字符序列,由A,T,G,C四种碱基符号表示,将其转化为级联自动编码器所识别的数字序列,假设病毒序列集合表示为D={P
步骤(2b)将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;,其实现原理为:
对于每一个D
步骤1将每一个病毒序列数字信号D
步骤2将1个
步骤3递归重复M-2次步骤2.2.2,得到经过M次分解的成为病毒序列的2点DFT运算,D
步骤(2c)根据所述幅值利用马氏距离构造特征向量,其实现为:
其中Hi和Hj分别为病毒序列第i个和第j个数字信号的幅值;
步骤(3)所述使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入,其实现步骤为:
(3a)为了学习到更加鲁棒的病毒序列特征,随机破坏所述特征向量的小部分数据,避免其在前一阶段字符序列编码时引入一些无关信息的影响,从而使设计的自动编码器更能抓住病毒序列的本质特征;
(3b)将L1+L2范数作为惩罚项共同用于模型改进,避免算法对输入数据过度拟合,构建损失函数;
(3c)训练第一级自动编码器,得到第一层低维特征向量;
(3d)将第一级自动编码器的输出作为下一级编码器的输入,继续完成第二级自动编码器的训练,重复此步骤,直至完成第三级自动编码器的训练,得到病毒序列抽象的高层特征表达;
(3e)步骤(3b)所述构建损失函数,其实现为:
x
步骤(3c)所述训练第一级自动编码器,得到第一层低维特征向量,其实现为:
假设病毒数字序列n个样本,表示为X={x
步骤(3d)所述第三级自动编码器输出的病毒序列抽象的高层特征表达,其实现为:
获得病毒序列最终特征可表示为:
具体来说,步骤(3)可总结为:
具体的,假设病毒数字序列n个样本,表示为X={x
Z
步骤(4)可总结为:
首先将特征提取后的病毒数字序列通过一个卷积层进行降维,卷积核在工作时,有规律的扫过病毒数字序列输入特征,对输入特征做矩阵元素乘法求和并叠加偏差量,提取到的特征保持了输入的固有拓扑。卷积方法公式为(4-1),其中,f(·)为激活函数,*为卷积运算,
在卷积层进行特征提取之后,输出的特征会被传递至池化层进行特征选择和信息过滤。采用最大池化方法,池化方法公式为(4-2),其中
使用含有两个卷积层的基础残差模块代替堆叠卷积层解决了网络深度带来的训练困难问题,在基础残差模块后接一个池化层进行特征信息过滤且在一定程度上防止过拟合。所述步骤三一个残差模块被定义为y
k
全局平均池化后使用全连接层对提取的特征进行非线性组合以得到输出,该过程表示为(4-5),式中⊙代表矩阵乘法,W
y
在对病毒序列进行分级别建模时全连接层神经元数,N取值分别为13,12,4,4,即对应每次病毒序列类别总数。本专利使用交叉熵函数作为损失函数训练模型,具体过程如(4-6),式中y
深度学习模型设计如图7所示,网络具体结构设计如图8所示。
在对模型进行优化时,对于定型周期(epoch)确定,经过30轮评估模型val-loss不再减少,输出此时epoch值作为模型最佳epoch参数设置,epoch优化方案如图3所示。除epoch之外其余参数优化方案如图4所示。使用三折交叉验证评估不同参数选择下模型的预测性能,使用三折交叉验证AUC值的平均值作为评估指标并以此来定义目标函数,保证在模型参数选择上的可靠性。网络参数调优范围可见下表:
通过K折交叉验证方式来比较深度学习模型在选择不同参数条件下模型的预测能力,在模型训练之前,将样本数据进行打乱以消除样本可能带来的偏差,为了确保所有数据集都能被训练,将训练数据分成K份,训练深度学习模型,每次选不同的K-1份做训练,1份做测试,重复K次,比较模型评价指标的K次平均值从而选出最优的模型。使用准确率(acc)、精确率(Precision)来进行评估,该值越接近1效果越佳。
在对COVID-19序列进行分类时,由于训练数据每一条病毒序列都是一组分类学名称,从界级别到属级别,由高到低排列,数据库中现有可用病毒序列分类结构如图6所示,所以应该分级别去建模计算,顺序为由高到低去寻找。第一次范围为11个病毒家族和核糖病毒域,使用优化好的深度学习模型对COVID-19序列进行分类预测,可确定其为核糖病毒域。第二次范围为核糖病毒域下的12个科,使用优化好的深度学习模型对COVID-19序列进行分类预测,可确定其为冠状病毒科(Coronaviridae)。第三次范围为冠状病毒科下的四个属,使用优化好的深度学习模型对COVID-19序列进行分类预测,可确定其为冠状病毒属(Betacoronavirus)。第四次范围为冠状病毒属下的四个亚属,使用优化好的深度学习模型对COVID-19序列进行分类预测,可确定其为B系(Sarbecovirus)。因此最终可确定COVID-19序列分类标签为冠状病毒属(Betacoronavirus)的B系(Sarbecovirus),COVID-19序列分级别建模分类预测结构如图9所示。
设选择的最优模型表示为f(x),对于COVID-19序列x,使用此模型输出它的分类标签,COVID-19_label=f(x)。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
机译: 基于深度学习算法的心电图特征提取方法,装置,系统,装置和分类方法
机译: “财产识别方法”(“ PIM”)是一种新颖的算法,通过该算法,可以通过对文件(如市议会/房屋价格通知)进行图像处理来创建房地产管理局和/或产权转让数据。本发明建立了一种独特的算法,该算法结合了诸如深度学习分段和计算机视觉之类的技术来解码属性信息。该应用程序利用以某种方式配置的计算机实现的技术,以使运输商和房地产经纪人能够自动创建客户端文件。
机译: 基于深度学习和设备的信息分类方法