首页> 中国专利> 一种预测miRNA靶基因的序列特征分析方法

一种预测miRNA靶基因的序列特征分析方法

摘要

本发明公开了一种预测miRNA靶基因的序列特征分析方法。该方法基于CLASH实验数据集,构造了27个miRNA‑靶位点配对序列相关特征,结合传统特征,组成了一个包含84个特征值的特征集合;并使用随机森林模型进行机器学习,构造miRNA靶基因预测模型,进行miRNA靶基因识别。本方法构建的模型具有很好的准确率、敏感度、特异性、精确度,可以较为准确地预测miRNA靶基因。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-05

    授权

    授权

  • 2017-05-24

    实质审查的生效 IPC(主分类):G06F19/22 申请日:20161130

    实质审查的生效

  • 2017-04-26

    公开

    公开

说明书

技术领域

本发明属于分子生物学及生物信息学技术领域。更具体地,涉及一种预测miRNA靶基因的序列特征分析方法。

背景技术

MicroRNAs(miRNAs)是一类内源性、长约23个核苷酸(nt)的非编码RNA。它们主要通过与mRNA的3’UTR序列实现完全或不完全碱基互补配对,从而达到裂解mRNA和抑制mRNA翻译成蛋白质的目的,在后转录时期和翻译等级发挥重要的基因调节作用。迄今为止,已经发现了2000多个人类miRNA,这些miRNA可能调控着人体80%的基因,在各种生命活动和疾病调控中起着非常关键的作用。由于miRNA靶基因识别的具体机制尚不明确,miRNA与其靶基因的作用机制十分复杂,因此,有效识别miRNA靶基因一直是miRNA研究领域的热点难题。

单纯用蛋白免疫印迹法,Microarray等生物实验方法来鉴别miRNA靶基因,费时而且耗费。因此借助化学生物信息方法,挖掘miRNA潜在的靶基因,能进一步探讨miRNA作用机制和miRNA基因调控网络,具有重要理论意义和实用价值。近十年来,研究工作者提出了多种生物计算方法识别miRNA靶基因。miRanda通过给miRNA与其靶基因的配对情况进行打分,然后计算miRNA与靶基因形成双链后的最小自由能,同时引入了靶位点的保守性作为最后一个条件,经过层层筛选,最后得到潜在的miRNA靶基因。TargetScan提出了“种子”区(miRNA 5’端开始第2到第8位核苷酸的区间)的概念,发现种子区域的匹配情况对miRNA靶基因的识别有重大影响。PITA考虑了靶基因的二级结构,提出了靶位点的可接性概念,认为miRNA与靶基因的结合能力会受到不同二级结构影响。作为第一代生物计算方法,尽管研究人员发现了较多有用的特征,但研究表明,这些特征并不完全适用于miRNA与靶基因结合的情况。将这些特征作为筛选条件,会大大提高预测假阴性率,于是基于机器学习的第二代生物计算的方法应运而生。

用机器学习的方法来预测miRNA靶基因,其基本原理是采用可靠的数据集,根据所提出的特征,将miRNA和靶基因的结合序列特征数字化,然后将这些特征加以融合对所构建的模型进行训练,并对靶基因进行预测。Huang从表达图谱数据中提取样本用于训练模型,方法使用了CLIP(交联和免疫沉淀技术)数据用于模型训练。最近,Helwak的CLASH(crosslinking ligation and sequencing of hybrids)直接提供了miRNA和其对应的靶位点序列数据,为研究人员进一步研究miRNA与其靶基因位点序列作用提供良好平台。

近年来,许多研究采用了miRNA与靶位点形成双链的最小自由能,miRNA种子区域的配对数目,靶位点保守性,靶位点的可接入性等常用的特征,但这些方法都有特异性太低的缺点。因此构建miRNA与靶基因结合特征,对miRNA靶基因识别具有重要的意义。

发明内容

本发明要解决的技术问题是克服上述现有技术的缺陷和不足,提供了一种基于miRNA-靶位点配对的特征,结合一系列传统特征,运用随机森林算法建立模型,进行miRNA靶基因识别的方法。

本发明的目的是提供一种预测miRNA靶基因的序列特征分析方法。

本发明上述目的通过以下技术方案实现:

一种预测miRNA靶基因的序列特征分析方法,包括如下步骤:

S1:收集数据集,构造正负样本

选择CLASH数据集作为正样本,并根据该数据集构造负样本,将CLASH数据集中的miRNA与靶位点序列随机配对,删除其中的正样本,再从剩余的数据集中随机选择18514条作为负样本;

S2:根据传统特征的计算方法,计算样本传统特征的特征值

根据所采用的传统特征,计算每一个样本的特征值,并结合传统特征值构建样本特征向量;

S3:计算miRNA与靶位点结合序列特征,并构建样本特征向量

采用改进的Smith-Waterman方法将正负样本进行序列匹配,并转换为二进制序列;再根据正样本序列匹配的情况构造权重向量w,并以此向量计算正负样本的序列匹配得分特征;提出了miRNA-靶位点配对序列特征,结合传统特征,组成了一个包含84个特征值的特征集合;

S4:构建模型进行miRNA靶基因识别

采用随机森林的方法构建miRNA靶基因预测模型,并训练模型的参数;

S5:模型测试。

其中,步骤S1所述CLASH数据集采用的是文献(Helwak A,Kudla G,Dudnakova T,et al.Mapping the Human miRNA Interactome by CLASH Reveals Frequent Noncanonical Binding[J].Cell,2013,153(3):654-65.)中所提供的数据集,公众可以从其补充信息下载得到。

另外,优选地,步骤S1的具体方法为:

S11.从CLASH数据集选择正样本数据,所述正样本数据包含miRNA名、miRNA序列、靶位点所属的mRNA名、靶位点在mRNA上的起始位置、靶位点在mRNA上的终止位置、靶位点序列;

其中,所述靶位点所属的mRNA名取自ENSEMBL数据库;

S12.将正样本中所涉及到的miRNA和靶位点信息随机匹配,去除掉其中的正样本,然后从中随机抽选18514条数据,作为负样本;其中,正负样本比例为1:1。

优选地,步骤S1收集具有可信度很高的miRNA以及可以与其结合的靶位点数据。

优选地,步骤S2的具体方法为:

基于文献报道,选择miRNA与其靶基因结合的传统特征,并根据特征描述计算其特征值;所述传统特征包括:miRNA与其靶位点结合成双链的最小自由能、miRNA种子区域配对、靶位点可接入性、种子区域附近AU含量、种子区域的保守性、侧翼链的保守性、双链配对个数、靶位点长度、最长连续配对长度、最长连续序列位置、miRNA 3’端的配对数目、miRNA种子区与3’端配对差、miRNA伪二核苷酸特征、靶位点序列伪二核苷酸特征、靶位点AC个数、靶位点UG个数、靶位点AG个数、靶位点CG个数、靶位点GC含量、靶位点上游GC含量和靶位点3’端GC含量。

优选地,步骤S3的具体方法为:

S31.使用改进的Smith-Waterman算法,即按照碱基A:U和G:C互补配对原则,允许G:U错配,对每一个样本中miRNA序列和靶位点序列进行序列匹配;

S32.基于S31的序列匹配情况,从miRNA序列5’端的第一个核苷酸开始,和靶位点序列对应的核苷酸进行比对,如果匹配,则用“1”表示,如果不匹配,则用“0”表示;因为CLASH数据集中大部分miRNA的长度为23,因此本方法将每一条miRNA与靶位点结合后的双链转换为了23个“0”或“1”组成的二进制序列,如果miRNA的长度小于23,则该特征值用0补充,如果miRNA长度大于23,多出来的特征值不予考虑;最后,将这23个特征值加入特征集;

S33.根据正样本对应的二进制序列,可以计算正样本中miRNA每一个核苷酸位置配对成功的概率,并以此可以构造权重向量w;

S34.根据描述,计算序列匹配得分,并加入到特征集合中;

对于miRNA上第i位的匹配情况xi,都有其对应的权值wi;因此,构建了”全序列匹配特征1”,可以通过计算所有位置匹配得分的平均值,其计算公式如下,其中,N(N=23)为序列长度:

考虑到miRNA种子序列(第2到第8位)的重要性,将种子区域miRNA的匹配得分作为了一个特征,构建了“种子区域匹配特征1”,其计算公式如下:

“全序列匹配特征1”和“种子区域匹配特征1”考虑了配对成功对miRNA靶基因识别的影响;

对于miRNA上第i位的匹配情况xi,如果xi=1,其对应的权值为wi;如果xi=0,其对应的权值则为qi=1-wi,构建了“全序列匹配特征2”,可以通过计算整段序列匹配得分的平均值s3,其计算公式如下,其中,N(N=23)为序列长度:

“种子区域匹配特征2”,可以通过计算种子区域的匹配得分平均值,公式如下所示:

这些特征,既考虑了匹配成功情况,也考虑了匹配不成功的情况。

优选地,步骤S4所述随机森林的方法构建模型的参数优化方案和结果如下:

随机森林有两个重要的参数,n_estimators表示森林中树的棵数,max_feature表示每次生成决策树时选择的特征个数;对于n_estimators,以100梯度,提取100到1000的所有整百数取值(100,200,……,1000);对于max_feature,研究了scikit-learn工具包中所有取值,最终以n_estimators=400和max_feature=4作为模型参数。

步骤S4优化了特征集合和随机森林参数,构建最优模型识别miRNA靶基因。

本方法基于CLASH数据集,提出了miRNA-靶位点配对序列特征,结合一系列传统特征,并使用随机森林建模,进行miRNA靶基因识别。并与文献报道的其它两个采用同样数据集建立的模型进行了比较。实验结果表明,本模型的准确率,敏感度,特异性,精确度,马氏相关系数达到90.05%,89.47%,90.56%,90.43%和0.7998,ROC和PRC的AUC分别为0.954,0.958,和现有方法相比较,本方法表现出更加良好的性能,说明了新引入的miRNA-靶位点配对序列特征对miRNA靶基因识别有很重大的影响。

本发明具有以下有益效果:

本方法基于CLASH数据集,提出了miRNA-靶位点配对序列特征,并使用随机森林建模,可以较为准确地预测miRNA靶基因。该方法较现有方法,具有以下明显的优点:

(1)采用CLASH数据集,每个样本都提供了miRNA和与其精确结合的靶基因位点序列信息。传统的方法使用的数据集往往不能提供miRNA精确结合的靶基因位点序列,因此首先需要利用序列匹配的方法从mRNA中寻找可以与miRNA结合的潜在靶基因位点,然后组成样本,计算样本特征值。因为miRNA潜在的靶位点可能是不准确的,因此,本方法采用CLASH数据集比传统方法构造的数据样本集更可靠。

(2)基于miRNA与其靶位点的配对情况,将每个样本转换成了一个二进制序列,并基于该序列计算了其配对得分,构建miRNA-靶位点配对序列特征,较好地衡量了miRNA与其靶基因位点的结合可能性。

(3)采用随机森林算法建模,能够处理很高维度的数据,训练和预测速度快。当存在分类不平衡的情况时,随机森林算法能够有效地平衡数据集的差异性。当数据集中有大比例的数据缺失时仍然可以保持较好的预测精度,发现各特征之间的相互影响以及重要性程度,不容易出现过拟合。

附图说明

图1实验流程图。

图2序列匹配二进制化表示。

图3正负样本匹配对比。

图4正负样本匹配差异。

图5基于不同特征子集的预测结果。

图6实验结果的ROC和PRC曲线。

具体实施方式

以下结合说明书附图和具体实施例来进一步说明本发明,但实施例并不对本发明做任何形式的限定。

除非特别说明,本发明所用的试剂、方法和设备为本技术领域常规试剂、方法和设备。

除非特别说明,以下实施例所用试剂和材料均为市购。

实施例1 实验方法

1、实验环境

实验仪器:ASUS N551JM型计算机

编程软件:Anaconda3 Spyder,Visual Studio 2013

编程语言:Python 3.5,C++

2、正负样本及其形式

正样本选自CLASH实验数据集,共18514条数据,每一条数据中都包含了以下信息:miRNA名,miRNA序列,靶位点所属的mRNA名(取自ENSEMBL数据库),靶位点在mRNA上的起始位置,靶位点在mRNA上的终止位置,靶位点序列。

因为与miRNA可以结合的靶位点数肯定是远远小于不可以与之结合的靶位点数目,所以通过将正样本中所涉及到的miRNA和靶位点信息随机匹配,去除掉其中的正样本,然后从中随机抽选18514条数据,作为负样本。

以正样本为例,样本形式如表1所示:

表1 样本形式

3、特征集合

共选用了26种特征(84个特征值),具体的特征集合如表2所示。其中前21种特征,共57个特征值,文献已有报告;本方法所构建的后5种特征(阴影部分),含有27个特征值,这些特征值充分考虑了miRNA与其靶基因的作用情况。

表2 miRNA与靶位点结合特征集合

4、特征选择

特征选择是针对高维度数据计算问题而提出的,通过剔除冗余特征和无关特征,提高机器学习算法的泛化性能和运行效率。本方法使用了最小冗余最大相关算法(minimal redundancy maximal relevance criterion,mRMR)对84个特征排序,并选择了最优的特征子集构建模型。

5、随机森林

随机森林是一种组合方法,由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的,当测试数据进入随机森林时,让每一棵决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。本方法使用随机森林机器学习方法作为训练模型,算法来源于scikit-learn(http://scikit-learn.org/stable/)工具包,整个程序使用python开发。优化了森林中树的数目和每棵树的特征数两个参数。

6、性能指标

分类器的性能可以通过一些独立的指标进行评估。为了评估模型的性能,准确率(Acc),敏感度(Sen),特异性(Spe),精确度(Pre),马氏相关系数(Mcc)共五种指标被引入评估模型的性能。这些指标的计算方法如下:

其中,TP指被判定为正样本,事实上也是正样本的数目;TN指被判定为负样本,事实上也是负样本的数目;FN指被判定为负样本,但事实上是正样本的数目;FP指被判定为正样本,但事实上是负样本的数目。此外,受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)和准确率-召回率曲线(precision-recall curve,PRC曲线)也被引入评估模型的性能。ROC曲线是反映敏感性和特异性连续变量的综合指标,采用构图法揭示敏感性和特异性的相互关系,将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性。再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越接近1,模型性能越好。PRC曲线是反映准确率和召回率(敏感性)连续变量的综合指标,采用构图法揭示准确率和敏感性的相互关系,将连续变量设定出多个不同的临界值,从而计算出一系列准确率和敏感性。再以准确率为纵坐标、敏感性为横坐标绘制成曲线,曲线下面积越接近1,模型性能越好。

7、实验流程

miRNA的靶基因预测属于机器学习问题,整个实验的流程如图1所示。

步骤1:选择CLASH数据集作为正样本,并根据该数据集构造负样本,将CLASH数据集中的miRNA与靶位点序列随机配对,删除其中的正样本,再从剩余的数据集中随机选择18514条作为负样本,正负样本比例为1:1;

步骤2:根据传统特征的计算方法,计算样本传统特征的特征值;

步骤3:采用改进的Smith-Waterman方法将正负样本进行序列匹配,并转换为二进制序列。再根据正样本序列匹配的情况构造权重向量w,并以此向量计算正负样本的序列匹配得分特征;

步骤4:采用随机森林的方法构建模型,并训练模型的参数;

步骤5:模型测试;

步骤6:与其他模型比较并分析。

实施例2 预测miRNA靶基因的序列特征分析

1、基于miRNA-靶位点配对

miRNA与其靶位点并不是完全匹配,并且匹配情况差异很大。本方法根据样本集中miRNA与其靶位点的配对情况,将每一条miRNA与靶位点结合后的双链表示为由“0”和“1”组成的二进制序列,并对构成的二进制序列进行分析,具体过程如图2所示,其中阴影部分为“种子区域”。

在图2中,BEYLA序列为miR-149对应的靶位点序列。首先采用改进的Smith-Waterman方法,按照碱基A:U和G:C互补配对原则进行序列匹配,允许G:U错配。从miR-149序列5’端的第一个核苷酸开始,和BEYLA序列的每一个核苷酸进行比对,如果匹配,则用“1”表示,对应的核苷酸在其相应的位置用一条竖线“|”连接起来;如果不匹配,则用“0”表示。每一条序列中都可能有一些短横线“-”,表示该位置不含任何核苷酸。因此,miR-149序列和BEYLA靶位点序列的匹配可转化为二进制序列“11111111011110111110010”,共含有23个“0”和“1”特征值。因为CLASH数据集中大部分miRNA的长度为23,因此本方法将每一条miRNA与靶位点结合后的双链转换为了23个“0”或“1”组成的特征值序列,如果miRNA的长度小于23,则该特征值用0补充,如果miRNA长度大于23,多出来的特征值不予考虑。最后,本方法将这23个特征值加入特征集。

采用以上数字编码的方法,对CLASH数据集和随机构造的负样本进行了比对分析。首先,将每一个样本进行了序列匹配,然后转换为二进制“0”和“1”序列,并统计了每个位置配对成功的概率,结果如图3所示。

在图3中,横轴表示miRNA每个核苷酸的位置,纵轴表示的是miRNA上每个位置配对成功的概率。图中上面的曲线表示正样本中miRNA上每个位置配对成功的概率,下面的曲线表示负样本中miRNA上每个位置配对成功的概率。从图中可以发现,正样本整体的匹配情况比负样本好,特别是第20位之前的匹配情况,正样本明显要优于负样本。同时我们还发现,正负样本序列两端配对成功的概率要远远低于中间核苷酸位置配对成功的概率。为了直观的显示正负样本的差异性,本方法对每一个位置的差异值进行计算,其结果如图4所示。

从图4可以看出,横轴代表miRNA核苷酸位置,纵轴表示每一个位置上正负样本的匹配差异。分析发现,正负样本在第2到第8位的配对情况的差异相对于其他位置会大很多,这也与之前的研究观点相一致,即miRNA种子区域的配对情况对miRNA的靶基因识别具有很重要的作用。

基于上述的发现,本方法根据正样本中每个位置的匹配成功率构造了一个权重向量w。并以此向量为基础,提出了几种方法对miRNA的匹配序列进行打分,得到了4个关键特征。

特征1.对于miRNA上第i位的匹配情况xi,都有其对应的权值wi。因此,构建了“全序列匹配特征1”,可以通过计算所有位置匹配得分的平均值,其计算公式如式(6),其中,N(N=23)为序列长度:

特征2.考虑到miRNA种子序列(第2到第8位)的重要性,将种子区域miRNA的匹配得分作为了一个特征,构建了“种子区域匹配特征1”,其计算公式如式(7):

“全序列匹配特征1”和“种子区域匹配特征1”考虑了配对成功对miRNA靶基因识别的影响。

特征3.对于miRNA上第i位的匹配情况xi,如果xi=1,其对应的权值为wi;如果xi=0,其对应的权值则为qi=1-wi,构建了“全序列匹配特征2”,可以通过计算整段序列匹配得分的平均值s3,其计算公式如式(8)-(9),其中,N(N=23)为序列长度:

特征4.“种子区域匹配特征2”,可以通过计算种子区域的匹配得分平均值,公式如(10)所示:

特征3和特征4,既考虑了匹配成功情况,也考虑了匹配不成功的情况。

因此,根据miRNA-靶位点配对情况,构建了23个序列特征和“全序列匹配特征1”、“种子区域匹配特征1”、“全序列匹配特征2”和“种子区域匹配特征2”的4个序列得分特征,共27个特征值。

2特征选择

根据表2所构建的包含84个特征的特征集,为了研究各特征的贡献,采用mRMR方法对各特征进行了排序,前29个特征排名如表3所示。

表3 29个特征排名

从该表可以看出,所构建的“种子区域匹配特征1”排名第4,“全序列匹配特征1”排名第5,“种子区序列匹配特征2”排名第8,“全局序列匹配特征2”排名第9。说明了新构建的特征对miRNA靶基因识别有相当重要的作用。同时还可以看到,传统特征如最小自由能,保守性和种子区域配对都对miRNA靶基因识别起重要作用。

根据各特征的排名,以1为梯度,分别使用了排名前85、84、…、3、2、1个特征组成的特征子集,然后基于每一个特征子集构建对应的模型,计算了Acc,Sen,Spe,Pre以及Mcc,以考察所构建模型的性能,具体结果如图5所示。

从图5可以看出,当特征子集中的特征数大于29时,模型性能基本无变化,因此本方法最终选择了前29个特征作为特征子集。在排名前29个特征中,本方法提出了共13个特征(如表2的阴影所示),表明本方法提出的特征是可行的。

3、参数训练

随机森林有两个重要的参数,n_estimators表示森林中树的棵数,max_feature表示每次生成决策树时选择的特征个数。对于n_estimators,以100梯度,提取100到1000的所有取值(100,200,……,1000)。对于max_feature,研究了scikitlearn软件包中所有取值。结果表明,当n_estimators=400和max_feature=4时,模型的性能达到了最佳。

4、鲁棒性评估

依据上述的步骤,建立了基于随机森林算法算法的模型,对miRNA靶基因进行了预测。为了研究模型的鲁棒性,负样本进行了10次随机采样,根据所建立的数据集,构建模型和计算各性能指标,具体结果如表4所示。

表4 模型鲁棒性评估结果

从表4可以看出,准确率,敏感度,特异性,精确度,马氏相关系数的平均值分别为:90.05%,89.47%,90.56%,90.43%,0.7998,而且相对标准偏差(RSD%)均小于1.6%。

结果表明,本方法所建立的模型具有很强的鲁棒性。同时,基于最高的准确率值,本方法绘制了ROC和PRC曲线(图6),并计算了曲线面积值分别为0.9537,0.9584,说明了模型对于靶基因预测表现出良好的性能。

实施例3 模型构建与预测miRNA靶基因方法

基于以上研究分析,构建了预测miRNA靶基因方法和模型,具体如下:

1、收集数据集(收集具有可信度很高的miRNA以及可以与其结合的靶位点数据),构造正负样本

选择CLASH数据集作为正样本,并根据该数据集构造负样本,将CLASH数据集中的miRNA与靶位点序列随机配对,删除其中的正样本,再从剩余的数据集中随机选择18514条作为负样本;

(1)从CLASH数据集选择正样本数据,所述正样本数据包含miRNA名、miRNA序列、靶位点所属的mRNA名、靶位点在mRNA上的起始位置、靶位点在mRNA上的终止位置、靶位点序列;

其中,所述靶位点所属的mRNA名取自ENSEMBL数据库;

(2)将正样本中所涉及到的miRNA和靶位点信息随机匹配,去除掉其中的正样本,然后从中随机抽选18514条数据,作为负样本;其中,正负样本比例为1:1。

2、选择miRNA与其靶基因结合的,并根据传统特征的计算方法,计算样本传统特征的特征值,并结合传统特征值构建样本特征向量;

基于文献报道,选择miRNA与其靶基因结合的传统特征,并根据特征描述计算其特征值;所述传统特征包括:miRNA与其靶位点结合成双链的最小自由能、miRNA种子区域配对、靶位点可接入性、种子区域附近AU含量、种子区域的保守性、侧翼链的保守性、双链配对个数、靶位点长度、最长连续配对长度、最长连续序列位置、miRNA 3’端的配对数目、miRNA种子区与3’端配对差、miRNA伪二核苷酸特征、靶位点序列伪二核苷酸特征、靶位点AC个数、靶位点UG个数、靶位点AG个数、靶位点CG个数、靶位点GC含量、靶位点上游GC含量和靶位点3’端GC含量。

3、计算miRNA与靶位点结合序列特征,并构建样本特征向量

采用改进的Smith-Waterman方法将正负样本进行序列匹配,并转换为二进制序列;再根据正样本序列匹配的情况构造权重向量w,并以此向量计算正负样本的序列匹配得分特征;提出了miRNA-靶位点配对序列特征,结合传统特征,组成了一个包含84个特征值的特征集合;具体方法如下:

(1)使用改进的Smith-Waterman算法,即按照碱基A:U和G:C互补配对原则,允许G:U错配,对每一个样本中miRNA序列和靶位点序列进行序列匹配;

(2)基于(1)的序列匹配情况,从miRNA序列5’端的第一个核苷酸开始,和靶位点序列对应的核苷酸进行比对,如果匹配,则用“1”表示,如果不匹配,则用“0”表示;因为CLASH数据集中大部分miRNA的长度为23,因此本方法将每一条miRNA与靶位点结合后的双链转换为了23个“0”或“1”组成的二进制序列,如果miRNA的长度小于23,则该特征值用0补充,如果miRNA长度大于23,多出来的特征值不予考虑;最后,将这23个特征值加入特征集;

(3)根据正样本对应的二进制序列,可以计算正样本中miRNA每一个核苷酸位置配对成功的概率,并以此可以构造权重向量w;

(4)根据描述,计算序列匹配得分,并加入到特征集合中;

对于miRNA上第i位的匹配情况xi,都有其对应的权值wi;因此,构建了”全序列匹配特征1”,可以通过计算所有位置匹配得分的平均值,其计算公式如下,其中,N(N=23)为序列长度:

考虑到miRNA种子序列(第2到第8位)的重要性,将种子区域miRNA的匹配得分作为了一个特征,构建了“种子区域匹配特征1”,其计算公式如下:

“全序列匹配特征1”和“种子区域匹配特征1”考虑了配对成功对miRNA靶基因识别的影响;

对于miRNA上第i位的匹配情况xi,如果xi=1,其对应的权值为wi;如果xi=0,其对应的权值则为qi=1-wi,构建了“全序列匹配特征2”,可以通过计算整段序列匹配得分的平均值s3,其计算公式如下,其中,N(N=23)为序列长度:

“种子区域匹配特征2”,可以通过计算种子区域的匹配得分平均值,公式如下所示:

这些特征,既考虑了匹配成功情况,也考虑了匹配不成功的情况。

4、采用随机森林的方法构建miRNA靶基因预测模型,进行miRNA靶基因识别,并训练模型的参数;优化了特征集合和随机森林参数,构建最优模型识别miRNA靶基因。

所述随机森林的方法构建模型的参数优化方案和结果如下:

随机森林有两个重要的参数,n_estimators表示森林中树的棵数,max_feature表示每次生成决策树时选择的特征个数;对于n_estimators,以100梯度,提取100到1000的所有整百数取值(100,200,……,1000);对于max_feature,研究了scikit-learn工具包中所有取值,最终以n_estimators=400和max_feature=4作为模型参数。

5、模型测试。

实施例4 与其他方法比较

1、为了验证新构建特征的有效性,基于传统特征集构建了miRNA靶基因预测模型,并与本方法所使用的模型进行比较。

同时,为了进一步验证模型的性能,本方法与其它两个采用同样数据集构建的模型MirTarget和TarPmiR进行了比较。

2、结果如表5所示。

表5 不同方法比较

结果表明,当加入新构建的特征后,模型的性能得到了很大的提高,准确率提高了6%,特异性和精确度均提高了近5%,敏感度的改善明显,提高了近9%,ROC和PRC曲线面积提高了10%左右,进一步验证了新构建特征的有效性。同时,将本方法与已有的TarPmiR和MirTarget方法进行比较,可以看到,本方法所采用的模型整体性能表现出了更好的性能。其中本方法的准确率相比TarPmiR和MirTarget分别增加了8%和5%,改善明显。同时本模型的ROC和PRC曲线面积高达0.95以上,也验证了本模型性能的稳定性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号