首页> 中国专利> 根据分类特征集标识基因序列表达谱

根据分类特征集标识基因序列表达谱

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

根据与基因表达相关联的序列特征，通过接收基因序列数据来分类基因序列，确定基因序列特征集，根据机器学习模型确定针对基因序列特征集的第一分类，根据机器学习模型针对基因序列定义与第一分类相关联的因果特征集，更改针对基因序列的因果特征集而产生更改的因果特征集，根据机器学习模型确定针对更改的因果特征集的第二分类，其中第二分类不同于第一分类，并且定义目标特征集，其中目标特征包括更改的因果特征集的因果特征。

著录项

公开/公告号CN114520023A

专利类型发明专利
公开/公告日2022-05-20

原文格式PDF
申请/专利权人国际商业机器公司;
展开▼

申请/专利号CN202111345846.5
发明设计人 L-J·加德纳;R·V·克里希纳;A·P·凯里埃里;E·O·匹兹-奈普;
展开▼

申请日2021-11-15
分类号G16B25/10;G16B40/00;
代理机构北京市金杜律师事务所;
代理人马明月
地址美国纽约阿芒克
入库时间 2023-06-19 15:22:57

法律信息

法律状态公告日

法律状态信息

法律状态
2022-05-20

公开

发明专利申请公布

说明书

背景技术

本公开总体上涉及基因序列表达谱的检测和标识。本公开具体涉及标识与基因表达相关联的基因序列特征。

理解基因表达(也称为转录组)对于理解生物体生物发育和疾病是必需的。机器学习(ML)已经被用于使用DNA碱基序列和/或表观遗传数据来预测转录组谱。DNA碱基序列数据通常包括转录因子结合位点(TFBS)和/或增强子。这些属性被认为有助于基因表达的控制，并且属性(诸如，DNA碱基序列特征)可以从许多物种广泛和公开可获得的预先存在的资源中标识。目前的方法利用基因表达规则元素的实验性基因表达数据和/或先验知识。

发明内容

下面给出发明内容以提供对本公开的一个或多个实施例的基本理解。本概述不旨在标识关键或重要元素或描绘具体实施例的任何范围或权利要求的任何范围。其唯一目的是以简化形式呈现概念，作为稍后呈现的更详细描述的序言。在本文所述的一个或多个实施例中，装置、系统、计算机实现的方法、设备和/或计算机程序产品能够对与基因表达的复杂模式相关的基因序列数据进行分类。

本发明的方面公开了与根据与基因表达相关联的序列特征通过接收基因序列数据对基因序列进行分类相关联的方法、系统和计算机可读介质，确定基因序列特征集，根据机器学习模型确定所述基因序列特征集的第一分类，根据所述机器学习模型为所述基因序列定义与所述第一分类相关联的因果特征集，更改基因序列的因果特征集而产生改变的因果特征集，根据机器学习模型确定更改的因果特征集的第二分类，其中第二分类不同于第一分类，并且定义目标特征集，其中目标特征包括来自更改的因果特征集的因果特征。

附图说明

通过在附图中对本公开的一些实施例进行更详细的描述，本公开的上述和其他目的、特征和优点将变得更加明显，其中，在本公开的实施例中，相同的附图标记通常指代相同的部件。

图1提供了根据本发明的实施例的计算环境的示意图。

图2提供了描绘根据本发明的实施例的操作性序列的流程图。

图3描绘了根据本发明的实施例的云计算环境。

图4描绘了根据本发明实施例的抽象模型层。

具体实施方式

将参照附图更详细地描述一些实施例，在附图中示出了本公开的实施例。然而，本公开能够以各种方式实现，因此不应被解释为限于这里公开的实施例。

在一个实施例中，系统的一个或多个组件可以采用硬件和/或软件来解决本质上是高度技术性的问题(例如，确定基因序列特征集，根据机器学习模型确定基因序列特征集的第一分类，根据机器学习模型定义基因序列的因果特征集，更改基因序列的因果特征集而产生改变的因果特征集，根据机器学习模型确定改变的因果特征集的第二分类，其中第二分类不同于第一分类，以及定义目标特征集等)。这些解决方案不是抽象的，并且由于例如促进基因序列分类所需的处理能力而不能作为一组精神行动由人来执行。此外，所执行的一些过程可由专用计算机来执行，该专用计算机用于执行与分类基因序列相关的已定义任务。例如，可以使用专门的计算机来执行与基因序列的分类等相关的任务。

对基因序列进行精确分类导致理解与基因表达模式相关的基因序列属性。在一天昼夜节律的过程中标识与基因表达模式相关联的序列使得能够通过使用工具(诸如聚类的规则间隔的短回文重复(CRISPR/Cas9))的基因编辑来控制和操作这种表达模式。应用包括基因表达疗法和农业改进。所公开的实施例能够对与基因表达模式相关的基因序列进行分类。

在一个实施例中，该方法利用训练的机器学习(ML)模型来对基因序列进行分类。该方法根据所需分类的性质训练模型。例如，对于与生理节奏或非生理节奏序列相关联的基因序列或基因启动子序列的分类，该方法利用包括已知其表达为生理节奏或非生理节奏的基因序列的标记数据，作为用于开发ML分类模型的训练和测试数据。

该方法评估基因集和一组相关联的基因启动子集的时间序列转录组数据。在一个实施例中，该方法将输入基因的相关启动子序列收集为紧邻该基因的碱基对序列上游的一组碱基对。例如，该方法在基因上游收集1500个碱基对作为该基因的启动子序列。转录组包括与基因/基因启动子的活性相关的信使RNA数据。时间序列转录组数据提供与所观察的时间段内基因/基因启动子的信使RNA的变化相关的数据。转录组随时间的变化指示观察到的时间段内基因/启动子活性或基因/启动子表达的变化。

在一个实施例中，基因/启动子集的单个基因/启动子的转录组分析在48小时的总观察期内每两小时发生。所使用的基因/启动子序列包括已知的和公开可获得的基因/启动子序列。昼夜节律基因在24小时期间内表现出表达的规律周期性变化-和转录组数据的伴随变化。非昼夜节律基因表达在表达上缺少这种规律的周期性变化。该分析产生了50，000个基因/启动子的训练数据集，其中25，000个基因/启动子由于转录组数据在观测的时间段内改变而被标记为生理节奏，并且另外25，000个基因/启动子基于时间序列转录组数据而被标记为非生理节奏。该方法根据在时间序列转录组数据中观察到的表达数据标记训练集的基因/启动子。具有包括标记为生理节奏的24个周期上的周期性表达模式的时间序列数据的基因/启动子以及缺少标记为非生理节奏的这种周期性表达模式的基因/启动子。类似地，该方法可以使用针对其他复杂表达模式的时间序列转录组数据来适配，以对那些复杂表达模式的训练数据集进行分类和标记。一旦分类和标记，训练基因序列的集合不需要再次被生成。

在使用可用基因序列的时间序列转录组分析以生成训练数据集之后，该方法处理50，000个基因训练数据集的每个基因。该方法产生遗传核苷酸子序列集或k聚体。在一个实施例中，该方法利用长度为6核苷酸的k聚体。可以选择和使用其他k聚体长度，例如4、8、10、12或更多。对于k聚体，该方法产生A、T、G和C(腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)的核苷酸选项的所有可能组合的集合。对于k聚体的6组中的4个核苷酸碱基存在总共4096个可能的组合。

对于每个可能的k聚体组合，该方法分析基因的训练集并且确定该k聚体在训练数据集的每个基因中的出现数目。在一个实施例中，该分析产生指示每个基因中每个k聚体的出现数目的矩阵。对于每个基因，矩阵条目构成基因的特征。

在一个实施例中，该方法计数跨该基因的碱基对序列的特征出现的数目并且附加的跨该相关联的基因启动子的碱基对序列的特征出现的计数。基质包括基因和基因启动子各自的特征计数值的分布。对于该实施例，可能的特征的总数目双倍至8192，4096个可能的基因特征和4096个可能的基因启动子特征。

在一个实施例中，该方法计数跨基因和基因启动子的组合序列的特征出现。在该实施例中，矩阵包括4096个可能特征中的每个的特征计数值。

在一个实施例中，该方法将每个基因的特征数目从可能的4096减少到更少数目的特征，诸如100个特征。作为实例，所述方法可以使用卡方(chi squared)测试来从矩阵中的总体特征集合中标识最显著的100个特征。

在实施例中，该方法利用分类算法来预测训练集的经标记的数据的分类。示例性分类算法包括逻辑回归、随机森林、XGBoost、决策树、K-NN(K最近邻)、高斯过程、LightGBM(梯度提升方法)和SVM(支持向量机)。该方法使用80％的用于训练的数据和20％的用于测试所开发的算法的数据来分割训练数据集。在该实施例中，该方法利用k最近邻算法，并且在利用k值2对标记的训练数据进行分类时达到77％的准确度。取决于训练数据的拟合和预测中所期望的准确度，该方法可以利用其他k值。开发的模型仅依赖于训练集序列内的k聚体分布，而不使用与基因序列相关联的实验数据。例如，训练的模型将从输入数据序列导出的特征集分类为生理节奏或非生理节奏。分类二分法由训练数据集的性质产生。通过类推，与其他复杂基因表达模式相关联的标记的训练数据产生适于将来自输入序列的特征集分类为符合或不符合复杂基因表达模式的模型。

在实践中，该方法接收基因序列数据，如所描述地处理该序列数据而产生该序列的特征集，并且将该特征集传递到分类模型以用于分析。该模型返回特征集和相关联的基因序列的分类。

在实施例中，诸如图形用户界面(GUI)的用户界面提供对所公开的方法的用户访问。该方法接收来自用户的基因序列数据。用户可以下载或以其他方式为他们的感兴趣的物种提供公共可用的基因组(以及表观遗传(如果可用的话))资源，或者使用私有用户定义的数据集。在一个实施例中，该方法使用与公共可用的基因组数据库相关联的应用程序接口(API)来提供到这些数据库的链接。提供的基因序列资源将是具有基因注释和/或DNA甲基化和/或组蛋白修饰等的基因组序列的形式。

该方法处理所提供的序列数据，分析所提供的数据以计数4096个可能的k聚体A-G-T-C中的每个k聚体A-G-T-C的出现数目，对于具有6个碱基的k聚体的核苷酸组合。在一个实施例中，该方法利用表观遗传数据来忽略来自特征矩阵中捕获的特征组中的已知重度甲基化的转录因子结合位点(TFBS)。忽略这种位点减少了矩阵值的数目并且将特征矩阵限制为与序列差异(与表达差异相关联)相关联的特征/属性。TFBS充当表达的实用功能，而不是充当基因属性。该方法捕获相应的特征计数作为与所分析的每个基因相关联的值的矩阵。

该方法向经训练的ML模型提供特征矩阵以用于分类。所述方法可以在将特征集传递到ML模型以用于分类之前将矩阵值的数目从完整4096减少到较小数目，诸如100。ML模型(诸如k最近邻模型)对每个输入特征集进行分类。所述方法以输入特征集的特征向量和导致所述分类的最近相邻者的形式提供对所述分类的解释。该方法将输入特征向量与最近相邻特征向量进行比较，并且该比较导致标识候选因果特征集的成员——输入特征集的最有可能负责将输入分类为分配给其的最终分类的那些特征。

在实施例中，所述方法使用来自输入特征向量与k个最近相邻特征向量的比较的数据对候选因果特征集的特征进行排名。

在一个实施例中，该方法选择性地演化输入基因“计算机模拟”。对于所述候选因果特征集中的每个特征，所述方法选择性地编辑所述输入的基因序列，从所述序列和从所述序列的特征集中移除所述候选特征。该方法然后对经编辑的特征集合进行分类。该方法将导致分类变化的编辑特征(例如，将序列从生理节奏改变为非生理节奏的特征)分类为目标特征集的成员。该方法将目标特征的完整集合编译为所有候选因果特征，其在被编辑之后导致分类变化。完整的靶特征集提供了用于实际基因编辑以改变原始输入基因的基因表达模式的候选项。通过一种手段(诸如CRISPR/Cas9)选择性地去除候选靶特征应当改变该基因的表达模式，如由编辑的进化序列的分类变化所指示的。

在一个实施例中，最终的目标特征集提供了在相关物种中标识与来自第一物种的输入基因序列的基因同源物的手段。作为一个实例，该方法的用户可以将与面包小麦、普通小麦、相关小麦物种(诸如硬粒小麦)、或相关谷物物种(诸如大麦或燕麦物种)相关联的分类结果应用于相关小麦物种(诸如硬粒小麦)、或相关谷物物种(如大麦或燕麦物种)。作为另一个实例，用户可以将与第一受试者的基因组相关联的基因表达分类结果应用于相同物种的其他受试者的基因组。所公开的实施例对人类基因序列的应用假定人类供体已经同意或以其他方式决定由所公开的方法和系统的用户使用他们的基因序列数据。

在实施例中，所述方法维持模型的每个分类的候选因果特征集。在该实施例中，该方法通过计算机进化从候选因果特征集中选择特征用于第一分类以用于添加，以输入被模型标识为不同分类的基因序列。类似地，该方法从候选因果特征集中选择特征以用于通过计算机模拟进化从通过模型用该分类标识的输入基因序列移除的分类。

在实施例中，该方法使用排名最高的候选因果特征开始输入序列的计算机内演化，并且从该排名最高的候选项行进至排名最低的候选项。在该实施例中，所述方法在阈值数目的连续排序的候选因果特征未能导致分类改变之后停止候选因果特征的计算机模拟演化；例如，在10个连续排序的候选项各自未能导致分类变化之后，该方法使用候选因果特征停止输入基因序列的计算机进化。

图1提供了与实践所公开的发明相关联的示例性网络资源的示意图。本发明可在处理指令流的所公开元件中的任何一个元件的处理器中被实践。如图所示，联网客户端设备110无线地连接到服务器子系统102。客户端设备104经由网络114无线地连接到服务器子系统102。客户端设备104和110包括基因序列分类程序(未示出)以及足够的计算资源(处理器、存储器、网络通信硬件)来执行程序。客户端设备104和110充当使得用户能够向所公开的方法和系统提供输入基因序列和表观基因数据的用户接口设备。客户端设备104和110还充当所公开的实施例的输出设备以向用户提供输出数据。

如图1所示，服务器子系统102包括服务器计算机150。图1示出根据本发明的实施例的联网计算机系统1000内的服务器计算机150的组件的框图。应当理解，图1仅提供了一个实现的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以对所描绘的环境进行许多修改。

服务器计算机150可以包括(多个)处理器154、存储器158、持久性存储装置170、通信单元152、(多个)输入/输出(I/O)接口156和通信结构140。通信结构140在高速缓存162、存储器158、持久性存储装置170、通信单元152和输入/输出(I/O)接口156之间提供通信。通信结构140可利用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。例如，通信结构140可利用一个或多个总线来实现。

存储器158和持久性存储装置170是计算机可读存储介质。在该实施例中，存储器158包括随机存取存储器(RAM)160。通常，存储器158可包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存162是快速存储器，其通过保持来自存储器158的最近访问的数据以及最近访问的数据附近的数据来增强(多个)处理器154的性能。

用于实践本发明的实施例的程序指令和数据(例如，基因序列分类程序175)被存储在持久性存储装置170中以由服务器计算机150的相应的(多个)处理器154中的一个或多个处理器经由高速缓存162来执行和/或访问。在该实施例中，持久性存储装置170包括磁性硬盘驱动器。备选地，或除了磁性硬盘驱动器之外，持久性存储装置170可以包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或能够存储程序指令或数字信息的任何其他计算机可读存储介质。

持久性存储装置170所使用的介质也可以是可移除的。例如，可移除硬盘驱动器可以用于持久性存储装置170。其他示例包括光盘和磁盘、拇指驱动器和智能卡，其被插入到驱动器中以便转移到也是永久性存储装置170的一部分的另一计算机可读存储介质上。

在这些示例中，通信单元152提供与其他数据处理系统或设备(包括客户端计算设备104和110的资源)的通信。在这些实例中，通信单元152包括一个或多个网络接口卡。通信单元152可以通过使用物理和无线通信链路中的一个链路或两者来提供通信。软件分发程序，以及用于实现本发明的其他程序和数据，可以通过通信单元152下载到服务器计算机150的持久性存储装置170中。

(多个)I/O接口156允许与可以被连接到服务器计算机150的其他设备进行数据的输入和输出。例如，(多个)I/O接口156可以提供到(多个)外部设备190(诸如键盘、小键盘、触摸屏、麦克风、数码相机、和/或一些其他合适的输入设备)的连接。(多个)外部设备190还可以包括便携式计算机可读存储介质，诸如例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实施本发明实施例的软件和数据，例如服务器计算机150上的基因序列分类程序175，可以被存储在这种便携式计算机可读存储介质上，并且可以经由(多个)I/O接口156被加载到持久性存储装置170上。(多个)I/O接口156还连接到显示器180。

显示器180提供向用户显示数据的机制，并且可以是例如计算机监视器。显示器180还可以充当触摸屏，诸如平板计算机的显示器。

图2提供了示出与本公开的实践相关联的示例性活动的流程图200。在程序开始之后，用户向基因序列分类程序175提供从公共源、私有源或公共源和私有源的组合获取的基因序列数据。输入数据包括基因组序列数据214以及基因注释和DNA甲基化和/或组蛋白修饰数据。输入数据可以还包括表观遗传数据，诸如基因组序列的先前结构域知识，例如序列的重度甲基化的TFBS位点，218。

在220处，基因序列分类程序175的方法处理输入基因数据214而产生输入数据的序列特征矩阵。序列特征包括关于输入数据214的基因组序列中可能的6个碱基k聚体的分布的数据。

在230处，基因序列分类程序175的方法可选地利用表观遗传数据218来从220减少特征矩阵中的条目的数目。该方法从矩阵中移除与已知的重度甲基化的TFBS位点相关联的特征或将相关的矩阵入口值降低到零。

在240处，基因序列分类程序175的方法对来自220或用来自230的表观遗传信息修改的特征集的输入基因序列特征集进行分类或预测分类。该方法利用机器学习模型，该机器学习模型使用与所期望的分类相关的经标记的基因序列数据的训练数据集来训练以分类基因序列。例如，使用与生理节奏和非生理节奏基因序列中的每个相关联的标记的基因序列训练的机器学习模型为所提供的输入特征集提供生理节奏或非生理节奏的预测。

在250处，基因序列分类程序175的方法使用分类的分类模型解释来生成候选因果特征集。该集合包括最可能已经导致该输入序列的模型分类的输入基因序列的那些序列特征。在实施例中，所述方法从最可能到最不可能对候选特征集的成员进行排名。

在260，基因序列分类程序175的方法选择性地编辑来自220或230的输入基因序列和相关联的输入序列特征集。对于候选因果特征集的每个成员，该方法从输入基因序列和相关联的输入序列特征集移除特征。

在270处，基因序列分类程序175的方法使用经训练的机器学习模型对经编辑的输入特征集进行预测或分类。所述方法传递其移除将分类更改为目标特征集合的输入特征，280。该方法返回到260并且编辑每个候选因果特征，利用每次迭代，仅通过单个候选因果特征来编辑输入序列和相关联的特征集。

在实施例中，所述方法是针对机器学习模型的每个可能分类的通用候选因果特征集。在该实施例中，在260处，该方法从输入序列移除候选因果特征并且从用于输入序列的分类的通用候选因果特征集去除输入特征，或者从用于不同分类的通用候选因果特征集添加候选因果特征。例如，对于分类为生理节奏的输入序列，该方法从非生理节奏序列的通用候选因果特征中添加候选因果特征，或者从输入序列和输入特征集的候选因果特征集中移除候选偶然特征。在该实施例中，该方法针对机器学习分类模型的每个可能的分类来细化目标特征集。(从导致分类改变的通用因果特征集添加的特征被添加到用于该分类的相关联目标特征集；例如，该方法将来自通用候选因果特征集的被添加到导致该序列被重新分类为非生理节奏的生理节奏序列的特征添加到用于非生理节奏序列的目标特征集。)

该方法经由用户界面210将目标特征集从280提供给用户。用户可以利用目标特征来选择性地编辑用于与改变基因表达模式相关联的遗传疗法的实际遗传序列，或改变植物物种遗传表达以增强农业生产。

在实施例中，所公开的方法的执行要求计算资源超过用户本地可用的那些计算资源。在该实施例中，用户连接到包括边缘云和云资源的联网资源以使得能够及时地执行这些方法。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便、按需的网络访问，所述可配置计算资源可以用最小的管理努力或与服务提供者的交互来快速配置和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以按需自动地单方面供应计算能力，诸如服务器时间和网络存储，而无需与服务的提供者的人类交互。

广泛的网络接入：能力在网络上是可用的并且通过标准机制来访问，所述标准机制促进由异构的瘦或厚客户端平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池化：提供者的计算资源被池化以使用多租户模型服务于多个消费者，其中不同的物理和虚拟资源根据需要被动态地分配和重新分配。存在位置独立性的意义，因为消费者通常对所提供资源的确切位置不具有控制或知识，但可以能够在较高抽象层级(例如，国家、州或数据中心)处指定位置。

快速弹性：可以快速且弹性地提供能力(在一些情况下，自动地)以快速缩小并且快速释放以快速放大。对于消费者，可用于供应的能力通常显得不受限制，并且可以在任何时间以任何数量购买。

测量的服务：云系统通过利用适于服务类型(例如，存储、处理、带宽和活动用户账户)的某种抽象级别的计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用的服务的提供者和消费者两者提供透明度。

业务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用可以通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至个体应用能力的底层云基础结构，可能的例外是有限的用户特定的应用配置设置。

平台即服务(PaaS)：向消费者提供的能力是在云基础结构上部署消费者创建或获取的应用，所述应用是使用提供者所支持的编程语言和工具来创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础结构，但是具有对所部署的应用以及可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供消费者能够部署和运行可以包括操作系统和应用的任意软件的处理、存储、网络和其他基本计算资源。消费者不管理或控制底层云基础结构，而是具有对操作系统、存储、所部署的应用的控制，以及对所选联网组件(例如，主机防火墙)的可能有限的控制。

部署模型如下：

私有云：云基础结构仅为组织操作。它可由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础结构由若干组织共享并且支持具有共享的关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础结构对公众或大型产业组可用并且由销售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共的)的组成，这些云保持唯一实体但通过标准化或专有技术来绑定在一起，这些技术实现数据和应用便携性(例如，用于云之间的负载平衡的云突发)。

云计算环境是面向服务的，关注无状态、低耦合、模块性和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图3，描绘了说明性云计算环境50。如图所示，云计算环境50包括一个或多个云计算节点10，云消费者使用的本地计算设备(诸如个人数字助理(PDA)或移动电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可以与云计算节点10通信。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础结构、平台和/或软件作为云消费者不需要维护本地计算设备上的资源的服务。应当理解，图3所示的计算设备54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备进行通信。

现在参见图4，示出了由云计算环境50(图3)提供的一组功能抽象层。应预先理解，图4中所示的部件、层和功能旨在仅是说明性的，并且本发明的实施例不限于此。如所描绘的，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储装置72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个实例中，管理层80可以提供下文所描述的功能。资源供应81提供用于执行云计算环境内的任务的计算资源和其他资源的动态获取。计量和定价82在云计算环境内利用资源时提供成本跟踪，并且针对这些资源的消费进行计费或开发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及对数据和其他资源的保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)计划和履行85提供云计算资源的预安排和采购，根据SLA预期该云计算资源的未来要求。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟教室教育交付93；数据分析处理94；交易处理95；以及基因序列分类程序175。

本发明可以是任何可能的集成技术细节水平的系统、方法和/或计算机程序产品。本发明可有利地在处理指令流的任何系统(单个或并行)中实践。所述计算机程序产品可以包含上面具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的方面。

计算机可读存储加噪可以是可以保留和存储指令以用于指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下：便携式计算机盘，硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)，静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)，数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片)或具有记录在其上的指令的凹槽中的凸起结构)，以及上述的任意合适的组合。如本文所使用的计算机可读存储介质或计算机可读存储装置不应被解释为瞬态信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)，或通过导线传输的电信号。

本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备，或经由网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并且转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令，指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据，集成电路的配置数据，或以一种或多种编程语言的任何组合编写的源代码或目标代码，包括面向对象的Smalltalk、C++等编程语言，以及过程式编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行本发明的方面。

本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机的处理器，专用计算机或其他可编程数据处理装置，以产生机器，其通过计算机或其他可编程数据处理装置的处理器执行，创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在可指导计算机的计算机可读存储介质中，可编程数据处理装置，和/或以特定方式起作用的其他设备，使得具有共同地存储在其中的指令的计算机可读存储介质包括制品，该制品包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置上，或使得在计算机上执行一系列操作步骤的其他装置，其他可编程装置或其他设备，以产生计算机实现的过程，使得在计算机上执行的指令，其他可编程装置或其他设备实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图图示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此，流程图或框图中的每个方框可以代表模块、段或指令的一部分，其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些备选实施例中，框中所标注的功能可以不以图中所标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。还将注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现，所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。

说明书中对“一个实施例”、“实施例”、“示例性实施例”等的引用表示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可不一定包括该特定特征、结构或特性。此外，这样的短语不一定指代相同的实施例。进一步，当结合实施例描述特定特征、结构或特性时，认为结合无论是否明确描述的其他实施例来影响这样的特征、结构或特性在本领域技术人员的知识范围内。

在此使用的术语仅用于描述具体实施例的目的并且不旨在限制本发明。如在此使用的，单数形式“一/一个(a/an)”和“所述(the)”旨在也包括复数形式，除非上下文另外清楚地指示。将进一步理解，当在本说明书中使用术语“包括”和/或“包括”时，其指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其群组的存在或添加。

已经出于说明的目的呈现了本发明的不同实施例的描述，但并不旨在是穷尽性的或局限于所公开的实施例。在不脱离本发明的范围和精神的情况下，许多修改和变化对本领域的普通技术人员将是明显的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场中发现的技术上的技术改进，或使得本领域普通技术人员能够理解在本公开的实施例。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基因活性分类器在患感染性/非感染性多器官功能衰竭患者基因表达谱的体外分类中的应用 [P] . 中国专利： CN101146914A . 2008-03-19
2. 一种基于共享字典学习的基因表达谱分类方法 [P] . 中国专利： CN110033824A . 2019-07-19