首页> 中文学位 >蛋白质-核酸界面丙氨酸突变效应数据库与热点残基研究
【6h】

蛋白质-核酸界面丙氨酸突变效应数据库与热点残基研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题的研究背景及意义

1.1.1 生物信息学概述

1.1.2 蛋白质-核酸相互作用的概述

1.1.3 蛋白质-核酸界面热点残基简介

1.1.4 蛋白质-核酸界面热点残基的研究意义

1.2 蛋白质-核酸界面热点残基研究现状

1.3 本文内容安排

1.3.1 本文研究内容

1.3.2 本文章节安排

1.3.3 创新点

第二章 蛋白质-核酸界面丙氨酸突变效应数据库的构建与分析

2.1 引言

2.2 残基丙氨酸突变效应数据的收集与处理

2.3 残基丙氨酸突变效应数据库的构建

2.4 数据库中数据的分析

2.5 本章小结

第三章 蛋白质-核酸界面热点残基预测模型的构建

3.1 引言

3.2 数据集的获取

3.2.1 训练集数据

3.2.2 独立测试集数据’

3.3 基于蛋白质理化和结构信息的特征生成

3.3.1 基于氨基酸理化属性的特征

3.3.2 基于氨基酸深度指数和突出指数的特征

3.3.3 氨基酸溶剂可及表面积相关特征

3.3.4 静电势相关特征

3.3.5 氢键相关特征

3.3.6 二级结构相关特征

3.3.7 序列保守性特征

3.4 特征选择

3.4.1 特征选择简介

3.4.2 基于决策树和序列向前的特征选择方法

3.5 分类器模型的构建

3.6 模型评价指标

3.7 统计分析检测特征与热点之间的关系——Wilcoxon秩和检验

3.8 实验结果与分析

3.8.1 特征选择结果

3.8.2 两步特征选择效果的进一步验证

3.8.3 不同分类器结果比较

3.8.4 模型在独立测试集上的评估

3.8.5 与其他预测模型的比较

3.9 特征分析

3.9.1 残基的物理化学属性与热点残基

3.9.2 残基的深度指数、突出指数与热点残基

3.9.3 残基的溶剂可及表面积与热点残基

3.9.4 残基的静电势与热点残基

3.9.5 残基的氢键与热点残基

3.9.6 残基的二级结构与热点残基

3.9.7 残基的保守性与热点残基

3.10 本章小结

第四章 总结与展望

4.1 全文工作总结

4.2 后续工作展望

参考文献

附录

致谢

攻读学位期间科研成果

展开▼

摘要

蛋白质和核酸的相互作用在生物体的众多生命活动中发挥着非常重要的作用,例如基因的转录,翻译,DNA修复和DNA组装等过程。了解相互作用中氨基酸的替换对蛋白质-核酸结合亲和力的影响,可能有利于阐明蛋白质-核酸识别的分子机制;也有助于寻找一些涉及到蛋白质-核酸相互作用紊乱而产生的复杂疾病的解决方法。然而时至今日,仍然没有一个全面的最新的包含蛋白质-核酸界面丙氨酸突变定量结合数据的数据库可以公开访问。基于此,我们建立了一个新的用于研究蛋白质-核酸相互作用丙氨酸突变效应的数据库(dbAMEPNI)。dbAMEPNI是一个基于文献的,由人工管理的数据库。数据库包含一个核心数据集(Core set),这个数据集中包含了577个由实验测定的蛋白质-核酸界面丙氨酸突变的结合亲和力数据,它们包含了很多重要的组分,如解离常数(Kd),以及吉布斯自由能的变化(△△G),实验条件和蛋白质界面中突变残基的结构参数。另外,数据库还包含了一个扩展数据集(Extended set),这一数据集仅包含282个单丙氨酸突变的热力学效应的定性(或者描述性)数据。
  数据库公开访问网址为:http://zhulab.ahu.edu.cn/dbAMEPNI/。
  基于此数据集,我们进一步发展了一种基于知识的蛋白质-核酸界面热点残基预测方法。热点残基是蛋白质-核酸相互作用界面残基中的一小部分残基,他们贡献了蛋白质-核酸结合中绝大部分的亲和性。蛋白质-蛋白质界面热点残基已经被广泛的研究,与之相比,对蛋白质-核酸相互作用界面热点残基的研究仍然很少,其中一个很重要的原因是蛋白质-核酸相互作用的突变数据不像蛋白质-蛋白质界面那么多。在本文的研究中,我们从我们自己构建的dbAMEPNI数据库中获取503个丙氨酸突变数据,这些数据都有热力学记录。然后使用PISCES去除冗余后,得到了358个蛋白质-核酸界面的丙氨酸突变数据。其中299个数据被用来作为训练数据集训练我们的模型,剩下59个则被用作独立测试集来评价模型的泛化能力。为了构建我们的模型,我们生成了七大类共计97个不同的结构特征,并使用决策树和顺序向前特征选择来选择最优的特征子集。最后利用支持向量机(SVM)构建了一个基于10个特征的模型。这些特征中包含了两个新提出的特征,分别为△SASsa1/2和esp3。前者是残基侧链埋藏的绝对溶剂可及表面积的平方根,后者是目标残基周围小片的静电势。在训练集的交叉验证中,我们模型的敏感度,精确度,准确度和F1score分别为0.640,0.764,0.840和0.696,而另一种目前已有的用于预测蛋白质-核酸相互作用热力学效应的mCSM-NA模型,它的敏感度,精确度,准确度和F1score分别为0.4190.3500.609和0.381。除此之外,该模型在独立测试集上进行进一步验证,独立测试集中的59个数据中有3个是热点残基,另外的56个为非热点残基。我们的模型在独立测试集中给出的敏感度,精确度,准确度和F1score分别为0.667,0.400,0.932和0.500,相比较mCSM-NA的1.00,0.100,0.542和0.182而言,我们的模型在预测效果上有一定的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号